Instructions to use SteveTran/ob_semantic_model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use SteveTran/ob_semantic_model with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("SteveTran/ob_semantic_model", trust_remote_code=True) sentences = [ "công nghệ blockchain", "<p>🟢 <strong>OLabs</strong> là công ty thành viên trực thuộc tập đoàn <strong>OpenLive</strong>. <strong>OLabs</strong> là sự sáp nhập 100% của <strong>Công ty Công Nghệ Genex</strong>. Bao gồm nguồn lực về nhân sự, khách hàng, sản phẩm sẽ trực thuộc quản lý của <strong>OLabs</strong>.</p><p>🟢 <strong>Tầm nhìn</strong>: Trở thành <strong>Top3</strong> Công ty Công Nghệ về tư vấn, phát triển, triển khai hệ sinh thái, platform chuyển đổi số cho <strong>Doanh Nghiệp</strong> ứng dụng những công nghệ lõi như <strong>Web3, AI, Bigdata</strong>,…</p><p>🟢 <strong>Sứ mệnh</strong>: Cung cấp giải pháp phần mềm cho tập đoàn <strong>OpenLive</strong> nhằm đưa <strong>OpenLive</strong> trở thành 1 tập đoàn có những ứng dụng tiên tiến và tiêu biểu nhằm phục vụ mục tiêu hơn <strong>500.000 Doanh nghiệp</strong> vừa và nhỏ tại <strong>Việt Nam</strong> cũng như <strong>Đông Nam Á</strong>. Hướng tới việc làm tăng giá trị Thương Hiệu, gia tăng khách hàng mới, tăng doanh thu và lợi nhuận cho Doanh Nghiệp.</p><p>🟢 <strong>Sản phẩm công nghệ</strong>: Chúng tôi hiện nay có 2 sản phẩm mục tiêu cho tập đoàn <strong>OpenLive</strong></p><p>#️⃣ <strong>Loyalty Branding Platform</strong>: <strong>Platform</strong> tiên phong tại Việt Nam ứng dụng công nghệ lõi <strong>Blockchain</strong>, <strong>BCC</strong>, <strong>Web3</strong> vào giải pháp <strong>Loyalty</strong> truyền thống. Giải quyết những nhược điểm hiện tại của hệ thống <strong>Loyalty</strong> truyến thống và tạo ra môi trường trao đổi giá trị chéo giữa các Doanh nghiệp trong hệ sinh thái thông qua giải pháp <strong>Loyalty Point</strong>.</p><p>#️⃣ <strong>Wifi Branding Platform</strong>: là nền tảng hiển thị quảng cáo khi người dùng truy cập vào mạng wifi, biến Wifi thông thường trở thành 1 kênh quảng cáo digital, tương tác khách hàng thời gian thực, tăng nhận diện thương hiệu, giúp trải nghiệm khách hàng thông minh hơn.</p><p>🟢 <strong>Thông tin</strong>:</p><p> ➡️ <strong>Website:</strong> <a href=\"http://www.olabs.net/\" rel=\"noopener noreferrer\" target=\"_blank\">www.olabs.net</a></p><p> ➡️ <strong>Hotline:</strong> 088.608.1166</p>", "<p>🔸<strong>Bizfone </strong>là một công ty hàng đầu trong lĩnh vực công nghệ thông tin, chuyên cung cấp các giải pháp và dịch vụ công nghệ tiên tiến nhằm đáp ứng nhu cầu đa dạng của các doanh nghiệp. Với sự cam kết mang đến chất lượng vượt trội và sự hài lòng cho khách hàng, <strong>Bizfone </strong>không ngừng đầu tư vào nghiên cứu và phát triển các sản phẩm công nghệ mới nhất.</p>", "<p>🔸Chúng tôi là công ty chuyên về thương mại thực phẩm hữu cơ hoạt động thông qua các công ty đăng ký ở <strong>Ba Lan</strong> và <strong>Việt Nam</strong>.</p><p>Chúng tôi bán hàng sản xuất theo yêu cầu của chúng tôi dành cho thị trường Việt Nam bởi các nhà sản xuất đã được chứng minh, đáp ứng cả tiêu chí kiểm dịch thực vật cao nhất của <em>Châu Âu</em> và cũng có giấy chứng nhận chính phủ phù hợp. Trong đề nghị của chúng tôi, bạn sẽ tìm thấy những sản phẩm được chọn lọc có chất lượng cao nhất từ khắp nơi <em>Liên minh châu Âu</em>.</p><p>🔸Đồng thời chúng tôi hợp tác với các nhà sản xuất Việt Nam để tạo ra những sản phẩm chất lượng cao nhất từ các nhà máy nhập khẩu các loại thảo mộc, trái cây và rau quả của họ vào thị trường <em>châu Âu</em>.</p><p>🔸Ưu đãi của chúng tôi không ngừng mở rộng, vì vậy chúng tôi mời bạn ghé thăm chúng tôi thường xuyên qua trang web của chúng tôi. Nếu bạn quan tâm đến sản phẩm, không bao gồm trực tiếp trong ưu đãi của chúng tôi, vui lòng liên hệ với chúng tôi qua email, điện thoại hoặc Facebook. Chúng tôi ở đây vì bạn có sẵn 24 giờ một ngày.</p>" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Alibaba-NLP/gte-multilingual-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'đồ decor ngoài trời',
'<p><strong>🔸Công ty Kim Vinh</strong> chuyên cung cấp các sản phẩm trang trí nội, ngoại thất chất lượng cao cho mọi không gian sống. Với đa dạng mẫu mã, từ đồ trang trí phòng khách, phòng ngủ, đến các vật dụng ngoài trời như sân vườn, ban công, <strong>Kim Vinh</strong> cam kết mang đến những sản phẩm không chỉ đẹp mắt mà còn bền vững theo thời gian.</p><p>🔸Tất cả các mặt hàng tại công ty đều có sẵn, giúp khách hàng dễ dàng lựa chọn và mua sắm nhanh chóng. Đặc biệt, <strong>Kim Vinh</strong> luôn chú trọng đến dịch vụ giao hàng nhanh chóng, đảm bảo sự hài lòng tuyệt đối cho mọi khách hàng. Chúng tôi tự hào là đối tác tin cậy của nhiều gia đình, doanh nghiệp trong việc làm đẹp không gian sống và làm việc.</p>',
'<p>🔸<strong>Orchard Home Forest</strong> là một khu nghỉ dưỡng sinh thái tọa lạc tại vùng ngoại ô, nơi hòa quyện giữa vẻ đẹp tự nhiên và không gian yên bình, lý tưởng cho những ai tìm kiếm sự thư giãn và tái tạo năng lượng. Với diện tích rộng lớn bao phủ bởi rừng cây xanh mát và những khu vườn trái cây trĩu quả, nơi đây mang đến cho du khách một trải nghiệm gần gũi với thiên nhiên.</p><p>🔸<strong>Orchard Home Forest</strong> không chỉ nổi bật với cảnh quan tươi đẹp, mà còn cung cấp các dịch vụ nghỉ dưỡng cao cấp, như biệt thự nghỉ dưỡng, nhà gỗ tiện nghi, các hoạt động ngoài trời như đi bộ, đạp xe và tham gia vào các chương trình chăm sóc sức khỏe, yoga. Đặc biệt, khu nghỉ dưỡng này chú trọng phát triển bền vững và bảo vệ môi trường, với các biện pháp giảm thiểu tác động đến hệ sinh thái địa phương.</p><p>🔸Những ai ghé thăm <strong>Orchard Home Forest </strong>sẽ cảm nhận được sự thư thái, tĩnh lặng, và làn gió mới cho tâm hồn, giúp tái tạo năng lượng sau những ngày làm việc căng thẳng. Đây là điểm đến lý tưởng cho những ai yêu thích sự kết hợp giữa nghỉ dưỡng và khám phá thiên nhiên.</p>',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 5,964 training samples
- Columns:
query,description, andnegative - Approximate statistics based on the first 1000 samples:
query description negative type string string string details - min: 4 tokens
- mean: 7.01 tokens
- max: 13 tokens
- min: 14 tokens
- mean: 254.77 tokens
- max: 512 tokens
- min: 15 tokens
- mean: 289.38 tokens
- max: 512 tokens
- Samples:
query description negative mật ong probiotics🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.
🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.
🔸Công ty CP Công Nghệ Sinh Học Dương Gia K&T là đơn vị chuyên sản xuất và cung cấp mật ong lượng tử.
🔸Sản phẩm Mật Ong Lượng tử – EZ là sản phẩm hữu cơ, nguồn nguyên liệu sản xuất được tuyển chọn từ nhà nuôi phù hợp tiêu chuẩn, quy trình thiết kế chuyên biệt và được lấy hoàn toàn 100% là mật ong nuôi tại tỉnh Đắk Lắk, với giống ong Ý có tên khoa học là Apis Mellifera Ligustica. Sau đó được kích hoạt lượng tử giúp cho mật ong sạch và hấp thụ thêm năng lượng. Không bổ sung bất cứ thành phần hoạt chất nào và hoàn toàn không sử dụng chất bảo quản.
🔸Quy trình xử lý mật ong bằng phương pháp kích hoạt lượng tử là quy trình duy nhất tại Việt Nam được nghiên cứu và thực hiện bởi tác giả Dương Minh Tâm – Tài năng Khoa học và Công nghệ Việt Nam.
mật ong probiotics🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.
🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.
🔸Công ty TNHH TV-TM-DV GĐT, với trụ sở tại Đồng Tháp, là đơn vị tiên phong trong lĩnh vực thương mại các sản phẩm bổ sung và chăm sóc sức khỏe dành cho mẹ và bé. Với sứ mệnh mang đến những sản phẩm an toàn, chất lượng cao, GĐT cam kết cung cấp giải pháp tối ưu nhằm nâng cao sức khỏe cộng đồng, đặc biệt là cho các gia đình Việt.
🔸Sản phẩm nổi bật của chúng tôi – sirô bổ sung chất xơ Bukhoe – đã chiếm được lòng tin của hàng ngàn bà mẹ nhờ hiệu quả trong việc hỗ trợ giảm táo bón và tăng cường hệ vi khuẩn có lợi cho đường ruột. Bukhoe được làm từ chất xơ nhập khẩu từ Mỹ, sản xuất trong nhà máy đạt tiêu chuẩn GMP, đảm bảo chất lượng và an toàn tuyệt đối. Sản phẩm có hương vị thơm ngon, dễ uống và tiện lợi cho cả gia đình sử dụng hàng ngày.
🔸Điểm đặc biệt của Bukhoe là thành phần sirô chiết xuất từ đường bắp, an toàn cho người tiểu đường và trẻ em có ...mật ong probiotics🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.
🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.
🔸BIO-HOPE là thương hiệu hàng đầu về sản xuất đông trùng hạ thảo tại Việt Nam. Sở Hữu nhà máy hiện đại được chuyển giao công nghệ sản xuất từ Nhật Bản, BIO-HOPE tự hào có hơn 10 năm kinh nghiệm phát triển các sản phẩm chăm sóc sức khỏe cao cấp. Các sản phẩm chủ lực bao gồm đông trùng hạ thảo, đông trùng yến, cao đông trùng linh chi, mật ong đông trùng hạ thảo,...
🔸Sản phẩm của BIO-HOPE không chỉ tăng cường sức đề kháng, giúp ngủ ngon mà còn hỗ trợ phục hồi và duy trì các chức năng quan trọng của cơ thể như gan, thận, phổi và tim mạch. Cam kết của BIO-HOPE là mang đến cho khách hàng các giải pháp sức khỏe vượt trội, đáp ứng nhu cầu chăm sóc toàn diện.
Giải Thưởng Đạt Được:
🔸"Top 10 Thương Hiệu Phát Triển Quốc Gia 2022" và "Top 10 Thương Hiệu Vàng, Chất Lượng Quốc Tế 2022" là những danh hiệu danh giá mà BIO-HOPE đã đạt được, khẳng ... - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 16per_device_eval_batch_size: 16learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 1warmup_steps: 100fp16: Truedataloader_num_workers: 4
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 100log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 4dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional
Training Logs
| Epoch | Step | Training Loss |
|---|---|---|
| 0.0268 | 10 | 1.9618 |
| 0.0536 | 20 | 1.8811 |
| 0.0804 | 30 | 1.8416 |
| 0.1072 | 40 | 1.7155 |
| 0.1340 | 50 | 1.5214 |
| 0.1609 | 60 | 1.6549 |
| 0.1877 | 70 | 1.5042 |
| 0.2145 | 80 | 1.3187 |
| 0.2413 | 90 | 1.3651 |
| 0.2681 | 100 | 1.1366 |
| 0.2949 | 110 | 1.2463 |
| 0.3217 | 120 | 1.1371 |
| 0.3485 | 130 | 1.1857 |
| 0.3753 | 140 | 1.1055 |
| 0.4021 | 150 | 1.1215 |
| 0.4290 | 160 | 1.206 |
| 0.4558 | 170 | 1.0617 |
| 0.4826 | 180 | 1.169 |
| 0.5094 | 190 | 1.1628 |
| 0.5362 | 200 | 1.1601 |
| 0.5630 | 210 | 1.1011 |
| 0.5898 | 220 | 0.8756 |
| 0.6166 | 230 | 1.1203 |
| 0.6434 | 240 | 0.8605 |
| 0.6702 | 250 | 0.9246 |
| 0.6971 | 260 | 0.9078 |
| 0.7239 | 270 | 1.1245 |
| 0.7507 | 280 | 0.8946 |
| 0.7775 | 290 | 0.8846 |
| 0.8043 | 300 | 0.9328 |
| 0.8311 | 310 | 1.0018 |
| 0.8579 | 320 | 0.9624 |
| 0.8847 | 330 | 0.8516 |
| 0.9115 | 340 | 0.836 |
| 0.9383 | 350 | 0.7674 |
| 0.9651 | 360 | 0.937 |
| 0.9920 | 370 | 0.9097 |
Framework Versions
- Python: 3.11.13
- Sentence Transformers: 4.1.0
- Transformers: 4.53.0
- PyTorch: 2.6.0+cu124
- Accelerate: 1.8.1
- Datasets: 2.14.4
- Tokenizers: 0.21.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 7,016
Model tree for SteveTran/ob_semantic_model
Base model
Alibaba-NLP/gte-multilingual-base