Upload checkpoint-6000

0520a1d verified 26 days ago

33.6 kB

tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:541248
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: QuangDuy/bert-tiny-stage2-hf
widget:
  - source_sentence: sở hữu chung là gì?
    sentences:
      - >-
        Chủ nghĩa xã hội là một loạt các hệ thống kinh tế và xã hội được đặc
        trưng bởi quyền sở hữu xã hội và quyền kiểm soát dân chủ đối với tư liệu
        sản xuất, cũng như các lý thuyết và phong trào chính trị gắn liền với
        chúng. Sở hữu xã hội có thể đề cập đến các hình thức sở hữu công cộng,
        tập thể hoặc hợp tác, hoặc quyền sở hữu công bằng của công dân. Có nhiều
        loại hình chủ nghĩa xã hội và không có một định nghĩa nào gói gọn tất cả
        chúng, mặc dù quyền sở hữu xã hội là yếu tố chung được chia sẻ bởi các
        hình thức khác nhau của nó.
      - >-
        Sở hữu chung là một chương trình do chính phủ tài trợ để giúp những
        người mua lần đầu, những người sẽ không thể đặt chân lên nấc thang bất
        động sản. Chương trình này chủ yếu được điều hành bởi các hiệp hội nhà ở
        của London.
      - >-
        Malabar nằm gần trung tâm của Florida. Malabar là một phần của Quận
        Brevard. Malabar có 10,67 dặm vuông diện tích đất và 2,57 dặm vuông diện
        tích mặt nước. Tính đến năm 2010, tổng dân số Malabar là 2.757 người,
        tăng 5,15% kể từ năm 2000. Tỷ lệ tăng dân số thấp hơn nhiều so với tỷ lệ
        trung bình của bang là 17,64% và thấp hơn tỷ lệ trung bình của cả nước
        là 9,71%. Thu nhập trung bình của hộ gia đình Malabar là 64.712 đô la
        trong năm 2008-2012 và đã tăng 30,27% kể từ năm 2000.
  - source_sentence: ludobites là gì?
    sentences:
      - >-
        Ludobites là gì? Ludobites là một nhà hàng pop-up theo phong cách du
        kích do bếp trưởng Ludo Lefebvre tạo ra, gần đây đã được giới thiệu là
        vua của món quesadillas tai lợn tan chảy trên Top Chef Masters. Xin đừng
        giữ điều đó chống lại anh ta, những người khác nhau làm việc tốt trong
        các loại tình huống khác nhau, và trong nhà bếp của riêng anh ta, thức
        ăn của Ludo tỏa sáng.
      - >-
        Một từ khác cho oxit boric là gì? Một từ khác cho borickites là gì? Một
        từ khác cho borickite là gì? Một từ khác cho axit boric là gì? Một từ
        khác cho axit boric là gì? Một từ khác cho vi sinh vật là gì? Một từ
        khác cho ngao ngán là gì? Một từ khác cho ngao nhàm chán là gì? Một từ
        khác cho nhàm chán là gì? Một từ khác cho nhàm chán nhất là gì? Một từ
        khác cho nhàm chán là gì?
      - >-
        Nhà máy Tesla là một nhà máy sản xuất ô tô ở Fremont, California, Hoa Kỳ
        và là cơ sở sản xuất chính của Tesla Motors. Xe Tesla Model S mới tại
        Nhà máy Tesla vào năm 2012. Xe sản xuất loạt đầu tiên của nhà máy là
        Tesla Model S cỡ lớn. sedan điện ắc quy. Vào năm 2011, Tesla Motors đã
        chuyển đổi từ các phiên bản alpha lắp ráp thủ công sang các phiên bản
        beta, những chiếc xe xác nhận sản xuất được chế tạo hoàn toàn tại Nhà
        máy Tesla.
  - source_sentence: galveston indiana ở quận nào
    sentences:
      - >-
        Nhà bán ở Galveston, Hạt Cass, Indiana. Tìm nhà và đất ở nông thôn để
        bán ở Galveston, Hạt Cass, Indiana? LandWatch.com có hàng nghìn tài
        sản nông thôn ở Galveston, Hạt Cass, Indiana, bao gồm tài sản săn bắn &
        câu cá, cabin, Nhà để bán và đấu giá đất. Chọn từ những khu đất có diện
        tích nhỏ đến những khu đất rộng lớn hơn 500 mẫu Anh.
      - >-
        THÀNH PHỐ TEXAS, TX. THÀNH PHỐ TEXAS, TEXAS. Thành phố Texas, trên bờ
        Tây Nam của Vịnh Galveston cách Galveston bảy dặm và cách Vịnh Mexico ở
        Quận Galveston mười một dặm, là một cảng nước sâu trên đất liền.
      - >-
        Theo simplehired.com, một kỹ thuật viên nhạc cụ ở nước ngoài có thể kiếm
        được khoảng 61K mỗi năm. Cuộc sống ngoài khơi: Nếu bạn vẫn quan tâm đến
        các công việc cấp độ đầu vào của giàn khoan dầu, hãy biết một điều rằng
        bạn sẽ phải lấy chứng chỉ an toàn và vượt qua cuộc kiểm tra ma túy để
        được xem xét. ở cấp độ đầu vào, công việc giàn khoan dầu khí ngoài khơi
        có thể kiếm được $ 24 - $ 26 một giờ; các nhà khai thác derrick $ 23 - $
        30 mỗi giờ, trong khi thợ khoan ở mức $ 36 - $ 39.
  - source_sentence: sắt montainmi ở quận nào
    sentences:
      - >-
        2. Tháo quả địa cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng các vít
        lắp của bộ đèn và hạ bộ đèn ra khỏi động cơ quạt trần. Ngắt kết nối hai
        dây dẫn đến đèn bằng cách tháo các đai ốc của dây. Đặt bộ đèn cũ sang
        một bên .. Tháo quả địa cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng
        các vít lắp của bộ đèn và hạ bộ đèn ra khỏi động cơ quạt trần. Ngắt kết
        nối hai dây dẫn đến đèn bằng cách tháo các đai ốc của dây. Đặt bộ đèn cũ
        sang một bên.
      - >-
        Sân bay gần nhất là Sân bay Hạt Rhinelander Oneida (RHI). Khoảng cách từ
        Rhinelander Oneida County Airport đến Iron River là 82,0 km (51,0 dặm).
      - >-
        Núi Sắt, Michigan. Núi Sắt là một thành phố ở tiểu bang Michigan của Hoa
        Kỳ. Dân số tại thời điểm điều tra dân số năm 2010 là 7.624 người. Nó là
        quận lỵ của Quận Dickinson, ở Bán đảo Thượng của tiểu bang. Núi Sắt được
        đặt tên cho quặng sắt có giá trị được tìm thấy trong vùng lân cận.
  - source_sentence: các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì
    sentences:
      - >-
        Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn
        dịch được sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất
        chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông
        trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp
        ứng miễn dịch đề cập đến thực tế là các globulin miễn dịch được tạo ra
        đặc trưng cho các kháng nguyên kích thích sản xuất chúng, phản ứng này
        dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự
        tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.
      - >-
        Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu
        của Kita đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị
        nghẹt mũi mãn tính và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu
        máu của những người tham gia để xem các tế bào của hệ thống miễn dịch cụ
        thể phản ứng như thế nào với các loại nấm thông thường trong không khí.
      - >-
        Bảo trì Cơ khí ở Los Angeles Mức lương. Một thợ sửa chữa bảo trì ở Los
        Angeles, California kiếm được mức lương trung bình là 22,11 đô la mỗi
        giờ. Các kỹ năng được trả lương cao nhất liên quan đến công việc này là
        Bảo trì thiết bị, Xử lý sự cố, Thủy lực công nghiệp, Hệ thống ống nước
        và Bảo trì. Hầu hết những người làm công việc này đều có hơn 5 năm kinh
        nghiệm trong các công việc liên quan.
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on QuangDuy/bert-tiny-stage2-hf

This is a sentence-transformers model finetuned from QuangDuy/bert-tiny-stage2-hf. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: QuangDuy/bert-tiny-stage2-hf
Maximum Sequence Length: 512 tokens
Output Dimensionality: 384 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì',
    'Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn dịch được sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp ứng miễn dịch đề cập đến thực tế là các globulin miễn dịch được tạo ra đặc trưng cho các kháng nguyên kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.',
    'Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu của Kita đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị nghẹt mũi mãn tính và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu máu của những người tham gia để xem các tế bào của hệ thống miễn dịch cụ thể phản ứng như thế nào với các loại nấm thông thường trong không khí.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7802, 0.5134],
#         [0.7802, 1.0000, 0.4314],
#         [0.5134, 0.4314, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

Size: 541,248 training samples
Columns: sentence_0, sentence_1, and sentence_2

Approximate statistics based on the first 1000 samples:

	sentence_0	sentence_1	sentence_2
type	string	string	string
details	min: 5 tokens mean: 11.35 tokens max: 37 tokens	min: 20 tokens mean: 101.36 tokens max: 512 tokens	min: 21 tokens mean: 96.12 tokens max: 371 tokens

Samples:

sentence_0	sentence_1	sentence_2
`giá máy trợ thính trung bình`	Máy trợ thính giúp những người bị mất thính lực tận hưởng cuộc sống chất lượng hơn ÃƒÂ ¢ Ã‚â‚¬Ã‚â € nhưng thiết bị này có thể đắt tiền. Giá trung bình của một máy trợ thính là $ 2,300. Hầu hết mọi người cần hai, tăng gấp đôi chi phí. Nếu công ty bảo hiểm sức khỏe của bạn không cung cấp bảo hiểm, bạn sẽ muốn có đủ tiền tiết kiệm hoặc thẻ tín dụng hoàn tiền tốt để chi trả chi phí. Tổng chi phí phụ thuộc vào loại máy trợ thính, tính năng của nó và mức độ dịch vụ chuyên nghiệp. Phân tích chi phí Thông thường, bản thân máy trợ thính chỉ chiếm một phần ba tổng chi phí; phí và dịch vụ chuyên nghiệp chiếm phần còn lại.	`Theo một cuộc khảo sát được công bố gần đây bởi Đánh giá thính giác, giá trung bình của một cặp thiết bị hỗ trợ tầm trung dao động trong khoảng từ $ 4,400 đến $ 4,500. Giá cả khác nhau tùy theo khu vực. Ví dụ, tại Phòng khám Thính học của UCLA, giá trung bình là $ 4,200, nhà thính học Alison Grimes cho biết.`
`tôi có thể trả lại một sản phẩm cho amazon không`	Trả lại các mặt hàng do Amazon thực hiện / Các mặt hàng đủ điều kiện Prime. Bạn có thể trả lại các mặt hàng Đủ điều kiện của Amazon hoặc Prime bằng cách truy cập Trung tâm hỗ trợ trả hàng của chúng tôi. Đi tới Trung tâm Hỗ trợ Trả hàng và nhấp vào Trả lại mặt hàng. Tìm đơn đặt hàng bạn muốn trả lại và nhấp vào Trả lại hoặc Thay thế các mặt hàng. Chọn các mục bạn muốn trả lại.	`Tôi mua sản phẩm này vì tôi nghĩ rằng tôi có thể nhìn thấy các thư mục của ổ cứng được kết nối với asus o! Play từ máy tính của mình. Nhưng nó rất khả thi. Tôi nghĩ rằng tôi sẽ trả lại sản phẩm này nếu không có bất kỳ chương trình cơ sở mới nào để cập nhật sự cố này trong vòng 10 ngày tới. Tôi hy vọng asus giải quyết nó, nếu không tôi sẽ trả lại sản phẩm.`
`ana tích cực nghĩa là gì`	Tuy nhiên, các xét nghiệm khác vẫn có thể cần thiết dựa trên các triệu chứng của bạn. Một số người mắc bệnh tự miễn dịch có thể xét nghiệm âm tính với ANA nhưng dương tính với các kháng thể khác. Xét nghiệm ANA dương tính có nghĩa là bạn có nồng độ ANA cao trong máu. Xét nghiệm ANA dương tính thường được báo cáo dưới dạng cả tỷ lệ (được gọi là chuẩn) và kiểu mẫu, chẳng hạn như mịn hoặc lốm đốm. Một số bệnh có nhiều khả năng có một số mô hình nhất định. Hiệu giá càng cao thì kết quả càng có nhiều khả năng là kết quả ÃƒÂ ¢ Ã‚â‚¬Ã‚Å “true positiveÃƒÂ ¢ Ã‚â‚¬Ã‚, nghĩa là bạn có kháng thể kháng nhân đáng kể và mắc bệnh tự miễn dịch. Tuy nhiên, kết quả dương tính không luôn có nghĩa là bạn mắc bệnh tự miễn dịch.	`Tích cực: 88%. túi mật giải nén nghĩa là gì góp phần vào túi mật ... mật sẽ luôn luôn là gì túi mật giải nén nghĩa là chọn protein nạc ...`

Loss: MatryoshkaLoss with these parameters:

{
    "loss": "MultipleNegativesRankingLoss",
    "matryoshka_dims": [
        384,
        256,
        128,
        64
    ],
    "matryoshka_weights": [
        1,
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 64
per_device_eval_batch_size: 128
learning_rate: 2e-05
weight_decay: 0.01
num_train_epochs: 5
warmup_steps: 4229
bf16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 64
per_device_eval_batch_size: 128
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_ratio: 0.0
warmup_steps: 4229
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Click to expand

Epoch	Step	Training Loss	validation loss
0.0118	50	18.0314	-
0.0237	100	17.7147	-
0.0355	150	17.0007	-
0.0473	200	16.0667	-
0.0591	250	14.9131	-
0.0710	300	13.9449	-
0.0828	350	12.7957	-
0.0946	400	11.7288	-
0.1064	450	10.6945	-
0.1183	500	9.4743	-
0.1301	550	8.6215	-
0.1419	600	7.7279	-
0.1537	650	7.1892	-
0.1656	700	6.9682	-
0.1774	750	6.4781	-
0.1892	800	6.1271	-
0.2010	850	6.1199	-
0.2129	900	5.9544	-
0.2247	950	5.8145	-
0.2365	1000	5.5599	-
0.2483	1050	5.2344	-
0.2602	1100	5.3013	-
0.2720	1150	5.0562	-
0.2838	1200	4.8728	-
0.2956	1250	4.7826	-
0.3075	1300	4.8806	-
0.3193	1350	4.6464	-
0.3311	1400	4.7046	-
0.3430	1450	4.5188	-
0.3548	1500	4.4968	-
0.3666	1550	4.4387	-
0.3784	1600	4.1702	-
0.3903	1650	4.2147	-
0.4021	1700	3.9972	-
0.4139	1750	4.1279	-
0.4257	1800	4.0214	-
0.4376	1850	3.9161	-
0.4494	1900	3.7544	-
0.4612	1950	3.8246	-
0.4730	2000	3.7991	5.9881
0.4849	2050	3.8554	-
0.4967	2100	3.8123	-
0.5085	2150	3.5525	-
0.5203	2200	3.5591	-
0.5322	2250	3.6293	-
0.5440	2300	3.5831	-
0.5558	2350	3.6007	-
0.5676	2400	3.4225	-
0.5795	2450	3.4405	-
0.5913	2500	3.4002	-
0.6031	2550	3.3653	-
0.6149	2600	3.321	-
0.6268	2650	3.3042	-
0.6386	2700	3.2117	-
0.6504	2750	3.3423	-
0.6623	2800	3.2494	-
0.6741	2850	3.1364	-
0.6859	2900	3.1836	-
0.6977	2950	3.1268	-
0.7096	3000	3.072	-
0.7214	3050	3.0135	-
0.7332	3100	3.0607	-
0.7450	3150	3.0963	-
0.7569	3200	3.0419	-
0.7687	3250	2.9891	-
0.7805	3300	2.9384	-
0.7923	3350	2.8918	-
0.8042	3400	2.9816	-
0.8160	3450	2.9664	-
0.8278	3500	2.8969	-
0.8396	3550	2.9368	-
0.8515	3600	2.8513	-
0.8633	3650	2.9808	-
0.8751	3700	2.8428	-
0.8869	3750	2.8775	-
0.8988	3800	2.739	-
0.9106	3850	2.8277	-
0.9224	3900	2.767	-
0.9342	3950	2.794	-
0.9461	4000	2.7738	4.7738
0.9579	4050	2.8568	-
0.9697	4100	2.7938	-
0.9816	4150	2.7272	-
0.9934	4200	2.7079	-
1.0052	4250	2.6383	-
1.0170	4300	2.6855	-
1.0289	4350	2.6568	-
1.0407	4400	2.5981	-
1.0525	4450	2.6987	-
1.0643	4500	2.6992	-
1.0762	4550	2.5434	-
1.0880	4600	2.5553	-
1.0998	4650	2.4978	-
1.1116	4700	2.5679	-
1.1235	4750	2.4768	-
1.1353	4800	2.5578	-
1.1471	4850	2.4758	-
1.1589	4900	2.5352	-
1.1708	4950	2.5023	-
1.1826	5000	2.4713	-
1.1944	5050	2.486	-
1.2062	5100	2.483	-
1.2181	5150	2.4098	-
1.2299	5200	2.5061	-
1.2417	5250	2.4597	-
1.2535	5300	2.4591	-
1.2654	5350	2.3879	-
1.2772	5400	2.4146	-
1.2890	5450	2.3418	-
1.3009	5500	2.4307	-
1.3127	5550	2.3653	-
1.3245	5600	2.3995	-
1.3363	5650	2.4527	-
1.3482	5700	2.4547	-
1.3600	5750	2.3695	-
1.3718	5800	2.3341	-
1.3836	5850	2.2412	-
1.3955	5900	2.2695	-
1.4073	5950	2.2922	-
1.4191	6000	2.3176	4.3057

Framework Versions

Python: 3.11.15
Sentence Transformers: 5.3.0
Transformers: 4.57.6
PyTorch: 2.11.0+cu130
Accelerate: 1.13.0
Datasets: 3.6.0
Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}