QuangDuy commited on
Commit
cd3831b
·
verified ·
1 Parent(s): 86faf87

Upload checkpoint-19250

Browse files
checkpoints/checkpoint-19250/1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
checkpoints/checkpoint-19250/README.md ADDED
@@ -0,0 +1,832 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:985664
9
+ - loss:MatryoshkaLoss
10
+ - loss:MultipleNegativesRankingLoss
11
+ base_model: QuangDuy/bert-base-stage2-hf
12
+ widget:
13
+ - source_sentence: đáng giá
14
+ sentences:
15
+ - 'Reinhold Wurth Net Worth: Reinhold Wurth là một doanh nhân người Đức có tài sản
16
+ ròng 8,7 tỷ USD. Reinhold Wurth chỉ mới 19 tuổi khi ông tiếp quản ngành công nghiệp
17
+ vít nhỏ của cha mình và xây dựng nó thành một công ty siêu lợi nhuận ngày nay
18
+ được gọi là Adolf Wurth Group. Sinh ngày 20 tháng 4 năm 1935 tại ÃÂâ €“hringen,
19
+ Württemberg, Đức, Wurth đã làm nên tài sản của mình trong những năm qua khi giá
20
+ trị của lĩnh vực công cụ và ốc vít ngày càng tăng.'
21
+ - Bộ phát triển phần mềm. Bộ công cụ phát triển phần mềm (SDK hoặc devkit) thường
22
+ là một bộ công cụ phát triển phần mềm cho phép tạo các ứng dụng cho một gói phần
23
+ mềm, khung phần mềm, nền tảng phần cứng, hệ thống máy tính, bảng điều khiển trò
24
+ chơi điện tử, hệ điều hành hoặc nền tảng phát triển tương tự nhất định.
25
+ - Rita Marley Net Worth; Jason Statham Net Worth; Jeff Burton Net Worth; Jon Favreau
26
+ Net Worth; Raini Rodriguez Net Worth; Aaliyah Net Worth; Dennis Miller Net Worth;
27
+ Rachel True Net Worth; Jenni Rivera Giá trị ròng; Clint Dempsey Net Worth
28
+ - source_sentence: oxol là gì
29
+ sentences:
30
+ - Một từ khác cho sự hồ hởi là gì? Một từ khác cho phấn khởi là gì? Một từ khác
31
+ cho phấn khởi là gì? Một từ khác để khuyến khích là gì? Một từ khác cho những
32
+ lời khuyên nhủ là gì? Một từ khác để khuyến khích là gì? Một từ khác để khuyến
33
+ khích là gì? Một từ khác cho lời khuyến khích là gì? Một từ khác để khuyến khích
34
+ là gì?
35
+ - Oxol IIâÂâ €ž¢ Dung môi oxy hóa / polyme. Dung môi O. xol IIâÂâ €ž¢ là một chất
36
+ oxy hóa rắn giúp loại bỏ. tích tụ polyme từ các giếng phun và sản xuất. Oxol.
37
+ Chất oxy hóa II cũng là chất phá vỡ được lựa chọn trong chất lỏng Flo-PacâÂâ €ž¢
38
+ cho. hoạt động đóng gói sỏi. Các ứng dụng.
39
+ - Becton, Dickinson and Company (BD) là một công ty công nghệ y tế của Mỹ chuyên
40
+ sản xuất và bán các thiết bị y tế, hệ thống dụng cụ và thuốc thử. Được thành lập
41
+ vào năm 1897 và có trụ sở chính tại Franklin Lakes, New Jersey, BD sử dụng gần
42
+ 50.000 nhân viên tại hơn 50 quốc gia trên khắp thế giới.
43
+ - source_sentence: đảo hồ lớn
44
+ sentences:
45
+ - Các hồ lớn. Great Lakes là năm hồ lớn nhất ở Hoa Kỳ và bao gồm Hồ Superior, Hồ
46
+ Huron, Hồ Michigan, Hồ Erie và Hồ Ontario. Hồ Lớn. Great Lakes là năm hồ lớn nhất
47
+ ở Hoa Kỳ và bao gồm Hồ Superior, Hồ Huron, Hồ Michigan, Hồ Erie và Hồ Ontario.
48
+ - hashish là một cannabinoid giống như cần sa, nó bao gồm nguyên liệu nhựa giàu
49
+ thc của cây cần sa được thu thập sấy khô và sau đó nén thành nhiều dạng như bánh
50
+ bóng hoặc bánh quy như sheetashish là một cannabinoid giống như cần sa, nó bao
51
+ gồm nhựa giàu thc nguyên liệu của cây cần sa được thu hái sấy khô và sau đó nén
52
+ thành nhiều dạng như bánh bóng hoặc bánh quy dạng tấm
53
+ - Hệ thống Thông tin Địa lý / Hệ thống Hỗ trợ Quyết định Quần đảo Great Lakes. Great
54
+ Lakes bao gồm khoảng 30.000 hòn đảo, có kích thước từ những tảng đá nhỏ đến hơn
55
+ một trăm nghìn mẫu Anh. Những hòn đảo này tạo thành hệ thống đảo nước ngọt lớn
56
+ nhất thế giới và là nguồn tài nguyên thiên nhiên độc đáo.
57
+ - source_sentence: uhc là gì
58
+ sentences:
59
+ - Zom Zom's là một địa điểm chạm trán ở giữa một số ô đổ nát, cách Cơ sở Cryo bảy
60
+ ô về phía bắc. Nhân vật sở hữu kỹ năng Eagle Eye hoặc thiết bị phóng đại như ống
61
+ nhòm hoặc ...
62
+ - 'UHC là một từ viết tắt có ba chữ cái có thể chỉ định một trong những điều sau
63
+ đây: 1 Chăm sóc sức khỏe toàn dân hoặc Bảo hiểm sức khỏe toàn dân. 2 Hiđrocacbon
64
+ không cháy. 3 Công ty Sở thích Kỳ lân. Bệnh viện Đại học của 1 Cleveland. United
65
+ Healthcare, một công ty bảo hiểm sức khỏe lớn ở Hoa Kỳ'
66
+ - Địa chỉ thanh toán của United Health care. Theo như mối quan tâm của UHC, có rất
67
+ nhiều địa chỉ để gửi yêu cầu nhưng hầu hết thời gian không quan trọng bạn đã gửi
68
+ địa chỉ nào. Trong khi gửi yêu cầu sử dụng điện tử 87726 làm id người thanh toán,
69
+ nó sẽ hoạt động tốt với hầu hết các công ty thanh toán bù trừ. Địa chỉ gửi yêu
70
+ cầu chăm sóc sức khỏe của United. Đế chế UHC.
71
+ - source_sentence: tôi ở đâu
72
+ sentences:
73
+ - Trong bài viết này, chúng tôi sẽ thảo luận về UGC là gì và vai trò của nó trong
74
+ thế giới học thuật của Ấn Độ. Trước hết, từ viết tắt của UGC là viết tắt của University
75
+ Grants Commission, Ấn Độ. Nó là một cơ quan theo luật định được bắt đầu vào năm
76
+ 1956. Nó được thành lập bởi Chính phủ Liên minh của Ấn Độ để đảm bảo rằng tiêu
77
+ chuẩn giáo dục Đại học ở Ấn Độ được duy trì.
78
+ - 'Damphall Mine là một hầm ngục trong Skyrim: Dragonborn. Mỏ Damphall được tìm
79
+ thấy trên bờ biển phía Tây của Solstheim. Tiếp cận và vào mỏ để bắt đầu khám phá
80
+ nó. Mong đợi để gặp Reavers bên ngoài mỏ bảo vệ nó. Họ có một cơ sở bên trong.
81
+ Đi về phía Nam xuống dốc và vào hang đầu tiên của mỏ này. Có một vài chiếc Reavers
82
+ chỉ quanh một bức tường gỗ. Đánh bại chúng và tiến về phương Nam.'
83
+ - Cái gì là của bạn là của tôi, và cái gì là của tôi là của riêng tôi lol nhưng
84
+ ........ Cái gì của bạn là của tôi và cái gì là của tôi là của riêng tôi. tưởng
85
+ tượng. Cái gì của bạn là của tôi, và cái gì của tôi là của riêng tôi !! Cái gì
86
+ của bạn thì là của tôi, cái gì của tôi là của riêng tôi, còn cái gì còn lại chúng
87
+ ta cùng nhau chia sẻ !!! Cái gì của bạn là của tôi và cái gì của tôi là của tôi.
88
+ Cái gì của ngươi là của ta, và cái gì của ta cũng là của ngươi.
89
+ pipeline_tag: sentence-similarity
90
+ library_name: sentence-transformers
91
+ ---
92
+
93
+ # SentenceTransformer based on QuangDuy/bert-base-stage2-hf
94
+
95
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
96
+
97
+ ## Model Details
98
+
99
+ ### Model Description
100
+ - **Model Type:** Sentence Transformer
101
+ - **Base model:** [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf) <!-- at revision 6a6ac1ff59259c4fe29b121488afa79d0bfe3e6a -->
102
+ - **Maximum Sequence Length:** 512 tokens
103
+ - **Output Dimensionality:** 768 dimensions
104
+ - **Similarity Function:** Cosine Similarity
105
+ <!-- - **Training Dataset:** Unknown -->
106
+ <!-- - **Language:** Unknown -->
107
+ <!-- - **License:** Unknown -->
108
+
109
+ ### Model Sources
110
+
111
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
112
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
113
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
114
+
115
+ ### Full Model Architecture
116
+
117
+ ```
118
+ SentenceTransformer(
119
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
120
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
121
+ (2): Normalize()
122
+ )
123
+ ```
124
+
125
+ ## Usage
126
+
127
+ ### Direct Usage (Sentence Transformers)
128
+
129
+ First install the Sentence Transformers library:
130
+
131
+ ```bash
132
+ pip install -U sentence-transformers
133
+ ```
134
+
135
+ Then you can load this model and run inference.
136
+ ```python
137
+ from sentence_transformers import SentenceTransformer
138
+
139
+ # Download from the 🤗 Hub
140
+ model = SentenceTransformer("sentence_transformers_model_id")
141
+ # Run inference
142
+ sentences = [
143
+ 'tôi ở đâu',
144
+ 'Damphall Mine là một hầm ngục trong Skyrim: Dragonborn. Mỏ Damphall được tìm thấy trên bờ biển phía Tây của Solstheim. Tiếp cận và vào mỏ để bắt đầu khám phá nó. Mong đợi để gặp Reavers bên ngoài mỏ bảo vệ nó. Họ có một cơ sở bên trong. Đi về phía Nam xuống dốc và vào hang đầu tiên của mỏ này. Có một vài chiếc Reavers chỉ quanh một bức tường gỗ. Đánh bại chúng và tiến về phương Nam.',
145
+ 'Cái gì là của bạn là của tôi, và cái gì là của tôi là của riêng tôi lol nhưng ........ Cái gì của bạn là của tôi và cái gì là của tôi là của riêng tôi. tưởng tượng. Cái gì của bạn là của tôi, và cái gì của tôi là của riêng tôi !! Cái gì của bạn thì là của tôi, cái gì của tôi là của riêng tôi, còn cái gì còn lại chúng ta cùng nhau chia sẻ !!! Cái gì của bạn là của tôi và cái gì của tôi là của tôi. Cái gì của ngươi là của ta, và cái gì của ta cũng là của ngươi.',
146
+ ]
147
+ embeddings = model.encode(sentences)
148
+ print(embeddings.shape)
149
+ # [3, 768]
150
+
151
+ # Get the similarity scores for the embeddings
152
+ similarities = model.similarity(embeddings, embeddings)
153
+ print(similarities)
154
+ # tensor([[ 1.0000, 0.4626, -0.0751],
155
+ # [ 0.4626, 1.0000, -0.1300],
156
+ # [-0.0751, -0.1300, 1.0000]])
157
+ ```
158
+
159
+ <!--
160
+ ### Direct Usage (Transformers)
161
+
162
+ <details><summary>Click to see the direct usage in Transformers</summary>
163
+
164
+ </details>
165
+ -->
166
+
167
+ <!--
168
+ ### Downstream Usage (Sentence Transformers)
169
+
170
+ You can finetune this model on your own dataset.
171
+
172
+ <details><summary>Click to expand</summary>
173
+
174
+ </details>
175
+ -->
176
+
177
+ <!--
178
+ ### Out-of-Scope Use
179
+
180
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
181
+ -->
182
+
183
+ <!--
184
+ ## Bias, Risks and Limitations
185
+
186
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
187
+ -->
188
+
189
+ <!--
190
+ ### Recommendations
191
+
192
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
193
+ -->
194
+
195
+ ## Training Details
196
+
197
+ ### Training Dataset
198
+
199
+ #### Unnamed Dataset
200
+
201
+ * Size: 985,664 training samples
202
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
203
+ * Approximate statistics based on the first 1000 samples:
204
+ | | sentence_0 | sentence_1 | sentence_2 |
205
+ |:--------|:--------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
206
+ | type | string | string | string |
207
+ | details | <ul><li>min: 4 tokens</li><li>mean: 5.66 tokens</li><li>max: 8 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 91.15 tokens</li><li>max: 252 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 94.89 tokens</li><li>max: 279 tokens</li></ul> |
208
+ * Samples:
209
+ | sentence_0 | sentence_1 | sentence_2 |
210
+ |:------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
211
+ | <code>iq là ai?</code> | <code>Chỉ số IQ là sự so sánh kết quả kiểm tra của bạn với kết quả của những người cùng tuổi với bạn. Chỉ số IQ trung bình là 100. Nếu bạn cho 1.000 người làm một bài kiểm tra thực sự khó, kết quả của bạn sẽ như sau: Biểu đồ càng cao thì càng có nhiều người đạt được điểm đó.</code> | <code>Phương pháp trước đây cho phép chúng tôi đưa ra điểm IQ tối đa được giới hạn trực tiếp bởi bài kiểm tra và mẫu quy chuẩn; ví dụ: WAIS-IV có chỉ số IQ trần, tôi nghĩ là 160, vì vậy người nào đạt được mọi mục đúng trong bài kiểm tra chỉ có thể có chỉ số IQ từ 160 trở lên.</code> |
212
+ | <code>t20 là gì</code> | <code>Twenty20 cricket, đôi khi được viết là Twenty-20, và thường được viết tắt là T20, là một dạng ngắn của cricket. Ban đầu nó được giới thiệu bởi Hội đồng Cricket Anh và Xứ Wales (ECB) vào năm 2003 để thi đấu chuyên nghiệp giữa các quận ở Anh và xứ Wales. Trong trò chơi Twenty20, hai đội có một lượt chơi duy nhất, mỗi lượt được giới hạn ở mức tối đa 20 lần vượt trội.</code> | <code># 6 Đăng ngày 30 tháng 6 năm 2015 - 09:23 PM. T20 vàng: Kẻ tình nghi được nhìn thấy lần cuối trong một chiếc xe biểu diễn uhhh. Tự hỏi liệu những kẻ lười biếng viết mã trò chơi này có thực hiện công văn nói rằng Progen hay không. DIEXEL và Lamborghini1335 thích điều này.</code> |
213
+ | <code>ifis là gì</code> | <code>Hội chứng mống mắt mềm trong phẫu thuật. Hội chứng mống mắt mềm trong phẫu thuật (IFIS) là một biến chứng có thể xảy ra trong quá trình chiết xuất đục thủy tinh thể ở một số bệnh nhân nhất định.</code> | <code>Bán máy bay CESSNA CITATION 525. Danh sách nổi bật. Khung máy bay 605 TT; COLLINS PROLINE 21 4 TUBE 8â€Ââ „¢ X10â€Ââ" ¢ MÀN HÌNH LCD MÀN HÌNH XOAY EFIS DUAL COLLINS FMS-3200 W / CDUâ€Ââ „¢ S COLLINS PRO LINE 21 IFCS HONEYWELL MARK VIII EGPWS, CLASS A DUAL COLLINS VHF-4000 DUAL COLLINS AHC-3000 AHRS KÉP COLLINS ADC-3000 COLLINS IFIS 5000 KÉO COLLINS GPS-4000A 12-CHANNEL, WAA ...</code> |
214
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
215
+ ```json
216
+ {
217
+ "loss": "MultipleNegativesRankingLoss",
218
+ "matryoshka_dims": [
219
+ 768,
220
+ 512,
221
+ 256,
222
+ 128
223
+ ],
224
+ "matryoshka_weights": [
225
+ 1,
226
+ 1,
227
+ 1,
228
+ 1
229
+ ],
230
+ "n_dims_per_step": -1
231
+ }
232
+ ```
233
+
234
+ ### Training Hyperparameters
235
+ #### Non-Default Hyperparameters
236
+
237
+ - `eval_strategy`: steps
238
+ - `per_device_train_batch_size`: 64
239
+ - `per_device_eval_batch_size`: 64
240
+ - `weight_decay`: 0.01
241
+ - `warmup_steps`: 4621
242
+ - `bf16`: True
243
+ - `gradient_checkpointing`: True
244
+ - `gradient_checkpointing_kwargs`: {'use_reentrant': False}
245
+ - `batch_sampler`: no_duplicates
246
+
247
+ #### All Hyperparameters
248
+ <details><summary>Click to expand</summary>
249
+
250
+ - `overwrite_output_dir`: False
251
+ - `do_predict`: False
252
+ - `eval_strategy`: steps
253
+ - `prediction_loss_only`: True
254
+ - `per_device_train_batch_size`: 64
255
+ - `per_device_eval_batch_size`: 64
256
+ - `per_gpu_train_batch_size`: None
257
+ - `per_gpu_eval_batch_size`: None
258
+ - `gradient_accumulation_steps`: 1
259
+ - `eval_accumulation_steps`: None
260
+ - `torch_empty_cache_steps`: None
261
+ - `learning_rate`: 5e-05
262
+ - `weight_decay`: 0.01
263
+ - `adam_beta1`: 0.9
264
+ - `adam_beta2`: 0.999
265
+ - `adam_epsilon`: 1e-08
266
+ - `max_grad_norm`: 1.0
267
+ - `num_train_epochs`: 3
268
+ - `max_steps`: -1
269
+ - `lr_scheduler_type`: linear
270
+ - `lr_scheduler_kwargs`: None
271
+ - `warmup_ratio`: 0.0
272
+ - `warmup_steps`: 4621
273
+ - `log_level`: passive
274
+ - `log_level_replica`: warning
275
+ - `log_on_each_node`: True
276
+ - `logging_nan_inf_filter`: True
277
+ - `save_safetensors`: True
278
+ - `save_on_each_node`: False
279
+ - `save_only_model`: False
280
+ - `restore_callback_states_from_checkpoint`: False
281
+ - `no_cuda`: False
282
+ - `use_cpu`: False
283
+ - `use_mps_device`: False
284
+ - `seed`: 42
285
+ - `data_seed`: None
286
+ - `jit_mode_eval`: False
287
+ - `bf16`: True
288
+ - `fp16`: False
289
+ - `fp16_opt_level`: O1
290
+ - `half_precision_backend`: auto
291
+ - `bf16_full_eval`: False
292
+ - `fp16_full_eval`: False
293
+ - `tf32`: None
294
+ - `local_rank`: 0
295
+ - `ddp_backend`: None
296
+ - `tpu_num_cores`: None
297
+ - `tpu_metrics_debug`: False
298
+ - `debug`: []
299
+ - `dataloader_drop_last`: True
300
+ - `dataloader_num_workers`: 0
301
+ - `dataloader_prefetch_factor`: None
302
+ - `past_index`: -1
303
+ - `disable_tqdm`: False
304
+ - `remove_unused_columns`: True
305
+ - `label_names`: None
306
+ - `load_best_model_at_end`: False
307
+ - `ignore_data_skip`: False
308
+ - `fsdp`: []
309
+ - `fsdp_min_num_params`: 0
310
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
311
+ - `fsdp_transformer_layer_cls_to_wrap`: None
312
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
313
+ - `parallelism_config`: None
314
+ - `deepspeed`: None
315
+ - `label_smoothing_factor`: 0.0
316
+ - `optim`: adamw_torch_fused
317
+ - `optim_args`: None
318
+ - `adafactor`: False
319
+ - `group_by_length`: False
320
+ - `length_column_name`: length
321
+ - `project`: huggingface
322
+ - `trackio_space_id`: trackio
323
+ - `ddp_find_unused_parameters`: None
324
+ - `ddp_bucket_cap_mb`: None
325
+ - `ddp_broadcast_buffers`: False
326
+ - `dataloader_pin_memory`: True
327
+ - `dataloader_persistent_workers`: False
328
+ - `skip_memory_metrics`: True
329
+ - `use_legacy_prediction_loop`: False
330
+ - `push_to_hub`: False
331
+ - `resume_from_checkpoint`: None
332
+ - `hub_model_id`: None
333
+ - `hub_strategy`: every_save
334
+ - `hub_private_repo`: None
335
+ - `hub_always_push`: False
336
+ - `hub_revision`: None
337
+ - `gradient_checkpointing`: True
338
+ - `gradient_checkpointing_kwargs`: {'use_reentrant': False}
339
+ - `include_inputs_for_metrics`: False
340
+ - `include_for_metrics`: []
341
+ - `eval_do_concat_batches`: True
342
+ - `fp16_backend`: auto
343
+ - `push_to_hub_model_id`: None
344
+ - `push_to_hub_organization`: None
345
+ - `mp_parameters`:
346
+ - `auto_find_batch_size`: False
347
+ - `full_determinism`: False
348
+ - `torchdynamo`: None
349
+ - `ray_scope`: last
350
+ - `ddp_timeout`: 1800
351
+ - `torch_compile`: False
352
+ - `torch_compile_backend`: None
353
+ - `torch_compile_mode`: None
354
+ - `include_tokens_per_second`: False
355
+ - `include_num_input_tokens_seen`: no
356
+ - `neftune_noise_alpha`: None
357
+ - `optim_target_modules`: None
358
+ - `batch_eval_metrics`: False
359
+ - `eval_on_start`: False
360
+ - `use_liger_kernel`: False
361
+ - `liger_kernel_config`: None
362
+ - `eval_use_gather_object`: False
363
+ - `average_tokens_across_devices`: True
364
+ - `prompts`: None
365
+ - `batch_sampler`: no_duplicates
366
+ - `multi_dataset_batch_sampler`: proportional
367
+ - `router_mapping`: {}
368
+ - `learning_rate_mapping`: {}
369
+
370
+ </details>
371
+
372
+ ### Training Logs
373
+ <details><summary>Click to expand</summary>
374
+
375
+ | Epoch | Step | Training Loss | validation loss |
376
+ |:------:|:-----:|:-------------:|:---------------:|
377
+ | 0.0065 | 50 | 15.8358 | - |
378
+ | 0.0130 | 100 | 14.6302 | - |
379
+ | 0.0195 | 150 | 12.9435 | - |
380
+ | 0.0260 | 200 | 11.0158 | - |
381
+ | 0.0325 | 250 | 8.1467 | - |
382
+ | 0.0390 | 300 | 6.3047 | - |
383
+ | 0.0455 | 350 | 5.3338 | - |
384
+ | 0.0519 | 400 | 4.8151 | - |
385
+ | 0.0584 | 450 | 4.4069 | - |
386
+ | 0.0649 | 500 | 3.9475 | - |
387
+ | 0.0714 | 550 | 3.7711 | - |
388
+ | 0.0779 | 600 | 3.632 | - |
389
+ | 0.0844 | 650 | 3.4845 | - |
390
+ | 0.0909 | 700 | 3.1533 | - |
391
+ | 0.0974 | 750 | 3.1241 | - |
392
+ | 0.1039 | 800 | 3.0126 | - |
393
+ | 0.1104 | 850 | 2.9288 | - |
394
+ | 0.1169 | 900 | 2.8272 | - |
395
+ | 0.1234 | 950 | 2.8498 | - |
396
+ | 0.1299 | 1000 | 2.7475 | - |
397
+ | 0.1364 | 1050 | 2.6876 | - |
398
+ | 0.1429 | 1100 | 2.6059 | - |
399
+ | 0.1494 | 1150 | 2.5872 | - |
400
+ | 0.1558 | 1200 | 2.5415 | - |
401
+ | 0.1623 | 1250 | 2.4019 | - |
402
+ | 0.1688 | 1300 | 2.4368 | - |
403
+ | 0.1753 | 1350 | 2.4458 | - |
404
+ | 0.1818 | 1400 | 2.3388 | - |
405
+ | 0.1883 | 1450 | 2.3098 | - |
406
+ | 0.1948 | 1500 | 2.2482 | - |
407
+ | 0.2013 | 1550 | 2.2563 | - |
408
+ | 0.2078 | 1600 | 2.2442 | - |
409
+ | 0.2143 | 1650 | 2.2237 | - |
410
+ | 0.2208 | 1700 | 2.1157 | - |
411
+ | 0.2273 | 1750 | 2.0403 | - |
412
+ | 0.2338 | 1800 | 2.21 | - |
413
+ | 0.2403 | 1850 | 2.0855 | - |
414
+ | 0.2468 | 1900 | 2.028 | - |
415
+ | 0.2532 | 1950 | 2.153 | - |
416
+ | 0.2597 | 2000 | 2.069 | - |
417
+ | 0.2662 | 2050 | 1.9813 | - |
418
+ | 0.2727 | 2100 | 1.9279 | - |
419
+ | 0.2792 | 2150 | 2.0104 | - |
420
+ | 0.2857 | 2200 | 1.9722 | - |
421
+ | 0.2922 | 2250 | 1.9682 | - |
422
+ | 0.2987 | 2300 | 1.984 | - |
423
+ | 0.3052 | 2350 | 1.8487 | - |
424
+ | 0.3117 | 2400 | 1.9267 | - |
425
+ | 0.3182 | 2450 | 1.7841 | - |
426
+ | 0.3247 | 2500 | 1.8177 | - |
427
+ | 0.3312 | 2550 | 1.8583 | - |
428
+ | 0.3377 | 2600 | 1.8784 | - |
429
+ | 0.3442 | 2650 | 1.7052 | - |
430
+ | 0.3506 | 2700 | 1.8204 | - |
431
+ | 0.3571 | 2750 | 1.7969 | - |
432
+ | 0.3636 | 2800 | 1.7978 | - |
433
+ | 0.3701 | 2850 | 1.8179 | - |
434
+ | 0.3766 | 2900 | 1.7164 | - |
435
+ | 0.3831 | 2950 | 1.8107 | - |
436
+ | 0.3896 | 3000 | 1.759 | - |
437
+ | 0.3961 | 3050 | 1.7963 | - |
438
+ | 0.4026 | 3100 | 1.7223 | - |
439
+ | 0.4091 | 3150 | 1.7151 | - |
440
+ | 0.4156 | 3200 | 1.7295 | - |
441
+ | 0.4221 | 3250 | 1.6981 | - |
442
+ | 0.4286 | 3300 | 1.6633 | - |
443
+ | 0.4351 | 3350 | 1.5966 | - |
444
+ | 0.4416 | 3400 | 1.6285 | - |
445
+ | 0.4481 | 3450 | 1.7149 | - |
446
+ | 0.4545 | 3500 | 1.6233 | - |
447
+ | 0.4610 | 3550 | 1.5522 | - |
448
+ | 0.4675 | 3600 | 1.5499 | - |
449
+ | 0.4740 | 3650 | 1.5963 | - |
450
+ | 0.4805 | 3700 | 1.6582 | - |
451
+ | 0.4870 | 3750 | 1.5972 | - |
452
+ | 0.4935 | 3800 | 1.6449 | - |
453
+ | 0.5 | 3850 | 1.6221 | 5.2713 |
454
+ | 0.5065 | 3900 | 1.6147 | - |
455
+ | 0.5130 | 3950 | 1.5756 | - |
456
+ | 0.5195 | 4000 | 1.6214 | - |
457
+ | 0.5260 | 4050 | 1.5839 | - |
458
+ | 0.5325 | 4100 | 1.4891 | - |
459
+ | 0.5390 | 4150 | 1.5387 | - |
460
+ | 0.5455 | 4200 | 1.5678 | - |
461
+ | 0.5519 | 4250 | 1.4943 | - |
462
+ | 0.5584 | 4300 | 1.4306 | - |
463
+ | 0.5649 | 4350 | 1.4864 | - |
464
+ | 0.5714 | 4400 | 1.4896 | - |
465
+ | 0.5779 | 4450 | 1.5186 | - |
466
+ | 0.5844 | 4500 | 1.4905 | - |
467
+ | 0.5909 | 4550 | 1.5195 | - |
468
+ | 0.5974 | 4600 | 1.4064 | - |
469
+ | 0.6039 | 4650 | 1.5026 | - |
470
+ | 0.6104 | 4700 | 1.4919 | - |
471
+ | 0.6169 | 4750 | 1.5235 | - |
472
+ | 0.6234 | 4800 | 1.4332 | - |
473
+ | 0.6299 | 4850 | 1.4619 | - |
474
+ | 0.6364 | 4900 | 1.4294 | - |
475
+ | 0.6429 | 4950 | 1.4463 | - |
476
+ | 0.6494 | 5000 | 1.3645 | - |
477
+ | 0.6558 | 5050 | 1.3592 | - |
478
+ | 0.6623 | 5100 | 1.3791 | - |
479
+ | 0.6688 | 5150 | 1.4485 | - |
480
+ | 0.6753 | 5200 | 1.372 | - |
481
+ | 0.6818 | 5250 | 1.4108 | - |
482
+ | 0.6883 | 5300 | 1.3499 | - |
483
+ | 0.6948 | 5350 | 1.3396 | - |
484
+ | 0.7013 | 5400 | 1.367 | - |
485
+ | 0.7078 | 5450 | 1.4217 | - |
486
+ | 0.7143 | 5500 | 1.3431 | - |
487
+ | 0.7208 | 5550 | 1.3333 | - |
488
+ | 0.7273 | 5600 | 1.3898 | - |
489
+ | 0.7338 | 5650 | 1.3228 | - |
490
+ | 0.7403 | 5700 | 1.33 | - |
491
+ | 0.7468 | 5750 | 1.3245 | - |
492
+ | 0.7532 | 5800 | 1.3792 | - |
493
+ | 0.7597 | 5850 | 1.3702 | - |
494
+ | 0.7662 | 5900 | 1.3276 | - |
495
+ | 0.7727 | 5950 | 1.3775 | - |
496
+ | 0.7792 | 6000 | 1.3271 | - |
497
+ | 0.7857 | 6050 | 1.3357 | - |
498
+ | 0.7922 | 6100 | 1.3524 | - |
499
+ | 0.7987 | 6150 | 1.3353 | - |
500
+ | 0.8052 | 6200 | 1.2641 | - |
501
+ | 0.8117 | 6250 | 1.2377 | - |
502
+ | 0.8182 | 6300 | 1.3412 | - |
503
+ | 0.8247 | 6350 | 1.2912 | - |
504
+ | 0.8312 | 6400 | 1.233 | - |
505
+ | 0.8377 | 6450 | 1.2217 | - |
506
+ | 0.8442 | 6500 | 1.2351 | - |
507
+ | 0.8506 | 6550 | 1.2643 | - |
508
+ | 0.8571 | 6600 | 1.2723 | - |
509
+ | 0.8636 | 6650 | 1.2468 | - |
510
+ | 0.8701 | 6700 | 1.1932 | - |
511
+ | 0.8766 | 6750 | 1.3088 | - |
512
+ | 0.8831 | 6800 | 1.2377 | - |
513
+ | 0.8896 | 6850 | 1.2593 | - |
514
+ | 0.8961 | 6900 | 1.204 | - |
515
+ | 0.9026 | 6950 | 1.2226 | - |
516
+ | 0.9091 | 7000 | 1.2019 | - |
517
+ | 0.9156 | 7050 | 1.2027 | - |
518
+ | 0.9221 | 7100 | 1.1655 | - |
519
+ | 0.9286 | 7150 | 1.2088 | - |
520
+ | 0.9351 | 7200 | 1.1975 | - |
521
+ | 0.9416 | 7250 | 1.1341 | - |
522
+ | 0.9481 | 7300 | 1.1208 | - |
523
+ | 0.9545 | 7350 | 1.1489 | - |
524
+ | 0.9610 | 7400 | 1.0883 | - |
525
+ | 0.9675 | 7450 | 1.2011 | - |
526
+ | 0.9740 | 7500 | 1.1317 | - |
527
+ | 0.9805 | 7550 | 1.1398 | - |
528
+ | 0.9870 | 7600 | 1.1645 | - |
529
+ | 0.9935 | 7650 | 1.1606 | - |
530
+ | 1.0 | 7700 | 1.12 | 5.0928 |
531
+ | 1.0065 | 7750 | 1.1107 | - |
532
+ | 1.0130 | 7800 | 1.1248 | - |
533
+ | 1.0195 | 7850 | 1.1377 | - |
534
+ | 1.0260 | 7900 | 1.1565 | - |
535
+ | 1.0325 | 7950 | 1.0739 | - |
536
+ | 1.0390 | 8000 | 1.0617 | - |
537
+ | 1.0455 | 8050 | 1.1539 | - |
538
+ | 1.0519 | 8100 | 1.1147 | - |
539
+ | 1.0584 | 8150 | 1.102 | - |
540
+ | 1.0649 | 8200 | 1.0878 | - |
541
+ | 1.0714 | 8250 | 1.0161 | - |
542
+ | 1.0779 | 8300 | 1.0514 | - |
543
+ | 1.0844 | 8350 | 1.0846 | - |
544
+ | 1.0909 | 8400 | 1.0076 | - |
545
+ | 1.0974 | 8450 | 1.0343 | - |
546
+ | 1.1039 | 8500 | 1.0198 | - |
547
+ | 1.1104 | 8550 | 1.0457 | - |
548
+ | 1.1169 | 8600 | 0.9886 | - |
549
+ | 1.1234 | 8650 | 1.0036 | - |
550
+ | 1.1299 | 8700 | 0.9993 | - |
551
+ | 1.1364 | 8750 | 1.0408 | - |
552
+ | 1.1429 | 8800 | 0.9791 | - |
553
+ | 1.1494 | 8850 | 1.007 | - |
554
+ | 1.1558 | 8900 | 0.9949 | - |
555
+ | 1.1623 | 8950 | 0.9435 | - |
556
+ | 1.1688 | 9000 | 0.9327 | - |
557
+ | 1.1753 | 9050 | 0.9606 | - |
558
+ | 1.1818 | 9100 | 0.9275 | - |
559
+ | 1.1883 | 9150 | 0.9284 | - |
560
+ | 1.1948 | 9200 | 0.9137 | - |
561
+ | 1.2013 | 9250 | 0.8846 | - |
562
+ | 1.2078 | 9300 | 0.9781 | - |
563
+ | 1.2143 | 9350 | 0.9368 | - |
564
+ | 1.2208 | 9400 | 0.877 | - |
565
+ | 1.2273 | 9450 | 0.8125 | - |
566
+ | 1.2338 | 9500 | 0.9365 | - |
567
+ | 1.2403 | 9550 | 0.8493 | - |
568
+ | 1.2468 | 9600 | 0.8139 | - |
569
+ | 1.2532 | 9650 | 0.9337 | - |
570
+ | 1.2597 | 9700 | 0.8398 | - |
571
+ | 1.2662 | 9750 | 0.8033 | - |
572
+ | 1.2727 | 9800 | 0.8138 | - |
573
+ | 1.2792 | 9850 | 0.8595 | - |
574
+ | 1.2857 | 9900 | 0.8281 | - |
575
+ | 1.2922 | 9950 | 0.7889 | - |
576
+ | 1.2987 | 10000 | 0.8014 | - |
577
+ | 1.3052 | 10050 | 0.7405 | - |
578
+ | 1.3117 | 10100 | 0.7712 | - |
579
+ | 1.3182 | 10150 | 0.703 | - |
580
+ | 1.3247 | 10200 | 0.7099 | - |
581
+ | 1.3312 | 10250 | 0.7173 | - |
582
+ | 1.3377 | 10300 | 0.7463 | - |
583
+ | 1.3442 | 10350 | 0.6633 | - |
584
+ | 1.3506 | 10400 | 0.7407 | - |
585
+ | 1.3571 | 10450 | 0.6843 | - |
586
+ | 1.3636 | 10500 | 0.6518 | - |
587
+ | 1.3701 | 10550 | 0.7558 | - |
588
+ | 1.3766 | 10600 | 0.6574 | - |
589
+ | 1.3831 | 10650 | 0.7144 | - |
590
+ | 1.3896 | 10700 | 0.6727 | - |
591
+ | 1.3961 | 10750 | 0.6614 | - |
592
+ | 1.4026 | 10800 | 0.6456 | - |
593
+ | 1.4091 | 10850 | 0.6285 | - |
594
+ | 1.4156 | 10900 | 0.6152 | - |
595
+ | 1.4221 | 10950 | 0.6395 | - |
596
+ | 1.4286 | 11000 | 0.5996 | - |
597
+ | 1.4351 | 11050 | 0.6075 | - |
598
+ | 1.4416 | 11100 | 0.5877 | - |
599
+ | 1.4481 | 11150 | 0.6253 | - |
600
+ | 1.4545 | 11200 | 0.5845 | - |
601
+ | 1.4610 | 11250 | 0.5366 | - |
602
+ | 1.4675 | 11300 | 0.5349 | - |
603
+ | 1.4740 | 11350 | 0.5494 | - |
604
+ | 1.4805 | 11400 | 0.5562 | - |
605
+ | 1.4870 | 11450 | 0.5166 | - |
606
+ | 1.4935 | 11500 | 0.5421 | - |
607
+ | 1.5 | 11550 | 0.5132 | 5.1872 |
608
+ | 1.5065 | 11600 | 0.5162 | - |
609
+ | 1.5130 | 11650 | 0.4926 | - |
610
+ | 1.5195 | 11700 | 0.5442 | - |
611
+ | 1.5260 | 11750 | 0.509 | - |
612
+ | 1.5325 | 11800 | 0.4769 | - |
613
+ | 1.5390 | 11850 | 0.4668 | - |
614
+ | 1.5455 | 11900 | 0.4763 | - |
615
+ | 1.5519 | 11950 | 0.4597 | - |
616
+ | 1.5584 | 12000 | 0.4181 | - |
617
+ | 1.5649 | 12050 | 0.4246 | - |
618
+ | 1.5714 | 12100 | 0.4145 | - |
619
+ | 1.5779 | 12150 | 0.4233 | - |
620
+ | 1.5844 | 12200 | 0.4342 | - |
621
+ | 1.5909 | 12250 | 0.425 | - |
622
+ | 1.5974 | 12300 | 0.3726 | - |
623
+ | 1.6039 | 12350 | 0.4053 | - |
624
+ | 1.6104 | 12400 | 0.4298 | - |
625
+ | 1.6169 | 12450 | 0.4156 | - |
626
+ | 1.6234 | 12500 | 0.3841 | - |
627
+ | 1.6299 | 12550 | 0.4238 | - |
628
+ | 1.6364 | 12600 | 0.4209 | - |
629
+ | 1.6429 | 12650 | 0.3984 | - |
630
+ | 1.6494 | 12700 | 0.401 | - |
631
+ | 1.6558 | 12750 | 0.3672 | - |
632
+ | 1.6623 | 12800 | 0.3875 | - |
633
+ | 1.6688 | 12850 | 0.3943 | - |
634
+ | 1.6753 | 12900 | 0.3702 | - |
635
+ | 1.6818 | 12950 | 0.3933 | - |
636
+ | 1.6883 | 13000 | 0.3646 | - |
637
+ | 1.6948 | 13050 | 0.3597 | - |
638
+ | 1.7013 | 13100 | 0.3824 | - |
639
+ | 1.7078 | 13150 | 0.3693 | - |
640
+ | 1.7143 | 13200 | 0.3666 | - |
641
+ | 1.7208 | 13250 | 0.3662 | - |
642
+ | 1.7273 | 13300 | 0.3962 | - |
643
+ | 1.7338 | 13350 | 0.3702 | - |
644
+ | 1.7403 | 13400 | 0.3405 | - |
645
+ | 1.7468 | 13450 | 0.349 | - |
646
+ | 1.7532 | 13500 | 0.3699 | - |
647
+ | 1.7597 | 13550 | 0.3701 | - |
648
+ | 1.7662 | 13600 | 0.3574 | - |
649
+ | 1.7727 | 13650 | 0.3606 | - |
650
+ | 1.7792 | 13700 | 0.3574 | - |
651
+ | 1.7857 | 13750 | 0.3616 | - |
652
+ | 1.7922 | 13800 | 0.3684 | - |
653
+ | 1.7987 | 13850 | 0.3414 | - |
654
+ | 1.8052 | 13900 | 0.3356 | - |
655
+ | 1.8117 | 13950 | 0.3358 | - |
656
+ | 1.8182 | 14000 | 0.3533 | - |
657
+ | 1.8247 | 14050 | 0.3447 | - |
658
+ | 1.8312 | 14100 | 0.3171 | - |
659
+ | 1.8377 | 14150 | 0.3024 | - |
660
+ | 1.8442 | 14200 | 0.3045 | - |
661
+ | 1.8506 | 14250 | 0.3551 | - |
662
+ | 1.8571 | 14300 | 0.3417 | - |
663
+ | 1.8636 | 14350 | 0.3193 | - |
664
+ | 1.8701 | 14400 | 0.3052 | - |
665
+ | 1.8766 | 14450 | 0.3447 | - |
666
+ | 1.8831 | 14500 | 0.3502 | - |
667
+ | 1.8896 | 14550 | 0.3398 | - |
668
+ | 1.8961 | 14600 | 0.3268 | - |
669
+ | 1.9026 | 14650 | 0.3185 | - |
670
+ | 1.9091 | 14700 | 0.3096 | - |
671
+ | 1.9156 | 14750 | 0.3003 | - |
672
+ | 1.9221 | 14800 | 0.3156 | - |
673
+ | 1.9286 | 14850 | 0.32 | - |
674
+ | 1.9351 | 14900 | 0.3017 | - |
675
+ | 1.9416 | 14950 | 0.3014 | - |
676
+ | 1.9481 | 15000 | 0.2969 | - |
677
+ | 1.9545 | 15050 | 0.3127 | - |
678
+ | 1.9610 | 15100 | 0.2865 | - |
679
+ | 1.9675 | 15150 | 0.3214 | - |
680
+ | 1.9740 | 15200 | 0.3105 | - |
681
+ | 1.9805 | 15250 | 0.3089 | - |
682
+ | 1.9870 | 15300 | 0.2972 | - |
683
+ | 1.9935 | 15350 | 0.3031 | - |
684
+ | 2.0 | 15400 | 0.3201 | 5.2565 |
685
+ | 2.0065 | 15450 | 0.276 | - |
686
+ | 2.0130 | 15500 | 0.2912 | - |
687
+ | 2.0195 | 15550 | 0.2913 | - |
688
+ | 2.0260 | 15600 | 0.2877 | - |
689
+ | 2.0325 | 15650 | 0.2708 | - |
690
+ | 2.0390 | 15700 | 0.2538 | - |
691
+ | 2.0455 | 15750 | 0.295 | - |
692
+ | 2.0519 | 15800 | 0.2836 | - |
693
+ | 2.0584 | 15850 | 0.2708 | - |
694
+ | 2.0649 | 15900 | 0.2758 | - |
695
+ | 2.0714 | 15950 | 0.2507 | - |
696
+ | 2.0779 | 16000 | 0.2772 | - |
697
+ | 2.0844 | 16050 | 0.2907 | - |
698
+ | 2.0909 | 16100 | 0.254 | - |
699
+ | 2.0974 | 16150 | 0.2712 | - |
700
+ | 2.1039 | 16200 | 0.2694 | - |
701
+ | 2.1104 | 16250 | 0.2689 | - |
702
+ | 2.1169 | 16300 | 0.264 | - |
703
+ | 2.1234 | 16350 | 0.2588 | - |
704
+ | 2.1299 | 16400 | 0.2512 | - |
705
+ | 2.1364 | 16450 | 0.2749 | - |
706
+ | 2.1429 | 16500 | 0.2411 | - |
707
+ | 2.1494 | 16550 | 0.2522 | - |
708
+ | 2.1558 | 16600 | 0.2521 | - |
709
+ | 2.1623 | 16650 | 0.2406 | - |
710
+ | 2.1688 | 16700 | 0.2212 | - |
711
+ | 2.1753 | 16750 | 0.2335 | - |
712
+ | 2.1818 | 16800 | 0.2322 | - |
713
+ | 2.1883 | 16850 | 0.2301 | - |
714
+ | 2.1948 | 16900 | 0.2199 | - |
715
+ | 2.2013 | 16950 | 0.2199 | - |
716
+ | 2.2078 | 17000 | 0.2398 | - |
717
+ | 2.2143 | 17050 | 0.229 | - |
718
+ | 2.2208 | 17100 | 0.2399 | - |
719
+ | 2.2273 | 17150 | 0.2083 | - |
720
+ | 2.2338 | 17200 | 0.2334 | - |
721
+ | 2.2403 | 17250 | 0.2139 | - |
722
+ | 2.2468 | 17300 | 0.2046 | - |
723
+ | 2.2532 | 17350 | 0.235 | - |
724
+ | 2.2597 | 17400 | 0.2211 | - |
725
+ | 2.2662 | 17450 | 0.2053 | - |
726
+ | 2.2727 | 17500 | 0.2064 | - |
727
+ | 2.2792 | 17550 | 0.2094 | - |
728
+ | 2.2857 | 17600 | 0.2068 | - |
729
+ | 2.2922 | 17650 | 0.2011 | - |
730
+ | 2.2987 | 17700 | 0.2051 | - |
731
+ | 2.3052 | 17750 | 0.1851 | - |
732
+ | 2.3117 | 17800 | 0.2058 | - |
733
+ | 2.3182 | 17850 | 0.1841 | - |
734
+ | 2.3247 | 17900 | 0.1807 | - |
735
+ | 2.3312 | 17950 | 0.1828 | - |
736
+ | 2.3377 | 18000 | 0.1978 | - |
737
+ | 2.3442 | 18050 | 0.1599 | - |
738
+ | 2.3506 | 18100 | 0.208 | - |
739
+ | 2.3571 | 18150 | 0.181 | - |
740
+ | 2.3636 | 18200 | 0.1678 | - |
741
+ | 2.3701 | 18250 | 0.1997 | - |
742
+ | 2.3766 | 18300 | 0.1681 | - |
743
+ | 2.3831 | 18350 | 0.1956 | - |
744
+ | 2.3896 | 18400 | 0.1646 | - |
745
+ | 2.3961 | 18450 | 0.1596 | - |
746
+ | 2.4026 | 18500 | 0.163 | - |
747
+ | 2.4091 | 18550 | 0.1596 | - |
748
+ | 2.4156 | 18600 | 0.1445 | - |
749
+ | 2.4221 | 18650 | 0.1471 | - |
750
+ | 2.4286 | 18700 | 0.1426 | - |
751
+ | 2.4351 | 18750 | 0.1566 | - |
752
+ | 2.4416 | 18800 | 0.1488 | - |
753
+ | 2.4481 | 18850 | 0.1679 | - |
754
+ | 2.4545 | 18900 | 0.1416 | - |
755
+ | 2.4610 | 18950 | 0.1374 | - |
756
+ | 2.4675 | 19000 | 0.1226 | - |
757
+ | 2.4740 | 19050 | 0.1332 | - |
758
+ | 2.4805 | 19100 | 0.1427 | - |
759
+ | 2.4870 | 19150 | 0.1249 | - |
760
+ | 2.4935 | 19200 | 0.1378 | - |
761
+ | 2.5 | 19250 | 0.1374 | 5.3956 |
762
+
763
+ </details>
764
+
765
+ ### Framework Versions
766
+ - Python: 3.11.15
767
+ - Sentence Transformers: 5.3.0
768
+ - Transformers: 4.57.6
769
+ - PyTorch: 2.11.0+cu130
770
+ - Accelerate: 1.13.0
771
+ - Datasets: 3.6.0
772
+ - Tokenizers: 0.22.2
773
+
774
+ ## Citation
775
+
776
+ ### BibTeX
777
+
778
+ #### Sentence Transformers
779
+ ```bibtex
780
+ @inproceedings{reimers-2019-sentence-bert,
781
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
782
+ author = "Reimers, Nils and Gurevych, Iryna",
783
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
784
+ month = "11",
785
+ year = "2019",
786
+ publisher = "Association for Computational Linguistics",
787
+ url = "https://arxiv.org/abs/1908.10084",
788
+ }
789
+ ```
790
+
791
+ #### MatryoshkaLoss
792
+ ```bibtex
793
+ @misc{kusupati2024matryoshka,
794
+ title={Matryoshka Representation Learning},
795
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
796
+ year={2024},
797
+ eprint={2205.13147},
798
+ archivePrefix={arXiv},
799
+ primaryClass={cs.LG}
800
+ }
801
+ ```
802
+
803
+ #### MultipleNegativesRankingLoss
804
+ ```bibtex
805
+ @misc{oord2019representationlearningcontrastivepredictive,
806
+ title={Representation Learning with Contrastive Predictive Coding},
807
+ author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
808
+ year={2019},
809
+ eprint={1807.03748},
810
+ archivePrefix={arXiv},
811
+ primaryClass={cs.LG},
812
+ url={https://arxiv.org/abs/1807.03748},
813
+ }
814
+ ```
815
+
816
+ <!--
817
+ ## Glossary
818
+
819
+ *Clearly define terms in order to be accessible across audiences.*
820
+ -->
821
+
822
+ <!--
823
+ ## Model Card Authors
824
+
825
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
826
+ -->
827
+
828
+ <!--
829
+ ## Model Card Contact
830
+
831
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
832
+ -->
checkpoints/checkpoint-19250/config.json ADDED
@@ -0,0 +1,45 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertModel"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 0,
8
+ "classifier_activation": "silu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 0,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 3,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 768,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 160000.0,
29
+ "max_position_embeddings": 4096,
30
+ "mlp_bias": false,
31
+ "mlp_dropout": 0.0,
32
+ "model_type": "modernbert",
33
+ "norm_bias": false,
34
+ "norm_eps": 1e-05,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 22,
37
+ "pad_token_id": 2,
38
+ "position_embedding_type": "absolute",
39
+ "repad_logits_with_grad": false,
40
+ "sep_token_id": 3,
41
+ "sparse_pred_ignore_index": -100,
42
+ "sparse_prediction": false,
43
+ "transformers_version": "4.57.6",
44
+ "vocab_size": 32064
45
+ }
checkpoints/checkpoint-19250/config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.3.0",
5
+ "transformers": "4.57.6",
6
+ "pytorch": "2.11.0+cu130"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
checkpoints/checkpoint-19250/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:02c7675937366477fd0a62710f9550ff83a456c8dd98dc52ea88699f72295641
3
+ size 539840248
checkpoints/checkpoint-19250/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
checkpoints/checkpoint-19250/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ec606e7084a8eac8d632a8fee592c26d4a87741c2b07babacb63be4eeb074f4a
3
+ size 1079769611
checkpoints/checkpoint-19250/rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:119796e0990f84dfff4d7bfff053cc9bb1a6316b9cbe26f243d18d708529a54a
3
+ size 14917
checkpoints/checkpoint-19250/sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
checkpoints/checkpoint-19250/special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": true,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
checkpoints/checkpoint-19250/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoints/checkpoint-19250/tokenizer_config.json ADDED
@@ -0,0 +1,569 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[CLS]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[MASK]",
13
+ "lstrip": true,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[PAD]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[UNK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "32000": {
44
+ "content": "[unused1]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "32001": {
52
+ "content": "[unused2]",
53
+ "lstrip": false,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ },
59
+ "32002": {
60
+ "content": "[unused3]",
61
+ "lstrip": false,
62
+ "normalized": false,
63
+ "rstrip": false,
64
+ "single_word": false,
65
+ "special": true
66
+ },
67
+ "32003": {
68
+ "content": "[unused4]",
69
+ "lstrip": false,
70
+ "normalized": false,
71
+ "rstrip": false,
72
+ "single_word": false,
73
+ "special": true
74
+ },
75
+ "32004": {
76
+ "content": "[unused5]",
77
+ "lstrip": false,
78
+ "normalized": false,
79
+ "rstrip": false,
80
+ "single_word": false,
81
+ "special": true
82
+ },
83
+ "32005": {
84
+ "content": "[unused6]",
85
+ "lstrip": false,
86
+ "normalized": false,
87
+ "rstrip": false,
88
+ "single_word": false,
89
+ "special": true
90
+ },
91
+ "32006": {
92
+ "content": "[unused7]",
93
+ "lstrip": false,
94
+ "normalized": false,
95
+ "rstrip": false,
96
+ "single_word": false,
97
+ "special": true
98
+ },
99
+ "32007": {
100
+ "content": "[unused8]",
101
+ "lstrip": false,
102
+ "normalized": false,
103
+ "rstrip": false,
104
+ "single_word": false,
105
+ "special": true
106
+ },
107
+ "32008": {
108
+ "content": "[unused9]",
109
+ "lstrip": false,
110
+ "normalized": false,
111
+ "rstrip": false,
112
+ "single_word": false,
113
+ "special": true
114
+ },
115
+ "32009": {
116
+ "content": "[unused10]",
117
+ "lstrip": false,
118
+ "normalized": false,
119
+ "rstrip": false,
120
+ "single_word": false,
121
+ "special": true
122
+ },
123
+ "32010": {
124
+ "content": "[unused11]",
125
+ "lstrip": false,
126
+ "normalized": false,
127
+ "rstrip": false,
128
+ "single_word": false,
129
+ "special": true
130
+ },
131
+ "32011": {
132
+ "content": "[unused12]",
133
+ "lstrip": false,
134
+ "normalized": false,
135
+ "rstrip": false,
136
+ "single_word": false,
137
+ "special": true
138
+ },
139
+ "32012": {
140
+ "content": "[unused13]",
141
+ "lstrip": false,
142
+ "normalized": false,
143
+ "rstrip": false,
144
+ "single_word": false,
145
+ "special": true
146
+ },
147
+ "32013": {
148
+ "content": "[unused14]",
149
+ "lstrip": false,
150
+ "normalized": false,
151
+ "rstrip": false,
152
+ "single_word": false,
153
+ "special": true
154
+ },
155
+ "32014": {
156
+ "content": "[unused15]",
157
+ "lstrip": false,
158
+ "normalized": false,
159
+ "rstrip": false,
160
+ "single_word": false,
161
+ "special": true
162
+ },
163
+ "32015": {
164
+ "content": "[unused16]",
165
+ "lstrip": false,
166
+ "normalized": false,
167
+ "rstrip": false,
168
+ "single_word": false,
169
+ "special": true
170
+ },
171
+ "32016": {
172
+ "content": "[unused17]",
173
+ "lstrip": false,
174
+ "normalized": false,
175
+ "rstrip": false,
176
+ "single_word": false,
177
+ "special": true
178
+ },
179
+ "32017": {
180
+ "content": "[unused18]",
181
+ "lstrip": false,
182
+ "normalized": false,
183
+ "rstrip": false,
184
+ "single_word": false,
185
+ "special": true
186
+ },
187
+ "32018": {
188
+ "content": "[unused19]",
189
+ "lstrip": false,
190
+ "normalized": false,
191
+ "rstrip": false,
192
+ "single_word": false,
193
+ "special": true
194
+ },
195
+ "32019": {
196
+ "content": "[unused20]",
197
+ "lstrip": false,
198
+ "normalized": false,
199
+ "rstrip": false,
200
+ "single_word": false,
201
+ "special": true
202
+ },
203
+ "32020": {
204
+ "content": "[unused21]",
205
+ "lstrip": false,
206
+ "normalized": false,
207
+ "rstrip": false,
208
+ "single_word": false,
209
+ "special": true
210
+ },
211
+ "32021": {
212
+ "content": "[unused22]",
213
+ "lstrip": false,
214
+ "normalized": false,
215
+ "rstrip": false,
216
+ "single_word": false,
217
+ "special": true
218
+ },
219
+ "32022": {
220
+ "content": "[unused23]",
221
+ "lstrip": false,
222
+ "normalized": false,
223
+ "rstrip": false,
224
+ "single_word": false,
225
+ "special": true
226
+ },
227
+ "32023": {
228
+ "content": "[unused24]",
229
+ "lstrip": false,
230
+ "normalized": false,
231
+ "rstrip": false,
232
+ "single_word": false,
233
+ "special": true
234
+ },
235
+ "32024": {
236
+ "content": "[unused25]",
237
+ "lstrip": false,
238
+ "normalized": false,
239
+ "rstrip": false,
240
+ "single_word": false,
241
+ "special": true
242
+ },
243
+ "32025": {
244
+ "content": "[unused26]",
245
+ "lstrip": false,
246
+ "normalized": false,
247
+ "rstrip": false,
248
+ "single_word": false,
249
+ "special": true
250
+ },
251
+ "32026": {
252
+ "content": "[unused27]",
253
+ "lstrip": false,
254
+ "normalized": false,
255
+ "rstrip": false,
256
+ "single_word": false,
257
+ "special": true
258
+ },
259
+ "32027": {
260
+ "content": "[unused28]",
261
+ "lstrip": false,
262
+ "normalized": false,
263
+ "rstrip": false,
264
+ "single_word": false,
265
+ "special": true
266
+ },
267
+ "32028": {
268
+ "content": "[unused29]",
269
+ "lstrip": false,
270
+ "normalized": false,
271
+ "rstrip": false,
272
+ "single_word": false,
273
+ "special": true
274
+ },
275
+ "32029": {
276
+ "content": "[unused30]",
277
+ "lstrip": false,
278
+ "normalized": false,
279
+ "rstrip": false,
280
+ "single_word": false,
281
+ "special": true
282
+ },
283
+ "32030": {
284
+ "content": "[unused31]",
285
+ "lstrip": false,
286
+ "normalized": false,
287
+ "rstrip": false,
288
+ "single_word": false,
289
+ "special": true
290
+ },
291
+ "32031": {
292
+ "content": "[unused32]",
293
+ "lstrip": false,
294
+ "normalized": false,
295
+ "rstrip": false,
296
+ "single_word": false,
297
+ "special": true
298
+ },
299
+ "32032": {
300
+ "content": "[unused33]",
301
+ "lstrip": false,
302
+ "normalized": false,
303
+ "rstrip": false,
304
+ "single_word": false,
305
+ "special": true
306
+ },
307
+ "32033": {
308
+ "content": "[unused34]",
309
+ "lstrip": false,
310
+ "normalized": false,
311
+ "rstrip": false,
312
+ "single_word": false,
313
+ "special": true
314
+ },
315
+ "32034": {
316
+ "content": "[unused35]",
317
+ "lstrip": false,
318
+ "normalized": false,
319
+ "rstrip": false,
320
+ "single_word": false,
321
+ "special": true
322
+ },
323
+ "32035": {
324
+ "content": "[unused36]",
325
+ "lstrip": false,
326
+ "normalized": false,
327
+ "rstrip": false,
328
+ "single_word": false,
329
+ "special": true
330
+ },
331
+ "32036": {
332
+ "content": "[unused37]",
333
+ "lstrip": false,
334
+ "normalized": false,
335
+ "rstrip": false,
336
+ "single_word": false,
337
+ "special": true
338
+ },
339
+ "32037": {
340
+ "content": "[unused38]",
341
+ "lstrip": false,
342
+ "normalized": false,
343
+ "rstrip": false,
344
+ "single_word": false,
345
+ "special": true
346
+ },
347
+ "32038": {
348
+ "content": "[unused39]",
349
+ "lstrip": false,
350
+ "normalized": false,
351
+ "rstrip": false,
352
+ "single_word": false,
353
+ "special": true
354
+ },
355
+ "32039": {
356
+ "content": "[unused40]",
357
+ "lstrip": false,
358
+ "normalized": false,
359
+ "rstrip": false,
360
+ "single_word": false,
361
+ "special": true
362
+ },
363
+ "32040": {
364
+ "content": "[unused41]",
365
+ "lstrip": false,
366
+ "normalized": false,
367
+ "rstrip": false,
368
+ "single_word": false,
369
+ "special": true
370
+ },
371
+ "32041": {
372
+ "content": "[unused42]",
373
+ "lstrip": false,
374
+ "normalized": false,
375
+ "rstrip": false,
376
+ "single_word": false,
377
+ "special": true
378
+ },
379
+ "32042": {
380
+ "content": "[unused43]",
381
+ "lstrip": false,
382
+ "normalized": false,
383
+ "rstrip": false,
384
+ "single_word": false,
385
+ "special": true
386
+ },
387
+ "32043": {
388
+ "content": "[unused44]",
389
+ "lstrip": false,
390
+ "normalized": false,
391
+ "rstrip": false,
392
+ "single_word": false,
393
+ "special": true
394
+ },
395
+ "32044": {
396
+ "content": "[unused45]",
397
+ "lstrip": false,
398
+ "normalized": false,
399
+ "rstrip": false,
400
+ "single_word": false,
401
+ "special": true
402
+ },
403
+ "32045": {
404
+ "content": "[unused46]",
405
+ "lstrip": false,
406
+ "normalized": false,
407
+ "rstrip": false,
408
+ "single_word": false,
409
+ "special": true
410
+ },
411
+ "32046": {
412
+ "content": "[unused47]",
413
+ "lstrip": false,
414
+ "normalized": false,
415
+ "rstrip": false,
416
+ "single_word": false,
417
+ "special": true
418
+ },
419
+ "32047": {
420
+ "content": "[unused48]",
421
+ "lstrip": false,
422
+ "normalized": false,
423
+ "rstrip": false,
424
+ "single_word": false,
425
+ "special": true
426
+ },
427
+ "32048": {
428
+ "content": "[unused49]",
429
+ "lstrip": false,
430
+ "normalized": false,
431
+ "rstrip": false,
432
+ "single_word": false,
433
+ "special": true
434
+ },
435
+ "32049": {
436
+ "content": "[unused50]",
437
+ "lstrip": false,
438
+ "normalized": false,
439
+ "rstrip": false,
440
+ "single_word": false,
441
+ "special": true
442
+ },
443
+ "32050": {
444
+ "content": "[unused51]",
445
+ "lstrip": false,
446
+ "normalized": false,
447
+ "rstrip": false,
448
+ "single_word": false,
449
+ "special": true
450
+ },
451
+ "32051": {
452
+ "content": "[unused52]",
453
+ "lstrip": false,
454
+ "normalized": false,
455
+ "rstrip": false,
456
+ "single_word": false,
457
+ "special": true
458
+ },
459
+ "32052": {
460
+ "content": "[unused53]",
461
+ "lstrip": false,
462
+ "normalized": false,
463
+ "rstrip": false,
464
+ "single_word": false,
465
+ "special": true
466
+ },
467
+ "32053": {
468
+ "content": "[unused54]",
469
+ "lstrip": false,
470
+ "normalized": false,
471
+ "rstrip": false,
472
+ "single_word": false,
473
+ "special": true
474
+ },
475
+ "32054": {
476
+ "content": "[unused55]",
477
+ "lstrip": false,
478
+ "normalized": false,
479
+ "rstrip": false,
480
+ "single_word": false,
481
+ "special": true
482
+ },
483
+ "32055": {
484
+ "content": "[unused56]",
485
+ "lstrip": false,
486
+ "normalized": false,
487
+ "rstrip": false,
488
+ "single_word": false,
489
+ "special": true
490
+ },
491
+ "32056": {
492
+ "content": "[unused57]",
493
+ "lstrip": false,
494
+ "normalized": false,
495
+ "rstrip": false,
496
+ "single_word": false,
497
+ "special": true
498
+ },
499
+ "32057": {
500
+ "content": "[unused58]",
501
+ "lstrip": false,
502
+ "normalized": false,
503
+ "rstrip": false,
504
+ "single_word": false,
505
+ "special": true
506
+ },
507
+ "32058": {
508
+ "content": "[unused59]",
509
+ "lstrip": false,
510
+ "normalized": false,
511
+ "rstrip": false,
512
+ "single_word": false,
513
+ "special": true
514
+ },
515
+ "32059": {
516
+ "content": "[unused60]",
517
+ "lstrip": false,
518
+ "normalized": false,
519
+ "rstrip": false,
520
+ "single_word": false,
521
+ "special": true
522
+ },
523
+ "32060": {
524
+ "content": "[unused61]",
525
+ "lstrip": false,
526
+ "normalized": false,
527
+ "rstrip": false,
528
+ "single_word": false,
529
+ "special": true
530
+ },
531
+ "32061": {
532
+ "content": "[unused62]",
533
+ "lstrip": false,
534
+ "normalized": false,
535
+ "rstrip": false,
536
+ "single_word": false,
537
+ "special": true
538
+ },
539
+ "32062": {
540
+ "content": "[unused63]",
541
+ "lstrip": false,
542
+ "normalized": false,
543
+ "rstrip": false,
544
+ "single_word": false,
545
+ "special": true
546
+ },
547
+ "32063": {
548
+ "content": "[unused64]",
549
+ "lstrip": false,
550
+ "normalized": false,
551
+ "rstrip": false,
552
+ "single_word": false,
553
+ "special": true
554
+ }
555
+ },
556
+ "clean_up_tokenization_spaces": true,
557
+ "cls_token": "[CLS]",
558
+ "extra_special_tokens": {},
559
+ "mask_token": "[MASK]",
560
+ "model_input_names": [
561
+ "input_ids",
562
+ "attention_mask"
563
+ ],
564
+ "model_max_length": 512,
565
+ "pad_token": "[PAD]",
566
+ "sep_token": "[SEP]",
567
+ "tokenizer_class": "PreTrainedTokenizerFast",
568
+ "unk_token": "[UNK]"
569
+ }
checkpoints/checkpoint-19250/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c45b618cedf9d0a79d1ad5a80a1620b1e222b798f44b8e8915f89356eacf45b
3
+ size 6225