Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -1,9 +1,9 @@
 ---
 library_name: peft
-license: llama3.2
-base_model: meta-llama/Llama-3.2-3b-Instruct
 tags:
-- base_model:adapter:meta-llama/Llama-3.2-3b-Instruct
 - lora
 - transformers
 pipeline_tag: text-generation
@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # qwen_model_testing
-This model is a fine-tuned version of [meta-llama/Llama-3.2-3b-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3b-Instruct) on an unknown dataset.
 ## Model description

 ---
 library_name: peft
+license: mit
+base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 tags:
+- base_model:adapter:deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 - lora
 - transformers
 pipeline_tag: text-generation
 # qwen_model_testing
+This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-7B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 5.565784553370419e+16,
-    "train_loss": 4.055104446411133,
-    "train_runtime": 129.2068,
-    "train_samples_per_second": 12.383,
-    "train_steps_per_second": 0.077
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 1.394108846267433e+17,
+    "train_loss": 8.501841735839843,
+    "train_runtime": 190.4124,
+    "train_samples_per_second": 8.403,
+    "train_steps_per_second": 0.053
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0182648401826484,
-    "total_flos": 5.565784553370419e+16,
-    "train_loss": 4.055104446411133,
-    "train_runtime": 129.2068,
-    "train_samples_per_second": 12.383,
-    "train_steps_per_second": 0.077
 }

 {
     "epoch": 0.0182648401826484,
+    "total_flos": 1.394108846267433e+17,
+    "train_loss": 8.501841735839843,
+    "train_runtime": 190.4124,
+    "train_samples_per_second": 8.403,
+    "train_steps_per_second": 0.053
 }

trainer_state.json CHANGED Viewed

@@ -11,19 +11,19 @@
   "log_history": [
     {
       "epoch": 0.0182648401826484,
-      "grad_norm": 0.5136012434959412,
       "learning_rate": 0.0001,
-      "loss": 4.0551,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
-      "total_flos": 5.565784553370419e+16,
-      "train_loss": 4.055104446411133,
-      "train_runtime": 129.2068,
-      "train_samples_per_second": 12.383,
-      "train_steps_per_second": 0.077
     }
   ],
   "logging_steps": 10,
@@ -43,7 +43,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.565784553370419e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.0182648401826484,
+      "grad_norm": 10.595149993896484,
       "learning_rate": 0.0001,
+      "loss": 8.5018,
       "step": 10
     },
     {
       "epoch": 0.0182648401826484,
       "step": 10,
+      "total_flos": 1.394108846267433e+17,
+      "train_loss": 8.501841735839843,
+      "train_runtime": 190.4124,
+      "train_samples_per_second": 8.403,
+      "train_steps_per_second": 0.053
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.394108846267433e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null