Training completed

Files changed (3) hide show

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0365296803652968,
     "total_flos": 2.788217692534866e+17,
-    "train_loss": 4.457736051082611,
-    "train_runtime": 365.5565,
-    "train_samples_per_second": 8.754,
-    "train_steps_per_second": 0.055
 }

 {
     "epoch": 0.0365296803652968,
     "total_flos": 2.788217692534866e+17,
+    "train_loss": 4.34948959350586,
+    "train_runtime": 315.9058,
+    "train_samples_per_second": 10.13,
+    "train_steps_per_second": 0.063
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0365296803652968,
     "total_flos": 2.788217692534866e+17,
-    "train_loss": 4.457736051082611,
-    "train_runtime": 365.5565,
-    "train_samples_per_second": 8.754,
-    "train_steps_per_second": 0.055
 }

 {
     "epoch": 0.0365296803652968,
     "total_flos": 2.788217692534866e+17,
+    "train_loss": 4.34948959350586,
+    "train_runtime": 315.9058,
+    "train_samples_per_second": 10.13,
+    "train_steps_per_second": 0.063
 }

trainer_state.json CHANGED Viewed

@@ -10,26 +10,26 @@
   "log_history": [
     {
       "epoch": 0.0182648401826484,
-      "grad_norm": 10.570018768310547,
       "learning_rate": 0.0001,
-      "loss": 8.549,
       "step": 10
     },
     {
       "epoch": 0.0365296803652968,
-      "grad_norm": 0.13333489000797272,
       "learning_rate": 0.0001,
-      "loss": 0.3664,
       "step": 20
     },
     {
       "epoch": 0.0365296803652968,
       "step": 20,
       "total_flos": 2.788217692534866e+17,
-      "train_loss": 4.457736051082611,
-      "train_runtime": 365.5565,
-      "train_samples_per_second": 8.754,
-      "train_steps_per_second": 0.055
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.0182648401826484,
+      "grad_norm": 10.428462028503418,
       "learning_rate": 0.0001,
+      "loss": 8.3943,
       "step": 10
     },
     {
       "epoch": 0.0365296803652968,
+      "grad_norm": 0.10605064779520035,
       "learning_rate": 0.0001,
+      "loss": 0.3047,
       "step": 20
     },
     {
       "epoch": 0.0365296803652968,
       "step": 20,
       "total_flos": 2.788217692534866e+17,
+      "train_loss": 4.34948959350586,
+      "train_runtime": 315.9058,
+      "train_samples_per_second": 10.13,
+      "train_steps_per_second": 0.063
     }
   ],
   "logging_steps": 10,