Training completed

Files changed (3) hide show

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.88,
     "total_flos": 3.380713971525878e+17,
-    "train_loss": 0.9234967929124832,
-    "train_runtime": 643.7881,
-    "train_samples_per_second": 6.213,
-    "train_steps_per_second": 0.078
 }

 {
     "epoch": 3.88,
     "total_flos": 3.380713971525878e+17,
+    "train_loss": 0.9221555387973785,
+    "train_runtime": 646.4979,
+    "train_samples_per_second": 6.187,
+    "train_steps_per_second": 0.077
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.88,
     "total_flos": 3.380713971525878e+17,
-    "train_loss": 0.9234967929124832,
-    "train_runtime": 643.7881,
-    "train_samples_per_second": 6.213,
-    "train_steps_per_second": 0.078
 }

 {
     "epoch": 3.88,
     "total_flos": 3.380713971525878e+17,
+    "train_loss": 0.9221555387973785,
+    "train_runtime": 646.4979,
+    "train_samples_per_second": 6.187,
+    "train_steps_per_second": 0.077
 }

trainer_state.json CHANGED Viewed

@@ -11,47 +11,47 @@
   "log_history": [
     {
       "epoch": 0.8,
-      "grad_norm": 0.5147947669029236,
       "learning_rate": 0.0001,
-      "loss": 4.4204,
       "step": 10
     },
     {
       "epoch": 1.56,
-      "grad_norm": 0.16838183999061584,
       "learning_rate": 0.0001,
-      "loss": 0.0551,
       "step": 20
     },
     {
       "epoch": 2.32,
-      "grad_norm": 0.16586190462112427,
       "learning_rate": 0.0001,
-      "loss": 0.054,
       "step": 30
     },
     {
       "epoch": 3.08,
-      "grad_norm": 0.2226952314376831,
       "learning_rate": 0.0001,
-      "loss": 0.0473,
       "step": 40
     },
     {
       "epoch": 3.88,
-      "grad_norm": 0.10044433176517487,
       "learning_rate": 0.0001,
-      "loss": 0.0407,
       "step": 50
     },
     {
       "epoch": 3.88,
       "step": 50,
       "total_flos": 3.380713971525878e+17,
-      "train_loss": 0.9234967929124832,
-      "train_runtime": 643.7881,
-      "train_samples_per_second": 6.213,
-      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.8,
+      "grad_norm": 0.14122037589550018,
       "learning_rate": 0.0001,
+      "loss": 4.4121,
       "step": 10
     },
     {
       "epoch": 1.56,
+      "grad_norm": 0.16405606269836426,
       "learning_rate": 0.0001,
+      "loss": 0.0555,
       "step": 20
     },
     {
       "epoch": 2.32,
+      "grad_norm": 0.1663062423467636,
       "learning_rate": 0.0001,
+      "loss": 0.0541,
       "step": 30
     },
     {
       "epoch": 3.08,
+      "grad_norm": 0.1997026652097702,
       "learning_rate": 0.0001,
+      "loss": 0.0479,
       "step": 40
     },
     {
       "epoch": 3.88,
+      "grad_norm": 0.09167370945215225,
       "learning_rate": 0.0001,
+      "loss": 0.0412,
       "step": 50
     },
     {
       "epoch": 3.88,
       "step": 50,
       "total_flos": 3.380713971525878e+17,
+      "train_loss": 0.9221555387973785,
+      "train_runtime": 646.4979,
+      "train_samples_per_second": 6.187,
+      "train_steps_per_second": 0.077
     }
   ],
   "logging_steps": 10,