Training in progress, step 700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a06a0e47ba651e599e4b4766058ec931903a2cc546d08844cdbe699276f5f83a
 size 59933632

 version https://git-lfs.github.com/spec/v1
+oid sha256:418bcebcdfb7bb46077a0a8d3c77de02f80d94b6485b8050123d8dc674da1fd0
 size 59933632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dde81ccfc1d6e7f89434439a1d6f64f76e1c9379d5ef6122b86e48182afe1d2
 size 31823460

 version https://git-lfs.github.com/spec/v1
+oid sha256:27cac1d8665684f8fb9ae47b03b08212872a04f9d41c081c6f66d7ddc18d1571
 size 31823460

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4cdd7aec1abfd0c0395a28df47d40423c06a84d0d1ffe7f8ccd7c936e92670e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:401e8bcffbfaba4d317e2a89edb4f1073b7d8a172738af37a2a13688139c01d3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:514265d9316b4b9174cfc4ba2a301feeeb4433551f601594176fbaa00014d4c4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9d8a72170922eb22149c61e4763d188f7c858219b1f34e4777fff2bb46fb290
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03460714238177002,
   "eval_steps": 500,
-  "global_step": 650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4557,6 +4557,356 @@
       "learning_rate": 9.999999970901543e-05,
       "loss": 3.4294,
       "step": 650
     }
   ],
   "logging_steps": 1,
@@ -4576,7 +4926,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7832628604790374e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03726923025729079,
   "eval_steps": 500,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.999999970901543e-05,
       "loss": 3.4294,
       "step": 650
+    },
+    {
+      "epoch": 0.03466038413928044,
+      "grad_norm": 0.3088901937007904,
+      "learning_rate": 9.999999970811245e-05,
+      "loss": 2.7029,
+      "step": 651
+    },
+    {
+      "epoch": 0.034713625896790855,
+      "grad_norm": 0.41135066747665405,
+      "learning_rate": 9.999999970720808e-05,
+      "loss": 2.7839,
+      "step": 652
+    },
+    {
+      "epoch": 0.034766867654301266,
+      "grad_norm": 0.42486026883125305,
+      "learning_rate": 9.999999970630231e-05,
+      "loss": 2.8996,
+      "step": 653
+    },
+    {
+      "epoch": 0.034820109411811684,
+      "grad_norm": 0.4523933529853821,
+      "learning_rate": 9.999999970539513e-05,
+      "loss": 2.8055,
+      "step": 654
+    },
+    {
+      "epoch": 0.0348733511693221,
+      "grad_norm": 0.4108598828315735,
+      "learning_rate": 9.999999970448655e-05,
+      "loss": 2.7709,
+      "step": 655
+    },
+    {
+      "epoch": 0.03492659292683251,
+      "grad_norm": 0.38042157888412476,
+      "learning_rate": 9.999999970357658e-05,
+      "loss": 2.8717,
+      "step": 656
+    },
+    {
+      "epoch": 0.03497983468434293,
+      "grad_norm": 0.37943702936172485,
+      "learning_rate": 9.999999970266523e-05,
+      "loss": 2.6056,
+      "step": 657
+    },
+    {
+      "epoch": 0.03503307644185335,
+      "grad_norm": 0.3546702265739441,
+      "learning_rate": 9.999999970175244e-05,
+      "loss": 2.8449,
+      "step": 658
+    },
+    {
+      "epoch": 0.03508631819936376,
+      "grad_norm": 0.37441372871398926,
+      "learning_rate": 9.999999970083828e-05,
+      "loss": 2.7897,
+      "step": 659
+    },
+    {
+      "epoch": 0.03513955995687418,
+      "grad_norm": 0.3513989746570587,
+      "learning_rate": 9.999999969992271e-05,
+      "loss": 2.7763,
+      "step": 660
+    },
+    {
+      "epoch": 0.03519280171438459,
+      "grad_norm": 0.35834649205207825,
+      "learning_rate": 9.999999969900575e-05,
+      "loss": 2.7976,
+      "step": 661
+    },
+    {
+      "epoch": 0.03524604347189501,
+      "grad_norm": 0.37155264616012573,
+      "learning_rate": 9.999999969808738e-05,
+      "loss": 2.8712,
+      "step": 662
+    },
+    {
+      "epoch": 0.035299285229405425,
+      "grad_norm": 0.3758937120437622,
+      "learning_rate": 9.999999969716762e-05,
+      "loss": 2.7646,
+      "step": 663
+    },
+    {
+      "epoch": 0.035352526986915836,
+      "grad_norm": 0.3764578700065613,
+      "learning_rate": 9.999999969624645e-05,
+      "loss": 2.8118,
+      "step": 664
+    },
+    {
+      "epoch": 0.035405768744426254,
+      "grad_norm": 0.380533903837204,
+      "learning_rate": 9.99999996953239e-05,
+      "loss": 2.9565,
+      "step": 665
+    },
+    {
+      "epoch": 0.03545901050193667,
+      "grad_norm": 0.36998698115348816,
+      "learning_rate": 9.999999969439992e-05,
+      "loss": 2.783,
+      "step": 666
+    },
+    {
+      "epoch": 0.03551225225944708,
+      "grad_norm": 0.399178147315979,
+      "learning_rate": 9.999999969347458e-05,
+      "loss": 2.9048,
+      "step": 667
+    },
+    {
+      "epoch": 0.0355654940169575,
+      "grad_norm": 0.40703439712524414,
+      "learning_rate": 9.999999969254782e-05,
+      "loss": 2.8838,
+      "step": 668
+    },
+    {
+      "epoch": 0.03561873577446791,
+      "grad_norm": 0.39457255601882935,
+      "learning_rate": 9.999999969161966e-05,
+      "loss": 2.6732,
+      "step": 669
+    },
+    {
+      "epoch": 0.03567197753197833,
+      "grad_norm": 0.4186328053474426,
+      "learning_rate": 9.999999969069011e-05,
+      "loss": 2.8089,
+      "step": 670
+    },
+    {
+      "epoch": 0.03572521928948875,
+      "grad_norm": 0.4049818813800812,
+      "learning_rate": 9.999999968975914e-05,
+      "loss": 2.7544,
+      "step": 671
+    },
+    {
+      "epoch": 0.03577846104699916,
+      "grad_norm": 0.41349250078201294,
+      "learning_rate": 9.99999996888268e-05,
+      "loss": 2.8557,
+      "step": 672
+    },
+    {
+      "epoch": 0.03583170280450958,
+      "grad_norm": 0.384772390127182,
+      "learning_rate": 9.999999968789304e-05,
+      "loss": 2.7758,
+      "step": 673
+    },
+    {
+      "epoch": 0.035884944562019995,
+      "grad_norm": 0.39242029190063477,
+      "learning_rate": 9.999999968695789e-05,
+      "loss": 2.8561,
+      "step": 674
+    },
+    {
+      "epoch": 0.035938186319530406,
+      "grad_norm": 0.4232184886932373,
+      "learning_rate": 9.999999968602134e-05,
+      "loss": 2.7526,
+      "step": 675
+    },
+    {
+      "epoch": 0.035991428077040824,
+      "grad_norm": 0.3954784870147705,
+      "learning_rate": 9.999999968508339e-05,
+      "loss": 2.8118,
+      "step": 676
+    },
+    {
+      "epoch": 0.036044669834551235,
+      "grad_norm": 0.4440658688545227,
+      "learning_rate": 9.999999968414405e-05,
+      "loss": 2.8997,
+      "step": 677
+    },
+    {
+      "epoch": 0.03609791159206165,
+      "grad_norm": 0.4090384244918823,
+      "learning_rate": 9.99999996832033e-05,
+      "loss": 2.7277,
+      "step": 678
+    },
+    {
+      "epoch": 0.03615115334957207,
+      "grad_norm": 0.4622509479522705,
+      "learning_rate": 9.999999968226114e-05,
+      "loss": 2.8473,
+      "step": 679
+    },
+    {
+      "epoch": 0.03620439510708248,
+      "grad_norm": 0.44071659445762634,
+      "learning_rate": 9.999999968131761e-05,
+      "loss": 2.942,
+      "step": 680
+    },
+    {
+      "epoch": 0.0362576368645929,
+      "grad_norm": 0.5004546046257019,
+      "learning_rate": 9.999999968037266e-05,
+      "loss": 2.8794,
+      "step": 681
+    },
+    {
+      "epoch": 0.03631087862210332,
+      "grad_norm": 0.4791366159915924,
+      "learning_rate": 9.999999967942633e-05,
+      "loss": 2.9765,
+      "step": 682
+    },
+    {
+      "epoch": 0.03636412037961373,
+      "grad_norm": 0.4310838580131531,
+      "learning_rate": 9.999999967847858e-05,
+      "loss": 2.6606,
+      "step": 683
+    },
+    {
+      "epoch": 0.03641736213712415,
+      "grad_norm": 0.43610477447509766,
+      "learning_rate": 9.999999967752944e-05,
+      "loss": 2.7102,
+      "step": 684
+    },
+    {
+      "epoch": 0.036470603894634565,
+      "grad_norm": 0.5011301040649414,
+      "learning_rate": 9.999999967657889e-05,
+      "loss": 2.9686,
+      "step": 685
+    },
+    {
+      "epoch": 0.036523845652144976,
+      "grad_norm": 0.48820289969444275,
+      "learning_rate": 9.999999967562696e-05,
+      "loss": 2.8583,
+      "step": 686
+    },
+    {
+      "epoch": 0.036577087409655394,
+      "grad_norm": 0.49313730001449585,
+      "learning_rate": 9.999999967467362e-05,
+      "loss": 2.741,
+      "step": 687
+    },
+    {
+      "epoch": 0.036630329167165805,
+      "grad_norm": 0.4905647933483124,
+      "learning_rate": 9.999999967371889e-05,
+      "loss": 2.8032,
+      "step": 688
+    },
+    {
+      "epoch": 0.03668357092467622,
+      "grad_norm": 0.5020934343338013,
+      "learning_rate": 9.999999967276276e-05,
+      "loss": 2.8226,
+      "step": 689
+    },
+    {
+      "epoch": 0.03673681268218664,
+      "grad_norm": 0.5333757400512695,
+      "learning_rate": 9.999999967180522e-05,
+      "loss": 2.8236,
+      "step": 690
+    },
+    {
+      "epoch": 0.03679005443969705,
+      "grad_norm": 0.5454348921775818,
+      "learning_rate": 9.99999996708463e-05,
+      "loss": 2.9117,
+      "step": 691
+    },
+    {
+      "epoch": 0.03684329619720747,
+      "grad_norm": 0.5079708099365234,
+      "learning_rate": 9.999999966988596e-05,
+      "loss": 2.8137,
+      "step": 692
+    },
+    {
+      "epoch": 0.03689653795471789,
+      "grad_norm": 0.5753440260887146,
+      "learning_rate": 9.999999966892422e-05,
+      "loss": 2.9181,
+      "step": 693
+    },
+    {
+      "epoch": 0.0369497797122283,
+      "grad_norm": 0.5435117483139038,
+      "learning_rate": 9.99999996679611e-05,
+      "loss": 2.9129,
+      "step": 694
+    },
+    {
+      "epoch": 0.03700302146973872,
+      "grad_norm": 0.5819733142852783,
+      "learning_rate": 9.999999966699656e-05,
+      "loss": 3.0462,
+      "step": 695
+    },
+    {
+      "epoch": 0.03705626322724913,
+      "grad_norm": 0.6745149493217468,
+      "learning_rate": 9.999999966603065e-05,
+      "loss": 3.2039,
+      "step": 696
+    },
+    {
+      "epoch": 0.037109504984759546,
+      "grad_norm": 0.6611133217811584,
+      "learning_rate": 9.999999966506331e-05,
+      "loss": 2.9349,
+      "step": 697
+    },
+    {
+      "epoch": 0.037162746742269964,
+      "grad_norm": 0.7144906520843506,
+      "learning_rate": 9.999999966409459e-05,
+      "loss": 2.9977,
+      "step": 698
+    },
+    {
+      "epoch": 0.037215988499780375,
+      "grad_norm": 1.030449628829956,
+      "learning_rate": 9.999999966312447e-05,
+      "loss": 3.3691,
+      "step": 699
+    },
+    {
+      "epoch": 0.03726923025729079,
+      "grad_norm": 1.110541820526123,
+      "learning_rate": 9.999999966215294e-05,
+      "loss": 3.0989,
+      "step": 700
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9203841876977254e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null