Training in progress, step 650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7882eadd685fdcce6d3734404c09814f09c0a2a5662a860276ddcb723598343b
 size 59933632

 version https://git-lfs.github.com/spec/v1
+oid sha256:a06a0e47ba651e599e4b4766058ec931903a2cc546d08844cdbe699276f5f83a
 size 59933632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1f4a8e6947f1864feb49c9578ca5f609069497536dcff795f15673a3a394767
 size 31823460

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dde81ccfc1d6e7f89434439a1d6f64f76e1c9379d5ef6122b86e48182afe1d2
 size 31823460

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebf46231b6528c7bb0c6907bfba1c53ba3622e0e9426b49c9bc7e496484a865e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4cdd7aec1abfd0c0395a28df47d40423c06a84d0d1ffe7f8ccd7c936e92670e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f007a15a43c93fe4f2be9f96951ebe7b1bfcc8190c27975766ecbd42149d0f2e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:514265d9316b4b9174cfc4ba2a301feeeb4433551f601594176fbaa00014d4c4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03194505450624925,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4207,6 +4207,356 @@
       "learning_rate": 9.999999975238072e-05,
       "loss": 3.2113,
       "step": 600
     }
   ],
   "logging_steps": 1,
@@ -4226,7 +4576,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6461415332603494e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03460714238177002,
   "eval_steps": 500,
+  "global_step": 650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.999999975238072e-05,
       "loss": 3.2113,
       "step": 600
+    },
+    {
+      "epoch": 0.03199829626375967,
+      "grad_norm": 0.2847670614719391,
+      "learning_rate": 9.999999975154769e-05,
+      "loss": 2.7965,
+      "step": 601
+    },
+    {
+      "epoch": 0.03205153802127008,
+      "grad_norm": 0.3811182677745819,
+      "learning_rate": 9.999999975071326e-05,
+      "loss": 2.7836,
+      "step": 602
+    },
+    {
+      "epoch": 0.0321047797787805,
+      "grad_norm": 0.4415830969810486,
+      "learning_rate": 9.999999974987742e-05,
+      "loss": 2.7183,
+      "step": 603
+    },
+    {
+      "epoch": 0.032158021536290916,
+      "grad_norm": 0.3968278765678406,
+      "learning_rate": 9.99999997490402e-05,
+      "loss": 2.7068,
+      "step": 604
+    },
+    {
+      "epoch": 0.03221126329380133,
+      "grad_norm": 0.455646276473999,
+      "learning_rate": 9.999999974820157e-05,
+      "loss": 2.7694,
+      "step": 605
+    },
+    {
+      "epoch": 0.032264505051311745,
+      "grad_norm": 0.394357293844223,
+      "learning_rate": 9.999999974736155e-05,
+      "loss": 2.7312,
+      "step": 606
+    },
+    {
+      "epoch": 0.032317746808822156,
+      "grad_norm": 0.3707529604434967,
+      "learning_rate": 9.999999974652011e-05,
+      "loss": 2.9084,
+      "step": 607
+    },
+    {
+      "epoch": 0.032370988566332574,
+      "grad_norm": 0.3821130692958832,
+      "learning_rate": 9.999999974567729e-05,
+      "loss": 2.8708,
+      "step": 608
+    },
+    {
+      "epoch": 0.03242423032384299,
+      "grad_norm": 0.3351576328277588,
+      "learning_rate": 9.999999974483306e-05,
+      "loss": 2.7368,
+      "step": 609
+    },
+    {
+      "epoch": 0.0324774720813534,
+      "grad_norm": 0.35292184352874756,
+      "learning_rate": 9.999999974398744e-05,
+      "loss": 2.729,
+      "step": 610
+    },
+    {
+      "epoch": 0.03253071383886382,
+      "grad_norm": 0.35947975516319275,
+      "learning_rate": 9.999999974314042e-05,
+      "loss": 2.819,
+      "step": 611
+    },
+    {
+      "epoch": 0.03258395559637424,
+      "grad_norm": 0.35223957896232605,
+      "learning_rate": 9.999999974229199e-05,
+      "loss": 2.8256,
+      "step": 612
+    },
+    {
+      "epoch": 0.03263719735388465,
+      "grad_norm": 0.38854068517684937,
+      "learning_rate": 9.999999974144218e-05,
+      "loss": 2.9578,
+      "step": 613
+    },
+    {
+      "epoch": 0.03269043911139507,
+      "grad_norm": 0.3561096489429474,
+      "learning_rate": 9.999999974059096e-05,
+      "loss": 2.7325,
+      "step": 614
+    },
+    {
+      "epoch": 0.03274368086890548,
+      "grad_norm": 0.35364630818367004,
+      "learning_rate": 9.999999973973834e-05,
+      "loss": 2.695,
+      "step": 615
+    },
+    {
+      "epoch": 0.0327969226264159,
+      "grad_norm": 0.36281758546829224,
+      "learning_rate": 9.999999973888432e-05,
+      "loss": 2.6452,
+      "step": 616
+    },
+    {
+      "epoch": 0.032850164383926315,
+      "grad_norm": 0.3692990243434906,
+      "learning_rate": 9.999999973802891e-05,
+      "loss": 2.9116,
+      "step": 617
+    },
+    {
+      "epoch": 0.03290340614143673,
+      "grad_norm": 0.37901854515075684,
+      "learning_rate": 9.999999973717209e-05,
+      "loss": 2.7462,
+      "step": 618
+    },
+    {
+      "epoch": 0.032956647898947145,
+      "grad_norm": 0.39527255296707153,
+      "learning_rate": 9.999999973631389e-05,
+      "loss": 2.8559,
+      "step": 619
+    },
+    {
+      "epoch": 0.03300988965645756,
+      "grad_norm": 0.4052393436431885,
+      "learning_rate": 9.999999973545427e-05,
+      "loss": 2.8604,
+      "step": 620
+    },
+    {
+      "epoch": 0.033063131413967974,
+      "grad_norm": 0.4052470624446869,
+      "learning_rate": 9.999999973459326e-05,
+      "loss": 2.9266,
+      "step": 621
+    },
+    {
+      "epoch": 0.03311637317147839,
+      "grad_norm": 0.40139713883399963,
+      "learning_rate": 9.999999973373085e-05,
+      "loss": 2.8272,
+      "step": 622
+    },
+    {
+      "epoch": 0.0331696149289888,
+      "grad_norm": 0.3807532787322998,
+      "learning_rate": 9.999999973286705e-05,
+      "loss": 2.813,
+      "step": 623
+    },
+    {
+      "epoch": 0.03322285668649922,
+      "grad_norm": 0.4124998450279236,
+      "learning_rate": 9.999999973200184e-05,
+      "loss": 2.8132,
+      "step": 624
+    },
+    {
+      "epoch": 0.03327609844400964,
+      "grad_norm": 0.4142961800098419,
+      "learning_rate": 9.999999973113523e-05,
+      "loss": 3.0106,
+      "step": 625
+    },
+    {
+      "epoch": 0.03332934020152005,
+      "grad_norm": 0.4193595349788666,
+      "learning_rate": 9.999999973026723e-05,
+      "loss": 2.7762,
+      "step": 626
+    },
+    {
+      "epoch": 0.03338258195903047,
+      "grad_norm": 0.41629183292388916,
+      "learning_rate": 9.999999972939782e-05,
+      "loss": 2.8948,
+      "step": 627
+    },
+    {
+      "epoch": 0.033435823716540886,
+      "grad_norm": 0.41228872537612915,
+      "learning_rate": 9.999999972852702e-05,
+      "loss": 2.7374,
+      "step": 628
+    },
+    {
+      "epoch": 0.0334890654740513,
+      "grad_norm": 0.5310066342353821,
+      "learning_rate": 9.999999972765482e-05,
+      "loss": 2.8636,
+      "step": 629
+    },
+    {
+      "epoch": 0.033542307231561715,
+      "grad_norm": 0.4347386658191681,
+      "learning_rate": 9.99999997267812e-05,
+      "loss": 2.9061,
+      "step": 630
+    },
+    {
+      "epoch": 0.03359554898907213,
+      "grad_norm": 0.42458465695381165,
+      "learning_rate": 9.999999972590621e-05,
+      "loss": 2.7978,
+      "step": 631
+    },
+    {
+      "epoch": 0.033648790746582544,
+      "grad_norm": 0.43726715445518494,
+      "learning_rate": 9.999999972502981e-05,
+      "loss": 2.9151,
+      "step": 632
+    },
+    {
+      "epoch": 0.03370203250409296,
+      "grad_norm": 0.43290823698043823,
+      "learning_rate": 9.999999972415202e-05,
+      "loss": 2.9395,
+      "step": 633
+    },
+    {
+      "epoch": 0.03375527426160337,
+      "grad_norm": 0.518913984298706,
+      "learning_rate": 9.999999972327282e-05,
+      "loss": 2.8681,
+      "step": 634
+    },
+    {
+      "epoch": 0.03380851601911379,
+      "grad_norm": 0.49017536640167236,
+      "learning_rate": 9.999999972239222e-05,
+      "loss": 3.0101,
+      "step": 635
+    },
+    {
+      "epoch": 0.03386175777662421,
+      "grad_norm": 0.49527156352996826,
+      "learning_rate": 9.999999972151024e-05,
+      "loss": 2.7499,
+      "step": 636
+    },
+    {
+      "epoch": 0.03391499953413462,
+      "grad_norm": 0.4943864345550537,
+      "learning_rate": 9.999999972062684e-05,
+      "loss": 3.0001,
+      "step": 637
+    },
+    {
+      "epoch": 0.03396824129164504,
+      "grad_norm": 0.4815324544906616,
+      "learning_rate": 9.999999971974205e-05,
+      "loss": 2.7287,
+      "step": 638
+    },
+    {
+      "epoch": 0.034021483049155456,
+      "grad_norm": 0.4747610092163086,
+      "learning_rate": 9.999999971885585e-05,
+      "loss": 2.857,
+      "step": 639
+    },
+    {
+      "epoch": 0.03407472480666587,
+      "grad_norm": 0.5065243244171143,
+      "learning_rate": 9.999999971796827e-05,
+      "loss": 2.894,
+      "step": 640
+    },
+    {
+      "epoch": 0.034127966564176285,
+      "grad_norm": 0.5166441202163696,
+      "learning_rate": 9.999999971707928e-05,
+      "loss": 2.8062,
+      "step": 641
+    },
+    {
+      "epoch": 0.034181208321686696,
+      "grad_norm": 0.5336162447929382,
+      "learning_rate": 9.99999997161889e-05,
+      "loss": 3.0662,
+      "step": 642
+    },
+    {
+      "epoch": 0.034234450079197114,
+      "grad_norm": 0.5441266298294067,
+      "learning_rate": 9.999999971529709e-05,
+      "loss": 3.0668,
+      "step": 643
+    },
+    {
+      "epoch": 0.03428769183670753,
+      "grad_norm": 0.6290764212608337,
+      "learning_rate": 9.999999971440393e-05,
+      "loss": 2.8475,
+      "step": 644
+    },
+    {
+      "epoch": 0.03434093359421794,
+      "grad_norm": 0.5840023756027222,
+      "learning_rate": 9.999999971350932e-05,
+      "loss": 2.9856,
+      "step": 645
+    },
+    {
+      "epoch": 0.03439417535172836,
+      "grad_norm": 0.5803622007369995,
+      "learning_rate": 9.999999971261335e-05,
+      "loss": 2.9473,
+      "step": 646
+    },
+    {
+      "epoch": 0.03444741710923878,
+      "grad_norm": 0.6593179702758789,
+      "learning_rate": 9.999999971171597e-05,
+      "loss": 3.1348,
+      "step": 647
+    },
+    {
+      "epoch": 0.03450065886674919,
+      "grad_norm": 0.8158584833145142,
+      "learning_rate": 9.99999997108172e-05,
+      "loss": 3.0948,
+      "step": 648
+    },
+    {
+      "epoch": 0.03455390062425961,
+      "grad_norm": 0.7752049565315247,
+      "learning_rate": 9.999999970991701e-05,
+      "loss": 2.9799,
+      "step": 649
+    },
+    {
+      "epoch": 0.03460714238177002,
+      "grad_norm": 0.9332935214042664,
+      "learning_rate": 9.999999970901543e-05,
+      "loss": 3.4294,
+      "step": 650
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.7832628604790374e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null