Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cae1214709ea8470efc2b34c46b75323420040ae64c043d801b33038d1180507
 size 80013120

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d578bb35c317e7e525db203822ae41cce5d685a3cde394257758d4000ede4c6
 size 80013120

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb971f7a2b9f6711cef8ea9affec03fcd50bd861777143766b5cb7e0bcb63ecf
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d5812584bde22bf01fc0c56c6dbe8f3c19965476007b408bc249ebf8cf4edbd
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:139ba3629a1c48e660d6a05bd55c717dfb1aea59399165fe4f210e37b4e7af4e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eafb18d98f4c54a0a319ed9fd7490c4afd4dd5b2d57902a27826238fb340a960
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1daea96750ba9f8c361f7e6b8ab82396a1c3edd4a36217a7c055be604f422b5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2231a499fc6249ec0c6a54e630ff27aff6a281425b76ecea459adede6c9680b9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6309148264984227,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -707,6 +707,356 @@
       "learning_rate": 9.999991128530895e-05,
       "loss": 0.5321,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -726,7 +1076,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.459671528544666e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9463722397476341,
   "eval_steps": 500,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.999991128530895e-05,
       "loss": 0.5321,
       "step": 100
+    },
+    {
+      "epoch": 0.637223974763407,
+      "grad_norm": 0.3380476236343384,
+      "learning_rate": 9.999990940780191e-05,
+      "loss": 0.6164,
+      "step": 101
+    },
+    {
+      "epoch": 0.6435331230283912,
+      "grad_norm": 0.3839210867881775,
+      "learning_rate": 9.999990751063516e-05,
+      "loss": 0.6901,
+      "step": 102
+    },
+    {
+      "epoch": 0.6498422712933754,
+      "grad_norm": 0.36936458945274353,
+      "learning_rate": 9.999990559380867e-05,
+      "loss": 0.7658,
+      "step": 103
+    },
+    {
+      "epoch": 0.6561514195583596,
+      "grad_norm": 0.37085050344467163,
+      "learning_rate": 9.999990365732244e-05,
+      "loss": 0.7844,
+      "step": 104
+    },
+    {
+      "epoch": 0.6624605678233438,
+      "grad_norm": 0.36542758345603943,
+      "learning_rate": 9.999990170117648e-05,
+      "loss": 0.7223,
+      "step": 105
+    },
+    {
+      "epoch": 0.668769716088328,
+      "grad_norm": 0.38479429483413696,
+      "learning_rate": 9.999989972537079e-05,
+      "loss": 0.7429,
+      "step": 106
+    },
+    {
+      "epoch": 0.6750788643533123,
+      "grad_norm": 0.4295928180217743,
+      "learning_rate": 9.999989772990536e-05,
+      "loss": 0.6426,
+      "step": 107
+    },
+    {
+      "epoch": 0.6813880126182965,
+      "grad_norm": 0.4287479817867279,
+      "learning_rate": 9.999989571478021e-05,
+      "loss": 0.7149,
+      "step": 108
+    },
+    {
+      "epoch": 0.6876971608832808,
+      "grad_norm": 0.4698425531387329,
+      "learning_rate": 9.999989367999532e-05,
+      "loss": 0.707,
+      "step": 109
+    },
+    {
+      "epoch": 0.694006309148265,
+      "grad_norm": 0.48254162073135376,
+      "learning_rate": 9.999989162555071e-05,
+      "loss": 0.7056,
+      "step": 110
+    },
+    {
+      "epoch": 0.7003154574132492,
+      "grad_norm": 0.5717018842697144,
+      "learning_rate": 9.999988955144637e-05,
+      "loss": 0.6857,
+      "step": 111
+    },
+    {
+      "epoch": 0.7066246056782335,
+      "grad_norm": 0.60892254114151,
+      "learning_rate": 9.99998874576823e-05,
+      "loss": 0.6499,
+      "step": 112
+    },
+    {
+      "epoch": 0.7129337539432177,
+      "grad_norm": 0.7676037549972534,
+      "learning_rate": 9.99998853442585e-05,
+      "loss": 0.7463,
+      "step": 113
+    },
+    {
+      "epoch": 0.7192429022082019,
+      "grad_norm": 0.9815330505371094,
+      "learning_rate": 9.999988321117497e-05,
+      "loss": 0.8505,
+      "step": 114
+    },
+    {
+      "epoch": 0.7255520504731862,
+      "grad_norm": 1.2696208953857422,
+      "learning_rate": 9.999988105843173e-05,
+      "loss": 0.7409,
+      "step": 115
+    },
+    {
+      "epoch": 0.7318611987381703,
+      "grad_norm": 1.1130510568618774,
+      "learning_rate": 9.999987888602875e-05,
+      "loss": 0.3319,
+      "step": 116
+    },
+    {
+      "epoch": 0.7381703470031545,
+      "grad_norm": 0.7321246862411499,
+      "learning_rate": 9.999987669396606e-05,
+      "loss": 0.38,
+      "step": 117
+    },
+    {
+      "epoch": 0.7444794952681388,
+      "grad_norm": 0.27002546191215515,
+      "learning_rate": 9.999987448224363e-05,
+      "loss": 0.8287,
+      "step": 118
+    },
+    {
+      "epoch": 0.750788643533123,
+      "grad_norm": 0.24602839350700378,
+      "learning_rate": 9.99998722508615e-05,
+      "loss": 0.9131,
+      "step": 119
+    },
+    {
+      "epoch": 0.7570977917981072,
+      "grad_norm": 0.25864341855049133,
+      "learning_rate": 9.999986999981963e-05,
+      "loss": 0.9195,
+      "step": 120
+    },
+    {
+      "epoch": 0.7634069400630915,
+      "grad_norm": 0.2722395956516266,
+      "learning_rate": 9.999986772911804e-05,
+      "loss": 0.9736,
+      "step": 121
+    },
+    {
+      "epoch": 0.7697160883280757,
+      "grad_norm": 0.27622660994529724,
+      "learning_rate": 9.999986543875674e-05,
+      "loss": 0.867,
+      "step": 122
+    },
+    {
+      "epoch": 0.7760252365930599,
+      "grad_norm": 0.3594439625740051,
+      "learning_rate": 9.999986312873572e-05,
+      "loss": 0.9813,
+      "step": 123
+    },
+    {
+      "epoch": 0.7823343848580442,
+      "grad_norm": 0.3490639925003052,
+      "learning_rate": 9.999986079905499e-05,
+      "loss": 0.8835,
+      "step": 124
+    },
+    {
+      "epoch": 0.7886435331230284,
+      "grad_norm": 0.34569522738456726,
+      "learning_rate": 9.999985844971453e-05,
+      "loss": 0.8828,
+      "step": 125
+    },
+    {
+      "epoch": 0.7949526813880127,
+      "grad_norm": 0.3032309412956238,
+      "learning_rate": 9.999985608071438e-05,
+      "loss": 0.7422,
+      "step": 126
+    },
+    {
+      "epoch": 0.8012618296529969,
+      "grad_norm": 0.2762659192085266,
+      "learning_rate": 9.99998536920545e-05,
+      "loss": 0.7403,
+      "step": 127
+    },
+    {
+      "epoch": 0.807570977917981,
+      "grad_norm": 0.29897361993789673,
+      "learning_rate": 9.999985128373489e-05,
+      "loss": 0.852,
+      "step": 128
+    },
+    {
+      "epoch": 0.8138801261829653,
+      "grad_norm": 0.2828134000301361,
+      "learning_rate": 9.999984885575557e-05,
+      "loss": 0.7355,
+      "step": 129
+    },
+    {
+      "epoch": 0.8201892744479495,
+      "grad_norm": 0.28995025157928467,
+      "learning_rate": 9.999984640811656e-05,
+      "loss": 0.8051,
+      "step": 130
+    },
+    {
+      "epoch": 0.8264984227129337,
+      "grad_norm": 0.2877126932144165,
+      "learning_rate": 9.999984394081783e-05,
+      "loss": 0.684,
+      "step": 131
+    },
+    {
+      "epoch": 0.832807570977918,
+      "grad_norm": 0.32978740334510803,
+      "learning_rate": 9.999984145385939e-05,
+      "loss": 0.7361,
+      "step": 132
+    },
+    {
+      "epoch": 0.8391167192429022,
+      "grad_norm": 0.2849004566669464,
+      "learning_rate": 9.999983894724123e-05,
+      "loss": 0.8116,
+      "step": 133
+    },
+    {
+      "epoch": 0.8454258675078864,
+      "grad_norm": 0.2859273850917816,
+      "learning_rate": 9.999983642096338e-05,
+      "loss": 0.5324,
+      "step": 134
+    },
+    {
+      "epoch": 0.8517350157728707,
+      "grad_norm": 0.3232719302177429,
+      "learning_rate": 9.999983387502581e-05,
+      "loss": 0.7514,
+      "step": 135
+    },
+    {
+      "epoch": 0.8580441640378549,
+      "grad_norm": 0.3699396252632141,
+      "learning_rate": 9.999983130942854e-05,
+      "loss": 0.9407,
+      "step": 136
+    },
+    {
+      "epoch": 0.8643533123028391,
+      "grad_norm": 0.3257301449775696,
+      "learning_rate": 9.999982872417156e-05,
+      "loss": 0.6552,
+      "step": 137
+    },
+    {
+      "epoch": 0.8706624605678234,
+      "grad_norm": 0.34637680649757385,
+      "learning_rate": 9.999982611925488e-05,
+      "loss": 0.7539,
+      "step": 138
+    },
+    {
+      "epoch": 0.8769716088328076,
+      "grad_norm": 0.38663750886917114,
+      "learning_rate": 9.99998234946785e-05,
+      "loss": 0.7163,
+      "step": 139
+    },
+    {
+      "epoch": 0.8832807570977917,
+      "grad_norm": 0.33887526392936707,
+      "learning_rate": 9.999982085044242e-05,
+      "loss": 0.6362,
+      "step": 140
+    },
+    {
+      "epoch": 0.889589905362776,
+      "grad_norm": 0.3487693667411804,
+      "learning_rate": 9.999981818654662e-05,
+      "loss": 0.7196,
+      "step": 141
+    },
+    {
+      "epoch": 0.8958990536277602,
+      "grad_norm": 0.3876301348209381,
+      "learning_rate": 9.999981550299115e-05,
+      "loss": 0.8779,
+      "step": 142
+    },
+    {
+      "epoch": 0.9022082018927445,
+      "grad_norm": 0.39342001080513,
+      "learning_rate": 9.999981279977596e-05,
+      "loss": 0.6961,
+      "step": 143
+    },
+    {
+      "epoch": 0.9085173501577287,
+      "grad_norm": 0.37053290009498596,
+      "learning_rate": 9.999981007690108e-05,
+      "loss": 0.5283,
+      "step": 144
+    },
+    {
+      "epoch": 0.9148264984227129,
+      "grad_norm": 0.39710113406181335,
+      "learning_rate": 9.99998073343665e-05,
+      "loss": 0.6993,
+      "step": 145
+    },
+    {
+      "epoch": 0.9211356466876972,
+      "grad_norm": 0.3932151794433594,
+      "learning_rate": 9.999980457217224e-05,
+      "loss": 0.5497,
+      "step": 146
+    },
+    {
+      "epoch": 0.9274447949526814,
+      "grad_norm": 0.41066697239875793,
+      "learning_rate": 9.999980179031826e-05,
+      "loss": 0.5879,
+      "step": 147
+    },
+    {
+      "epoch": 0.9337539432176656,
+      "grad_norm": 0.5037790536880493,
+      "learning_rate": 9.99997989888046e-05,
+      "loss": 0.8422,
+      "step": 148
+    },
+    {
+      "epoch": 0.9400630914826499,
+      "grad_norm": 0.5321910381317139,
+      "learning_rate": 9.999979616763126e-05,
+      "loss": 0.7902,
+      "step": 149
+    },
+    {
+      "epoch": 0.9463722397476341,
+      "grad_norm": 0.5393354892730713,
+      "learning_rate": 9.99997933267982e-05,
+      "loss": 0.6235,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1026632368612966e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null