{ "best_global_step": 1500, "best_metric": 0.2072431445121765, "best_model_checkpoint": "./results\\checkpoint-1500", "epoch": 3.0, "eval_steps": 500, "global_step": 2250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0013333333333333333, "grad_norm": 14.627123832702637, "learning_rate": 1.999111111111111e-05, "loss": 0.641, "step": 1 }, { "epoch": 0.0026666666666666666, "grad_norm": 8.339805603027344, "learning_rate": 1.9982222222222224e-05, "loss": 0.607, "step": 2 }, { "epoch": 0.004, "grad_norm": 19.532424926757812, "learning_rate": 1.9973333333333334e-05, "loss": 0.6549, "step": 3 }, { "epoch": 0.005333333333333333, "grad_norm": 6.6504387855529785, "learning_rate": 1.9964444444444447e-05, "loss": 0.6999, "step": 4 }, { "epoch": 0.006666666666666667, "grad_norm": 8.93764877319336, "learning_rate": 1.9955555555555557e-05, "loss": 0.633, "step": 5 }, { "epoch": 0.008, "grad_norm": 14.934470176696777, "learning_rate": 1.9946666666666667e-05, "loss": 0.7584, "step": 6 }, { "epoch": 0.009333333333333334, "grad_norm": 5.578488349914551, "learning_rate": 1.993777777777778e-05, "loss": 0.6476, "step": 7 }, { "epoch": 0.010666666666666666, "grad_norm": 1.7294061183929443, "learning_rate": 1.992888888888889e-05, "loss": 0.6603, "step": 8 }, { "epoch": 0.012, "grad_norm": 2.150653839111328, "learning_rate": 1.9920000000000002e-05, "loss": 0.7034, "step": 9 }, { "epoch": 0.013333333333333334, "grad_norm": 5.418308258056641, "learning_rate": 1.9911111111111112e-05, "loss": 0.7293, "step": 10 }, { "epoch": 0.014666666666666666, "grad_norm": 3.007488965988159, "learning_rate": 1.9902222222222222e-05, "loss": 0.7331, "step": 11 }, { "epoch": 0.016, "grad_norm": 6.692118167877197, "learning_rate": 1.9893333333333335e-05, "loss": 0.6618, "step": 12 }, { "epoch": 0.017333333333333333, "grad_norm": 2.7864668369293213, "learning_rate": 1.9884444444444445e-05, "loss": 0.6782, "step": 13 }, { "epoch": 0.018666666666666668, "grad_norm": 2.2261343002319336, "learning_rate": 1.9875555555555558e-05, "loss": 0.7033, "step": 14 }, { "epoch": 0.02, "grad_norm": 4.2621331214904785, "learning_rate": 1.9866666666666667e-05, "loss": 0.7, "step": 15 }, { "epoch": 0.021333333333333333, "grad_norm": 2.4400110244750977, "learning_rate": 1.985777777777778e-05, "loss": 0.6917, "step": 16 }, { "epoch": 0.02266666666666667, "grad_norm": 1.43474543094635, "learning_rate": 1.984888888888889e-05, "loss": 0.6723, "step": 17 }, { "epoch": 0.024, "grad_norm": 2.127255439758301, "learning_rate": 1.9840000000000003e-05, "loss": 0.6943, "step": 18 }, { "epoch": 0.025333333333333333, "grad_norm": 2.1291377544403076, "learning_rate": 1.9831111111111113e-05, "loss": 0.7033, "step": 19 }, { "epoch": 0.02666666666666667, "grad_norm": 2.4452574253082275, "learning_rate": 1.9822222222222226e-05, "loss": 0.7183, "step": 20 }, { "epoch": 0.028, "grad_norm": 2.547071933746338, "learning_rate": 1.9813333333333336e-05, "loss": 0.6713, "step": 21 }, { "epoch": 0.029333333333333333, "grad_norm": 2.5004894733428955, "learning_rate": 1.9804444444444445e-05, "loss": 0.6804, "step": 22 }, { "epoch": 0.030666666666666665, "grad_norm": 2.245891809463501, "learning_rate": 1.979555555555556e-05, "loss": 0.6819, "step": 23 }, { "epoch": 0.032, "grad_norm": 3.817145347595215, "learning_rate": 1.9786666666666668e-05, "loss": 0.6791, "step": 24 }, { "epoch": 0.03333333333333333, "grad_norm": 2.1110892295837402, "learning_rate": 1.977777777777778e-05, "loss": 0.7047, "step": 25 }, { "epoch": 0.034666666666666665, "grad_norm": 2.3187880516052246, "learning_rate": 1.976888888888889e-05, "loss": 0.6859, "step": 26 }, { "epoch": 0.036, "grad_norm": 1.3281068801879883, "learning_rate": 1.976e-05, "loss": 0.6727, "step": 27 }, { "epoch": 0.037333333333333336, "grad_norm": 4.084102630615234, "learning_rate": 1.9751111111111114e-05, "loss": 0.6851, "step": 28 }, { "epoch": 0.03866666666666667, "grad_norm": 1.8853222131729126, "learning_rate": 1.9742222222222223e-05, "loss": 0.6676, "step": 29 }, { "epoch": 0.04, "grad_norm": 7.0090484619140625, "learning_rate": 1.9733333333333336e-05, "loss": 0.6784, "step": 30 }, { "epoch": 0.04133333333333333, "grad_norm": 5.903691291809082, "learning_rate": 1.9724444444444446e-05, "loss": 0.7149, "step": 31 }, { "epoch": 0.042666666666666665, "grad_norm": 4.953393459320068, "learning_rate": 1.9715555555555556e-05, "loss": 0.7093, "step": 32 }, { "epoch": 0.044, "grad_norm": 3.9873998165130615, "learning_rate": 1.970666666666667e-05, "loss": 0.6346, "step": 33 }, { "epoch": 0.04533333333333334, "grad_norm": 26.10811424255371, "learning_rate": 1.969777777777778e-05, "loss": 0.8086, "step": 34 }, { "epoch": 0.04666666666666667, "grad_norm": 12.336629867553711, "learning_rate": 1.968888888888889e-05, "loss": 0.7103, "step": 35 }, { "epoch": 0.048, "grad_norm": 15.208534240722656, "learning_rate": 1.968e-05, "loss": 0.7923, "step": 36 }, { "epoch": 0.04933333333333333, "grad_norm": 4.430299282073975, "learning_rate": 1.967111111111111e-05, "loss": 0.6638, "step": 37 }, { "epoch": 0.050666666666666665, "grad_norm": 3.1420223712921143, "learning_rate": 1.9662222222222224e-05, "loss": 0.6707, "step": 38 }, { "epoch": 0.052, "grad_norm": 9.945216178894043, "learning_rate": 1.9653333333333334e-05, "loss": 0.6135, "step": 39 }, { "epoch": 0.05333333333333334, "grad_norm": 5.429318904876709, "learning_rate": 1.9644444444444447e-05, "loss": 0.6783, "step": 40 }, { "epoch": 0.05466666666666667, "grad_norm": 4.606677055358887, "learning_rate": 1.9635555555555557e-05, "loss": 0.6463, "step": 41 }, { "epoch": 0.056, "grad_norm": 7.693625450134277, "learning_rate": 1.9626666666666666e-05, "loss": 0.716, "step": 42 }, { "epoch": 0.05733333333333333, "grad_norm": 18.05965232849121, "learning_rate": 1.961777777777778e-05, "loss": 0.6252, "step": 43 }, { "epoch": 0.058666666666666666, "grad_norm": 22.838586807250977, "learning_rate": 1.960888888888889e-05, "loss": 0.6246, "step": 44 }, { "epoch": 0.06, "grad_norm": 35.062557220458984, "learning_rate": 1.9600000000000002e-05, "loss": 0.6546, "step": 45 }, { "epoch": 0.06133333333333333, "grad_norm": 23.6820011138916, "learning_rate": 1.9591111111111112e-05, "loss": 0.6507, "step": 46 }, { "epoch": 0.06266666666666666, "grad_norm": 37.164493560791016, "learning_rate": 1.9582222222222225e-05, "loss": 0.7308, "step": 47 }, { "epoch": 0.064, "grad_norm": 34.39842987060547, "learning_rate": 1.9573333333333335e-05, "loss": 0.6238, "step": 48 }, { "epoch": 0.06533333333333333, "grad_norm": 27.432872772216797, "learning_rate": 1.9564444444444444e-05, "loss": 0.5166, "step": 49 }, { "epoch": 0.06666666666666667, "grad_norm": 20.374731063842773, "learning_rate": 1.9555555555555557e-05, "loss": 0.6095, "step": 50 }, { "epoch": 0.068, "grad_norm": 11.77329158782959, "learning_rate": 1.954666666666667e-05, "loss": 0.448, "step": 51 }, { "epoch": 0.06933333333333333, "grad_norm": 14.339151382446289, "learning_rate": 1.953777777777778e-05, "loss": 0.503, "step": 52 }, { "epoch": 0.07066666666666667, "grad_norm": 12.430675506591797, "learning_rate": 1.952888888888889e-05, "loss": 0.389, "step": 53 }, { "epoch": 0.072, "grad_norm": 20.04888343811035, "learning_rate": 1.9520000000000003e-05, "loss": 0.5957, "step": 54 }, { "epoch": 0.07333333333333333, "grad_norm": 18.25558090209961, "learning_rate": 1.9511111111111113e-05, "loss": 0.5074, "step": 55 }, { "epoch": 0.07466666666666667, "grad_norm": 17.257631301879883, "learning_rate": 1.9502222222222226e-05, "loss": 0.4241, "step": 56 }, { "epoch": 0.076, "grad_norm": 22.133024215698242, "learning_rate": 1.9493333333333335e-05, "loss": 0.3963, "step": 57 }, { "epoch": 0.07733333333333334, "grad_norm": 45.5373420715332, "learning_rate": 1.9484444444444445e-05, "loss": 0.4011, "step": 58 }, { "epoch": 0.07866666666666666, "grad_norm": 10.581801414489746, "learning_rate": 1.9475555555555558e-05, "loss": 0.2981, "step": 59 }, { "epoch": 0.08, "grad_norm": 12.735737800598145, "learning_rate": 1.9466666666666668e-05, "loss": 0.4726, "step": 60 }, { "epoch": 0.08133333333333333, "grad_norm": 23.795799255371094, "learning_rate": 1.945777777777778e-05, "loss": 0.1834, "step": 61 }, { "epoch": 0.08266666666666667, "grad_norm": 147.20193481445312, "learning_rate": 1.944888888888889e-05, "loss": 0.3594, "step": 62 }, { "epoch": 0.084, "grad_norm": 30.774818420410156, "learning_rate": 1.944e-05, "loss": 0.6646, "step": 63 }, { "epoch": 0.08533333333333333, "grad_norm": 106.9747314453125, "learning_rate": 1.9431111111111113e-05, "loss": 0.4138, "step": 64 }, { "epoch": 0.08666666666666667, "grad_norm": 28.15129852294922, "learning_rate": 1.9422222222222223e-05, "loss": 0.1519, "step": 65 }, { "epoch": 0.088, "grad_norm": 65.99510192871094, "learning_rate": 1.9413333333333336e-05, "loss": 0.4227, "step": 66 }, { "epoch": 0.08933333333333333, "grad_norm": 26.523038864135742, "learning_rate": 1.9404444444444446e-05, "loss": 0.4324, "step": 67 }, { "epoch": 0.09066666666666667, "grad_norm": 12.523640632629395, "learning_rate": 1.9395555555555555e-05, "loss": 0.2757, "step": 68 }, { "epoch": 0.092, "grad_norm": 19.895227432250977, "learning_rate": 1.938666666666667e-05, "loss": 0.1715, "step": 69 }, { "epoch": 0.09333333333333334, "grad_norm": 31.011396408081055, "learning_rate": 1.9377777777777778e-05, "loss": 0.5117, "step": 70 }, { "epoch": 0.09466666666666666, "grad_norm": 39.200538635253906, "learning_rate": 1.936888888888889e-05, "loss": 0.2969, "step": 71 }, { "epoch": 0.096, "grad_norm": 56.112220764160156, "learning_rate": 1.936e-05, "loss": 0.9901, "step": 72 }, { "epoch": 0.09733333333333333, "grad_norm": 51.38960647583008, "learning_rate": 1.935111111111111e-05, "loss": 0.4334, "step": 73 }, { "epoch": 0.09866666666666667, "grad_norm": 21.136308670043945, "learning_rate": 1.9342222222222224e-05, "loss": 0.4649, "step": 74 }, { "epoch": 0.1, "grad_norm": 46.013893127441406, "learning_rate": 1.9333333333333333e-05, "loss": 0.2489, "step": 75 }, { "epoch": 0.10133333333333333, "grad_norm": 14.146453857421875, "learning_rate": 1.9324444444444447e-05, "loss": 0.2653, "step": 76 }, { "epoch": 0.10266666666666667, "grad_norm": 71.07035827636719, "learning_rate": 1.9315555555555556e-05, "loss": 0.4237, "step": 77 }, { "epoch": 0.104, "grad_norm": 52.125553131103516, "learning_rate": 1.930666666666667e-05, "loss": 0.2287, "step": 78 }, { "epoch": 0.10533333333333333, "grad_norm": 24.527158737182617, "learning_rate": 1.929777777777778e-05, "loss": 0.2826, "step": 79 }, { "epoch": 0.10666666666666667, "grad_norm": 49.83603286743164, "learning_rate": 1.928888888888889e-05, "loss": 0.1461, "step": 80 }, { "epoch": 0.108, "grad_norm": 110.55599975585938, "learning_rate": 1.9280000000000002e-05, "loss": 0.7141, "step": 81 }, { "epoch": 0.10933333333333334, "grad_norm": 37.84483337402344, "learning_rate": 1.9271111111111115e-05, "loss": 0.3355, "step": 82 }, { "epoch": 0.11066666666666666, "grad_norm": 27.611156463623047, "learning_rate": 1.9262222222222225e-05, "loss": 0.3372, "step": 83 }, { "epoch": 0.112, "grad_norm": 70.65190887451172, "learning_rate": 1.9253333333333334e-05, "loss": 0.2155, "step": 84 }, { "epoch": 0.11333333333333333, "grad_norm": 43.26824188232422, "learning_rate": 1.9244444444444444e-05, "loss": 0.4195, "step": 85 }, { "epoch": 0.11466666666666667, "grad_norm": 13.488179206848145, "learning_rate": 1.9235555555555557e-05, "loss": 0.2769, "step": 86 }, { "epoch": 0.116, "grad_norm": 76.66094970703125, "learning_rate": 1.922666666666667e-05, "loss": 0.5636, "step": 87 }, { "epoch": 0.11733333333333333, "grad_norm": 51.19622802734375, "learning_rate": 1.921777777777778e-05, "loss": 0.2768, "step": 88 }, { "epoch": 0.11866666666666667, "grad_norm": 65.36180114746094, "learning_rate": 1.920888888888889e-05, "loss": 0.5693, "step": 89 }, { "epoch": 0.12, "grad_norm": 55.0505256652832, "learning_rate": 1.9200000000000003e-05, "loss": 0.8887, "step": 90 }, { "epoch": 0.12133333333333333, "grad_norm": 99.0514907836914, "learning_rate": 1.9191111111111112e-05, "loss": 0.6066, "step": 91 }, { "epoch": 0.12266666666666666, "grad_norm": 18.720666885375977, "learning_rate": 1.9182222222222225e-05, "loss": 0.4445, "step": 92 }, { "epoch": 0.124, "grad_norm": 21.557336807250977, "learning_rate": 1.9173333333333335e-05, "loss": 0.4883, "step": 93 }, { "epoch": 0.12533333333333332, "grad_norm": 33.96916198730469, "learning_rate": 1.9164444444444445e-05, "loss": 0.3203, "step": 94 }, { "epoch": 0.12666666666666668, "grad_norm": 14.431241035461426, "learning_rate": 1.9155555555555558e-05, "loss": 0.2389, "step": 95 }, { "epoch": 0.128, "grad_norm": 13.130929946899414, "learning_rate": 1.9146666666666667e-05, "loss": 0.3435, "step": 96 }, { "epoch": 0.12933333333333333, "grad_norm": 10.08653450012207, "learning_rate": 1.913777777777778e-05, "loss": 0.1494, "step": 97 }, { "epoch": 0.13066666666666665, "grad_norm": 44.454036712646484, "learning_rate": 1.912888888888889e-05, "loss": 0.3473, "step": 98 }, { "epoch": 0.132, "grad_norm": 16.56328010559082, "learning_rate": 1.912e-05, "loss": 0.3318, "step": 99 }, { "epoch": 0.13333333333333333, "grad_norm": 66.1546630859375, "learning_rate": 1.9111111111111113e-05, "loss": 0.7414, "step": 100 }, { "epoch": 0.13466666666666666, "grad_norm": 27.151826858520508, "learning_rate": 1.9102222222222223e-05, "loss": 0.3135, "step": 101 }, { "epoch": 0.136, "grad_norm": 40.466941833496094, "learning_rate": 1.9093333333333336e-05, "loss": 0.6338, "step": 102 }, { "epoch": 0.13733333333333334, "grad_norm": 6.069929122924805, "learning_rate": 1.9084444444444445e-05, "loss": 0.2128, "step": 103 }, { "epoch": 0.13866666666666666, "grad_norm": 13.290542602539062, "learning_rate": 1.9075555555555555e-05, "loss": 0.1863, "step": 104 }, { "epoch": 0.14, "grad_norm": 7.77833890914917, "learning_rate": 1.9066666666666668e-05, "loss": 0.1553, "step": 105 }, { "epoch": 0.14133333333333334, "grad_norm": 29.634456634521484, "learning_rate": 1.9057777777777778e-05, "loss": 0.1609, "step": 106 }, { "epoch": 0.14266666666666666, "grad_norm": 15.491785049438477, "learning_rate": 1.904888888888889e-05, "loss": 0.3027, "step": 107 }, { "epoch": 0.144, "grad_norm": 39.57001876831055, "learning_rate": 1.904e-05, "loss": 0.2733, "step": 108 }, { "epoch": 0.14533333333333334, "grad_norm": 1527.8887939453125, "learning_rate": 1.9031111111111114e-05, "loss": 0.3483, "step": 109 }, { "epoch": 0.14666666666666667, "grad_norm": 14.346165657043457, "learning_rate": 1.9022222222222223e-05, "loss": 0.2603, "step": 110 }, { "epoch": 0.148, "grad_norm": 14.495599746704102, "learning_rate": 1.9013333333333333e-05, "loss": 0.6358, "step": 111 }, { "epoch": 0.14933333333333335, "grad_norm": 93.30735778808594, "learning_rate": 1.9004444444444446e-05, "loss": 0.5965, "step": 112 }, { "epoch": 0.15066666666666667, "grad_norm": 35.31761932373047, "learning_rate": 1.899555555555556e-05, "loss": 0.5956, "step": 113 }, { "epoch": 0.152, "grad_norm": 24.461896896362305, "learning_rate": 1.898666666666667e-05, "loss": 0.5271, "step": 114 }, { "epoch": 0.15333333333333332, "grad_norm": 44.11582946777344, "learning_rate": 1.897777777777778e-05, "loss": 0.3699, "step": 115 }, { "epoch": 0.15466666666666667, "grad_norm": 39.06887435913086, "learning_rate": 1.896888888888889e-05, "loss": 0.4108, "step": 116 }, { "epoch": 0.156, "grad_norm": 145.94923400878906, "learning_rate": 1.896e-05, "loss": 0.2984, "step": 117 }, { "epoch": 0.15733333333333333, "grad_norm": 22.59219741821289, "learning_rate": 1.8951111111111115e-05, "loss": 0.1692, "step": 118 }, { "epoch": 0.15866666666666668, "grad_norm": 26.94255256652832, "learning_rate": 1.8942222222222224e-05, "loss": 0.2579, "step": 119 }, { "epoch": 0.16, "grad_norm": 20.52286720275879, "learning_rate": 1.8933333333333334e-05, "loss": 0.2975, "step": 120 }, { "epoch": 0.16133333333333333, "grad_norm": 10.039375305175781, "learning_rate": 1.8924444444444447e-05, "loss": 0.0737, "step": 121 }, { "epoch": 0.16266666666666665, "grad_norm": 18.642465591430664, "learning_rate": 1.8915555555555557e-05, "loss": 0.2514, "step": 122 }, { "epoch": 0.164, "grad_norm": 42.480125427246094, "learning_rate": 1.890666666666667e-05, "loss": 0.2856, "step": 123 }, { "epoch": 0.16533333333333333, "grad_norm": 52.896156311035156, "learning_rate": 1.889777777777778e-05, "loss": 0.3302, "step": 124 }, { "epoch": 0.16666666666666666, "grad_norm": 50.55426788330078, "learning_rate": 1.888888888888889e-05, "loss": 0.4268, "step": 125 }, { "epoch": 0.168, "grad_norm": 41.64912796020508, "learning_rate": 1.8880000000000002e-05, "loss": 0.6189, "step": 126 }, { "epoch": 0.16933333333333334, "grad_norm": 13.792969703674316, "learning_rate": 1.8871111111111112e-05, "loss": 0.2548, "step": 127 }, { "epoch": 0.17066666666666666, "grad_norm": 24.471569061279297, "learning_rate": 1.8862222222222225e-05, "loss": 0.1179, "step": 128 }, { "epoch": 0.172, "grad_norm": 7.431952953338623, "learning_rate": 1.8853333333333335e-05, "loss": 0.0526, "step": 129 }, { "epoch": 0.17333333333333334, "grad_norm": 64.0350570678711, "learning_rate": 1.8844444444444444e-05, "loss": 0.1595, "step": 130 }, { "epoch": 0.17466666666666666, "grad_norm": 13.014350891113281, "learning_rate": 1.8835555555555557e-05, "loss": 0.3233, "step": 131 }, { "epoch": 0.176, "grad_norm": 25.82568359375, "learning_rate": 1.8826666666666667e-05, "loss": 0.2804, "step": 132 }, { "epoch": 0.17733333333333334, "grad_norm": 4.614621639251709, "learning_rate": 1.881777777777778e-05, "loss": 0.0416, "step": 133 }, { "epoch": 0.17866666666666667, "grad_norm": 13.02204418182373, "learning_rate": 1.880888888888889e-05, "loss": 0.2377, "step": 134 }, { "epoch": 0.18, "grad_norm": 30.01548957824707, "learning_rate": 1.88e-05, "loss": 0.2225, "step": 135 }, { "epoch": 0.18133333333333335, "grad_norm": 44.04650115966797, "learning_rate": 1.8791111111111113e-05, "loss": 0.2938, "step": 136 }, { "epoch": 0.18266666666666667, "grad_norm": 36.040340423583984, "learning_rate": 1.8782222222222222e-05, "loss": 0.6245, "step": 137 }, { "epoch": 0.184, "grad_norm": 69.7017822265625, "learning_rate": 1.8773333333333335e-05, "loss": 0.2429, "step": 138 }, { "epoch": 0.18533333333333332, "grad_norm": 16.8223876953125, "learning_rate": 1.8764444444444445e-05, "loss": 0.0419, "step": 139 }, { "epoch": 0.18666666666666668, "grad_norm": 21.164058685302734, "learning_rate": 1.8755555555555558e-05, "loss": 0.2271, "step": 140 }, { "epoch": 0.188, "grad_norm": 30.5648193359375, "learning_rate": 1.8746666666666668e-05, "loss": 0.1177, "step": 141 }, { "epoch": 0.18933333333333333, "grad_norm": 7.340837001800537, "learning_rate": 1.8737777777777778e-05, "loss": 0.2376, "step": 142 }, { "epoch": 0.19066666666666668, "grad_norm": 24.0690860748291, "learning_rate": 1.872888888888889e-05, "loss": 0.3533, "step": 143 }, { "epoch": 0.192, "grad_norm": 21.582782745361328, "learning_rate": 1.8720000000000004e-05, "loss": 0.0612, "step": 144 }, { "epoch": 0.19333333333333333, "grad_norm": 22.44994354248047, "learning_rate": 1.8711111111111113e-05, "loss": 0.5625, "step": 145 }, { "epoch": 0.19466666666666665, "grad_norm": 4.906670570373535, "learning_rate": 1.8702222222222223e-05, "loss": 0.0562, "step": 146 }, { "epoch": 0.196, "grad_norm": 115.6086654663086, "learning_rate": 1.8693333333333333e-05, "loss": 0.6454, "step": 147 }, { "epoch": 0.19733333333333333, "grad_norm": 38.45610046386719, "learning_rate": 1.8684444444444446e-05, "loss": 0.323, "step": 148 }, { "epoch": 0.19866666666666666, "grad_norm": 49.41714096069336, "learning_rate": 1.867555555555556e-05, "loss": 0.0995, "step": 149 }, { "epoch": 0.2, "grad_norm": 34.208858489990234, "learning_rate": 1.866666666666667e-05, "loss": 0.2251, "step": 150 }, { "epoch": 0.20133333333333334, "grad_norm": 58.0931396484375, "learning_rate": 1.865777777777778e-05, "loss": 0.5394, "step": 151 }, { "epoch": 0.20266666666666666, "grad_norm": 124.47175598144531, "learning_rate": 1.8648888888888888e-05, "loss": 0.0985, "step": 152 }, { "epoch": 0.204, "grad_norm": 148.10165405273438, "learning_rate": 1.864e-05, "loss": 0.1729, "step": 153 }, { "epoch": 0.20533333333333334, "grad_norm": 87.4851303100586, "learning_rate": 1.8631111111111114e-05, "loss": 0.2575, "step": 154 }, { "epoch": 0.20666666666666667, "grad_norm": 17.479164123535156, "learning_rate": 1.8622222222222224e-05, "loss": 0.6605, "step": 155 }, { "epoch": 0.208, "grad_norm": 5.397349834442139, "learning_rate": 1.8613333333333334e-05, "loss": 0.0611, "step": 156 }, { "epoch": 0.20933333333333334, "grad_norm": 31.238000869750977, "learning_rate": 1.8604444444444447e-05, "loss": 0.2066, "step": 157 }, { "epoch": 0.21066666666666667, "grad_norm": 7.753409385681152, "learning_rate": 1.8595555555555556e-05, "loss": 0.3145, "step": 158 }, { "epoch": 0.212, "grad_norm": 23.79139518737793, "learning_rate": 1.858666666666667e-05, "loss": 0.379, "step": 159 }, { "epoch": 0.21333333333333335, "grad_norm": 9.529422760009766, "learning_rate": 1.857777777777778e-05, "loss": 0.105, "step": 160 }, { "epoch": 0.21466666666666667, "grad_norm": 21.818645477294922, "learning_rate": 1.856888888888889e-05, "loss": 0.2623, "step": 161 }, { "epoch": 0.216, "grad_norm": 134.34812927246094, "learning_rate": 1.8560000000000002e-05, "loss": 0.447, "step": 162 }, { "epoch": 0.21733333333333332, "grad_norm": 22.48737907409668, "learning_rate": 1.855111111111111e-05, "loss": 0.3604, "step": 163 }, { "epoch": 0.21866666666666668, "grad_norm": 8.137219429016113, "learning_rate": 1.8542222222222225e-05, "loss": 0.0699, "step": 164 }, { "epoch": 0.22, "grad_norm": 7.612528324127197, "learning_rate": 1.8533333333333334e-05, "loss": 0.0756, "step": 165 }, { "epoch": 0.22133333333333333, "grad_norm": 4.233839511871338, "learning_rate": 1.8524444444444444e-05, "loss": 0.044, "step": 166 }, { "epoch": 0.22266666666666668, "grad_norm": 2.499749183654785, "learning_rate": 1.8515555555555557e-05, "loss": 0.0369, "step": 167 }, { "epoch": 0.224, "grad_norm": 44.72653579711914, "learning_rate": 1.8506666666666667e-05, "loss": 0.5056, "step": 168 }, { "epoch": 0.22533333333333333, "grad_norm": 94.48715209960938, "learning_rate": 1.849777777777778e-05, "loss": 0.9899, "step": 169 }, { "epoch": 0.22666666666666666, "grad_norm": 50.759273529052734, "learning_rate": 1.848888888888889e-05, "loss": 0.4517, "step": 170 }, { "epoch": 0.228, "grad_norm": 2.823085069656372, "learning_rate": 1.8480000000000003e-05, "loss": 0.0229, "step": 171 }, { "epoch": 0.22933333333333333, "grad_norm": 10.095349311828613, "learning_rate": 1.8471111111111112e-05, "loss": 0.3415, "step": 172 }, { "epoch": 0.23066666666666666, "grad_norm": 19.520004272460938, "learning_rate": 1.8462222222222222e-05, "loss": 0.9845, "step": 173 }, { "epoch": 0.232, "grad_norm": 2.6272850036621094, "learning_rate": 1.8453333333333335e-05, "loss": 0.0246, "step": 174 }, { "epoch": 0.23333333333333334, "grad_norm": 24.016042709350586, "learning_rate": 1.8444444444444448e-05, "loss": 0.2555, "step": 175 }, { "epoch": 0.23466666666666666, "grad_norm": 7.339972496032715, "learning_rate": 1.8435555555555558e-05, "loss": 0.388, "step": 176 }, { "epoch": 0.236, "grad_norm": 29.6446475982666, "learning_rate": 1.8426666666666668e-05, "loss": 0.6166, "step": 177 }, { "epoch": 0.23733333333333334, "grad_norm": 74.16304016113281, "learning_rate": 1.8417777777777777e-05, "loss": 0.0331, "step": 178 }, { "epoch": 0.23866666666666667, "grad_norm": 5.169797420501709, "learning_rate": 1.840888888888889e-05, "loss": 0.2821, "step": 179 }, { "epoch": 0.24, "grad_norm": 11.803489685058594, "learning_rate": 1.8400000000000003e-05, "loss": 0.4419, "step": 180 }, { "epoch": 0.24133333333333334, "grad_norm": 3.00130295753479, "learning_rate": 1.8391111111111113e-05, "loss": 0.0461, "step": 181 }, { "epoch": 0.24266666666666667, "grad_norm": 2.33852219581604, "learning_rate": 1.8382222222222223e-05, "loss": 0.0413, "step": 182 }, { "epoch": 0.244, "grad_norm": 37.422027587890625, "learning_rate": 1.8373333333333332e-05, "loss": 0.5966, "step": 183 }, { "epoch": 0.24533333333333332, "grad_norm": 58.58165740966797, "learning_rate": 1.8364444444444446e-05, "loss": 0.1827, "step": 184 }, { "epoch": 0.24666666666666667, "grad_norm": 20.952388763427734, "learning_rate": 1.835555555555556e-05, "loss": 0.5482, "step": 185 }, { "epoch": 0.248, "grad_norm": 245.4321746826172, "learning_rate": 1.834666666666667e-05, "loss": 0.3842, "step": 186 }, { "epoch": 0.24933333333333332, "grad_norm": 6.620431900024414, "learning_rate": 1.8337777777777778e-05, "loss": 0.0593, "step": 187 }, { "epoch": 0.25066666666666665, "grad_norm": 40.56410217285156, "learning_rate": 1.832888888888889e-05, "loss": 0.0935, "step": 188 }, { "epoch": 0.252, "grad_norm": 33.67024230957031, "learning_rate": 1.832e-05, "loss": 0.1794, "step": 189 }, { "epoch": 0.25333333333333335, "grad_norm": 127.61767578125, "learning_rate": 1.8311111111111114e-05, "loss": 0.1994, "step": 190 }, { "epoch": 0.25466666666666665, "grad_norm": 20.527280807495117, "learning_rate": 1.8302222222222224e-05, "loss": 0.2134, "step": 191 }, { "epoch": 0.256, "grad_norm": 18.595436096191406, "learning_rate": 1.8293333333333333e-05, "loss": 0.1578, "step": 192 }, { "epoch": 0.25733333333333336, "grad_norm": 266.69873046875, "learning_rate": 1.8284444444444446e-05, "loss": 0.4445, "step": 193 }, { "epoch": 0.25866666666666666, "grad_norm": 2.982762098312378, "learning_rate": 1.8275555555555556e-05, "loss": 0.027, "step": 194 }, { "epoch": 0.26, "grad_norm": 13.873507499694824, "learning_rate": 1.826666666666667e-05, "loss": 0.4022, "step": 195 }, { "epoch": 0.2613333333333333, "grad_norm": 2.4256534576416016, "learning_rate": 1.825777777777778e-05, "loss": 0.0349, "step": 196 }, { "epoch": 0.26266666666666666, "grad_norm": 17.277423858642578, "learning_rate": 1.824888888888889e-05, "loss": 0.2055, "step": 197 }, { "epoch": 0.264, "grad_norm": 33.010581970214844, "learning_rate": 1.824e-05, "loss": 0.9487, "step": 198 }, { "epoch": 0.2653333333333333, "grad_norm": 9.1439208984375, "learning_rate": 1.823111111111111e-05, "loss": 0.0511, "step": 199 }, { "epoch": 0.26666666666666666, "grad_norm": 58.35274124145508, "learning_rate": 1.8222222222222224e-05, "loss": 0.2226, "step": 200 }, { "epoch": 0.268, "grad_norm": 7.316181659698486, "learning_rate": 1.8213333333333334e-05, "loss": 0.0517, "step": 201 }, { "epoch": 0.2693333333333333, "grad_norm": 17.394603729248047, "learning_rate": 1.8204444444444447e-05, "loss": 0.3034, "step": 202 }, { "epoch": 0.27066666666666667, "grad_norm": 35.161983489990234, "learning_rate": 1.8195555555555557e-05, "loss": 0.4037, "step": 203 }, { "epoch": 0.272, "grad_norm": 22.383846282958984, "learning_rate": 1.8186666666666666e-05, "loss": 0.3272, "step": 204 }, { "epoch": 0.2733333333333333, "grad_norm": 0.9847931861877441, "learning_rate": 1.817777777777778e-05, "loss": 0.0149, "step": 205 }, { "epoch": 0.27466666666666667, "grad_norm": 22.231000900268555, "learning_rate": 1.8168888888888893e-05, "loss": 0.3169, "step": 206 }, { "epoch": 0.276, "grad_norm": 34.839412689208984, "learning_rate": 1.8160000000000002e-05, "loss": 0.0497, "step": 207 }, { "epoch": 0.2773333333333333, "grad_norm": 16.957963943481445, "learning_rate": 1.8151111111111112e-05, "loss": 0.2793, "step": 208 }, { "epoch": 0.2786666666666667, "grad_norm": 7.098817825317383, "learning_rate": 1.814222222222222e-05, "loss": 0.0322, "step": 209 }, { "epoch": 0.28, "grad_norm": 17.51911163330078, "learning_rate": 1.8133333333333335e-05, "loss": 0.3463, "step": 210 }, { "epoch": 0.2813333333333333, "grad_norm": 233.9532928466797, "learning_rate": 1.8124444444444448e-05, "loss": 0.4815, "step": 211 }, { "epoch": 0.2826666666666667, "grad_norm": 33.82230758666992, "learning_rate": 1.8115555555555558e-05, "loss": 0.3326, "step": 212 }, { "epoch": 0.284, "grad_norm": 2.750621795654297, "learning_rate": 1.8106666666666667e-05, "loss": 0.0204, "step": 213 }, { "epoch": 0.2853333333333333, "grad_norm": 52.23008728027344, "learning_rate": 1.8097777777777777e-05, "loss": 0.024, "step": 214 }, { "epoch": 0.2866666666666667, "grad_norm": 284.958740234375, "learning_rate": 1.808888888888889e-05, "loss": 0.4767, "step": 215 }, { "epoch": 0.288, "grad_norm": 19.39361000061035, "learning_rate": 1.8080000000000003e-05, "loss": 0.215, "step": 216 }, { "epoch": 0.28933333333333333, "grad_norm": 20.270641326904297, "learning_rate": 1.8071111111111113e-05, "loss": 0.1663, "step": 217 }, { "epoch": 0.2906666666666667, "grad_norm": 2.4136362075805664, "learning_rate": 1.8062222222222222e-05, "loss": 0.0302, "step": 218 }, { "epoch": 0.292, "grad_norm": 7.933583736419678, "learning_rate": 1.8053333333333332e-05, "loss": 0.0349, "step": 219 }, { "epoch": 0.29333333333333333, "grad_norm": 10.698687553405762, "learning_rate": 1.8044444444444445e-05, "loss": 0.2286, "step": 220 }, { "epoch": 0.2946666666666667, "grad_norm": 34.278446197509766, "learning_rate": 1.803555555555556e-05, "loss": 0.1602, "step": 221 }, { "epoch": 0.296, "grad_norm": 19.786449432373047, "learning_rate": 1.8026666666666668e-05, "loss": 0.3549, "step": 222 }, { "epoch": 0.29733333333333334, "grad_norm": 27.36318016052246, "learning_rate": 1.8017777777777778e-05, "loss": 0.2529, "step": 223 }, { "epoch": 0.2986666666666667, "grad_norm": 29.068681716918945, "learning_rate": 1.800888888888889e-05, "loss": 0.3862, "step": 224 }, { "epoch": 0.3, "grad_norm": 19.95208740234375, "learning_rate": 1.8e-05, "loss": 0.2392, "step": 225 }, { "epoch": 0.30133333333333334, "grad_norm": 47.95585250854492, "learning_rate": 1.7991111111111114e-05, "loss": 0.0745, "step": 226 }, { "epoch": 0.30266666666666664, "grad_norm": 3.48224139213562, "learning_rate": 1.7982222222222223e-05, "loss": 0.0214, "step": 227 }, { "epoch": 0.304, "grad_norm": 12.369891166687012, "learning_rate": 1.7973333333333333e-05, "loss": 0.3466, "step": 228 }, { "epoch": 0.30533333333333335, "grad_norm": 22.76944351196289, "learning_rate": 1.7964444444444446e-05, "loss": 0.1786, "step": 229 }, { "epoch": 0.30666666666666664, "grad_norm": 234.60231018066406, "learning_rate": 1.7955555555555556e-05, "loss": 0.0615, "step": 230 }, { "epoch": 0.308, "grad_norm": 19.848094940185547, "learning_rate": 1.794666666666667e-05, "loss": 0.3156, "step": 231 }, { "epoch": 0.30933333333333335, "grad_norm": 25.010210037231445, "learning_rate": 1.793777777777778e-05, "loss": 0.2905, "step": 232 }, { "epoch": 0.31066666666666665, "grad_norm": 42.725826263427734, "learning_rate": 1.792888888888889e-05, "loss": 0.0802, "step": 233 }, { "epoch": 0.312, "grad_norm": 37.03154373168945, "learning_rate": 1.792e-05, "loss": 0.4213, "step": 234 }, { "epoch": 0.31333333333333335, "grad_norm": 15.311205863952637, "learning_rate": 1.791111111111111e-05, "loss": 0.0476, "step": 235 }, { "epoch": 0.31466666666666665, "grad_norm": 12.022018432617188, "learning_rate": 1.7902222222222224e-05, "loss": 0.2706, "step": 236 }, { "epoch": 0.316, "grad_norm": 86.0662841796875, "learning_rate": 1.7893333333333337e-05, "loss": 0.5514, "step": 237 }, { "epoch": 0.31733333333333336, "grad_norm": 12.067264556884766, "learning_rate": 1.7884444444444447e-05, "loss": 0.2213, "step": 238 }, { "epoch": 0.31866666666666665, "grad_norm": 6.560802936553955, "learning_rate": 1.7875555555555556e-05, "loss": 0.055, "step": 239 }, { "epoch": 0.32, "grad_norm": 3.3104169368743896, "learning_rate": 1.7866666666666666e-05, "loss": 0.0304, "step": 240 }, { "epoch": 0.32133333333333336, "grad_norm": 22.006587982177734, "learning_rate": 1.785777777777778e-05, "loss": 0.2384, "step": 241 }, { "epoch": 0.32266666666666666, "grad_norm": 2.7954185009002686, "learning_rate": 1.7848888888888892e-05, "loss": 0.033, "step": 242 }, { "epoch": 0.324, "grad_norm": 18.05629539489746, "learning_rate": 1.7840000000000002e-05, "loss": 0.238, "step": 243 }, { "epoch": 0.3253333333333333, "grad_norm": 180.05935668945312, "learning_rate": 1.783111111111111e-05, "loss": 0.4742, "step": 244 }, { "epoch": 0.32666666666666666, "grad_norm": 25.477739334106445, "learning_rate": 1.782222222222222e-05, "loss": 0.3392, "step": 245 }, { "epoch": 0.328, "grad_norm": 24.399242401123047, "learning_rate": 1.7813333333333334e-05, "loss": 0.5611, "step": 246 }, { "epoch": 0.3293333333333333, "grad_norm": 32.40269470214844, "learning_rate": 1.7804444444444448e-05, "loss": 0.2195, "step": 247 }, { "epoch": 0.33066666666666666, "grad_norm": 19.182676315307617, "learning_rate": 1.7795555555555557e-05, "loss": 0.351, "step": 248 }, { "epoch": 0.332, "grad_norm": 61.42140579223633, "learning_rate": 1.7786666666666667e-05, "loss": 0.4096, "step": 249 }, { "epoch": 0.3333333333333333, "grad_norm": 26.086057662963867, "learning_rate": 1.7777777777777777e-05, "loss": 0.2128, "step": 250 }, { "epoch": 0.33466666666666667, "grad_norm": 19.716724395751953, "learning_rate": 1.776888888888889e-05, "loss": 0.4928, "step": 251 }, { "epoch": 0.336, "grad_norm": 33.42515182495117, "learning_rate": 1.7760000000000003e-05, "loss": 0.5425, "step": 252 }, { "epoch": 0.3373333333333333, "grad_norm": 38.710018157958984, "learning_rate": 1.7751111111111112e-05, "loss": 0.3258, "step": 253 }, { "epoch": 0.33866666666666667, "grad_norm": 25.924890518188477, "learning_rate": 1.7742222222222222e-05, "loss": 0.5453, "step": 254 }, { "epoch": 0.34, "grad_norm": 827.7050170898438, "learning_rate": 1.7733333333333335e-05, "loss": 0.5974, "step": 255 }, { "epoch": 0.3413333333333333, "grad_norm": 369.217529296875, "learning_rate": 1.7724444444444445e-05, "loss": 0.2831, "step": 256 }, { "epoch": 0.3426666666666667, "grad_norm": 27.43989372253418, "learning_rate": 1.7715555555555558e-05, "loss": 0.4867, "step": 257 }, { "epoch": 0.344, "grad_norm": 174.02737426757812, "learning_rate": 1.7706666666666668e-05, "loss": 0.4243, "step": 258 }, { "epoch": 0.3453333333333333, "grad_norm": 117.09225463867188, "learning_rate": 1.7697777777777777e-05, "loss": 0.7089, "step": 259 }, { "epoch": 0.3466666666666667, "grad_norm": 46.31420135498047, "learning_rate": 1.768888888888889e-05, "loss": 0.4525, "step": 260 }, { "epoch": 0.348, "grad_norm": 33.69447326660156, "learning_rate": 1.768e-05, "loss": 0.6255, "step": 261 }, { "epoch": 0.34933333333333333, "grad_norm": 74.7444076538086, "learning_rate": 1.7671111111111113e-05, "loss": 0.4938, "step": 262 }, { "epoch": 0.3506666666666667, "grad_norm": 11.275300025939941, "learning_rate": 1.7662222222222223e-05, "loss": 0.5376, "step": 263 }, { "epoch": 0.352, "grad_norm": 8.177071571350098, "learning_rate": 1.7653333333333336e-05, "loss": 0.3807, "step": 264 }, { "epoch": 0.35333333333333333, "grad_norm": 7.09719181060791, "learning_rate": 1.7644444444444446e-05, "loss": 0.4133, "step": 265 }, { "epoch": 0.3546666666666667, "grad_norm": 14.261161804199219, "learning_rate": 1.7635555555555555e-05, "loss": 0.3916, "step": 266 }, { "epoch": 0.356, "grad_norm": 71.0356216430664, "learning_rate": 1.762666666666667e-05, "loss": 0.3758, "step": 267 }, { "epoch": 0.35733333333333334, "grad_norm": 41.849700927734375, "learning_rate": 1.761777777777778e-05, "loss": 0.3451, "step": 268 }, { "epoch": 0.3586666666666667, "grad_norm": 24.682538986206055, "learning_rate": 1.760888888888889e-05, "loss": 0.4823, "step": 269 }, { "epoch": 0.36, "grad_norm": 6.404449462890625, "learning_rate": 1.76e-05, "loss": 0.3063, "step": 270 }, { "epoch": 0.36133333333333334, "grad_norm": 10.134682655334473, "learning_rate": 1.759111111111111e-05, "loss": 0.2112, "step": 271 }, { "epoch": 0.3626666666666667, "grad_norm": 12.487289428710938, "learning_rate": 1.7582222222222224e-05, "loss": 0.154, "step": 272 }, { "epoch": 0.364, "grad_norm": 59.23768997192383, "learning_rate": 1.7573333333333337e-05, "loss": 0.3952, "step": 273 }, { "epoch": 0.36533333333333334, "grad_norm": 87.46177673339844, "learning_rate": 1.7564444444444446e-05, "loss": 0.3016, "step": 274 }, { "epoch": 0.36666666666666664, "grad_norm": 92.79609680175781, "learning_rate": 1.7555555555555556e-05, "loss": 0.3693, "step": 275 }, { "epoch": 0.368, "grad_norm": 11.168188095092773, "learning_rate": 1.7546666666666666e-05, "loss": 0.1655, "step": 276 }, { "epoch": 0.36933333333333335, "grad_norm": 13.529358863830566, "learning_rate": 1.753777777777778e-05, "loss": 0.1907, "step": 277 }, { "epoch": 0.37066666666666664, "grad_norm": 42.015201568603516, "learning_rate": 1.7528888888888892e-05, "loss": 0.3096, "step": 278 }, { "epoch": 0.372, "grad_norm": 48.053428649902344, "learning_rate": 1.752e-05, "loss": 0.1381, "step": 279 }, { "epoch": 0.37333333333333335, "grad_norm": 281.5953674316406, "learning_rate": 1.751111111111111e-05, "loss": 0.6973, "step": 280 }, { "epoch": 0.37466666666666665, "grad_norm": 23.847620010375977, "learning_rate": 1.750222222222222e-05, "loss": 0.0819, "step": 281 }, { "epoch": 0.376, "grad_norm": 14.743887901306152, "learning_rate": 1.7493333333333334e-05, "loss": 0.2407, "step": 282 }, { "epoch": 0.37733333333333335, "grad_norm": 284.9918212890625, "learning_rate": 1.7484444444444447e-05, "loss": 0.2824, "step": 283 }, { "epoch": 0.37866666666666665, "grad_norm": 6.147160530090332, "learning_rate": 1.7475555555555557e-05, "loss": 0.0677, "step": 284 }, { "epoch": 0.38, "grad_norm": 15.07276725769043, "learning_rate": 1.7466666666666667e-05, "loss": 0.2067, "step": 285 }, { "epoch": 0.38133333333333336, "grad_norm": 6.970149517059326, "learning_rate": 1.745777777777778e-05, "loss": 0.0474, "step": 286 }, { "epoch": 0.38266666666666665, "grad_norm": 26.141712188720703, "learning_rate": 1.744888888888889e-05, "loss": 0.3266, "step": 287 }, { "epoch": 0.384, "grad_norm": 25.952186584472656, "learning_rate": 1.7440000000000002e-05, "loss": 0.0827, "step": 288 }, { "epoch": 0.38533333333333336, "grad_norm": 50.988216400146484, "learning_rate": 1.7431111111111112e-05, "loss": 0.0432, "step": 289 }, { "epoch": 0.38666666666666666, "grad_norm": 189.57321166992188, "learning_rate": 1.7422222222222222e-05, "loss": 0.9796, "step": 290 }, { "epoch": 0.388, "grad_norm": 78.50845336914062, "learning_rate": 1.7413333333333335e-05, "loss": 0.4486, "step": 291 }, { "epoch": 0.3893333333333333, "grad_norm": 22.90538215637207, "learning_rate": 1.7404444444444445e-05, "loss": 0.5552, "step": 292 }, { "epoch": 0.39066666666666666, "grad_norm": 37.782310485839844, "learning_rate": 1.7395555555555558e-05, "loss": 0.7857, "step": 293 }, { "epoch": 0.392, "grad_norm": 45.343780517578125, "learning_rate": 1.7386666666666667e-05, "loss": 0.3732, "step": 294 }, { "epoch": 0.3933333333333333, "grad_norm": 288.2884521484375, "learning_rate": 1.737777777777778e-05, "loss": 0.5145, "step": 295 }, { "epoch": 0.39466666666666667, "grad_norm": 58.114498138427734, "learning_rate": 1.736888888888889e-05, "loss": 0.3083, "step": 296 }, { "epoch": 0.396, "grad_norm": 27.61408042907715, "learning_rate": 1.736e-05, "loss": 0.6747, "step": 297 }, { "epoch": 0.3973333333333333, "grad_norm": 11.23613452911377, "learning_rate": 1.7351111111111113e-05, "loss": 0.0703, "step": 298 }, { "epoch": 0.39866666666666667, "grad_norm": 33.32169723510742, "learning_rate": 1.7342222222222226e-05, "loss": 0.7362, "step": 299 }, { "epoch": 0.4, "grad_norm": 14.595995903015137, "learning_rate": 1.7333333333333336e-05, "loss": 0.0741, "step": 300 }, { "epoch": 0.4013333333333333, "grad_norm": 14.165314674377441, "learning_rate": 1.7324444444444445e-05, "loss": 0.0568, "step": 301 }, { "epoch": 0.4026666666666667, "grad_norm": 19.93703842163086, "learning_rate": 1.7315555555555555e-05, "loss": 0.2092, "step": 302 }, { "epoch": 0.404, "grad_norm": 46.76519775390625, "learning_rate": 1.7306666666666668e-05, "loss": 0.274, "step": 303 }, { "epoch": 0.4053333333333333, "grad_norm": 31.949569702148438, "learning_rate": 1.729777777777778e-05, "loss": 0.5386, "step": 304 }, { "epoch": 0.4066666666666667, "grad_norm": 23.820602416992188, "learning_rate": 1.728888888888889e-05, "loss": 0.1407, "step": 305 }, { "epoch": 0.408, "grad_norm": 180.520751953125, "learning_rate": 1.728e-05, "loss": 0.2582, "step": 306 }, { "epoch": 0.4093333333333333, "grad_norm": 53.30815505981445, "learning_rate": 1.727111111111111e-05, "loss": 0.2567, "step": 307 }, { "epoch": 0.4106666666666667, "grad_norm": 23.66790199279785, "learning_rate": 1.7262222222222223e-05, "loss": 0.1349, "step": 308 }, { "epoch": 0.412, "grad_norm": 13.885927200317383, "learning_rate": 1.7253333333333336e-05, "loss": 0.128, "step": 309 }, { "epoch": 0.41333333333333333, "grad_norm": 46.04557418823242, "learning_rate": 1.7244444444444446e-05, "loss": 0.4668, "step": 310 }, { "epoch": 0.4146666666666667, "grad_norm": 53.88737106323242, "learning_rate": 1.7235555555555556e-05, "loss": 0.1294, "step": 311 }, { "epoch": 0.416, "grad_norm": 182.98684692382812, "learning_rate": 1.7226666666666665e-05, "loss": 0.3089, "step": 312 }, { "epoch": 0.41733333333333333, "grad_norm": 46.9910774230957, "learning_rate": 1.721777777777778e-05, "loss": 0.7143, "step": 313 }, { "epoch": 0.4186666666666667, "grad_norm": 34.41313171386719, "learning_rate": 1.720888888888889e-05, "loss": 0.3975, "step": 314 }, { "epoch": 0.42, "grad_norm": 32.03249740600586, "learning_rate": 1.72e-05, "loss": 0.6345, "step": 315 }, { "epoch": 0.42133333333333334, "grad_norm": 3.419473886489868, "learning_rate": 1.719111111111111e-05, "loss": 0.0622, "step": 316 }, { "epoch": 0.4226666666666667, "grad_norm": 19.916728973388672, "learning_rate": 1.7182222222222224e-05, "loss": 0.4867, "step": 317 }, { "epoch": 0.424, "grad_norm": 17.86551284790039, "learning_rate": 1.7173333333333334e-05, "loss": 0.1368, "step": 318 }, { "epoch": 0.42533333333333334, "grad_norm": 43.53690719604492, "learning_rate": 1.7164444444444447e-05, "loss": 0.1883, "step": 319 }, { "epoch": 0.4266666666666667, "grad_norm": 55.465118408203125, "learning_rate": 1.7155555555555557e-05, "loss": 0.1869, "step": 320 }, { "epoch": 0.428, "grad_norm": 18.021461486816406, "learning_rate": 1.7146666666666666e-05, "loss": 0.0782, "step": 321 }, { "epoch": 0.42933333333333334, "grad_norm": 24.052791595458984, "learning_rate": 1.713777777777778e-05, "loss": 0.215, "step": 322 }, { "epoch": 0.43066666666666664, "grad_norm": 64.57102966308594, "learning_rate": 1.712888888888889e-05, "loss": 0.6776, "step": 323 }, { "epoch": 0.432, "grad_norm": 56.235496520996094, "learning_rate": 1.7120000000000002e-05, "loss": 0.3664, "step": 324 }, { "epoch": 0.43333333333333335, "grad_norm": 24.880115509033203, "learning_rate": 1.7111111111111112e-05, "loss": 0.6736, "step": 325 }, { "epoch": 0.43466666666666665, "grad_norm": 25.983304977416992, "learning_rate": 1.7102222222222225e-05, "loss": 0.3372, "step": 326 }, { "epoch": 0.436, "grad_norm": 39.0350227355957, "learning_rate": 1.7093333333333335e-05, "loss": 0.1549, "step": 327 }, { "epoch": 0.43733333333333335, "grad_norm": 60.73147964477539, "learning_rate": 1.7084444444444444e-05, "loss": 0.1894, "step": 328 }, { "epoch": 0.43866666666666665, "grad_norm": 32.65517044067383, "learning_rate": 1.7075555555555557e-05, "loss": 0.1773, "step": 329 }, { "epoch": 0.44, "grad_norm": 7.774807453155518, "learning_rate": 1.706666666666667e-05, "loss": 0.3081, "step": 330 }, { "epoch": 0.44133333333333336, "grad_norm": 30.63202476501465, "learning_rate": 1.705777777777778e-05, "loss": 0.3665, "step": 331 }, { "epoch": 0.44266666666666665, "grad_norm": 4.075716972351074, "learning_rate": 1.704888888888889e-05, "loss": 0.0595, "step": 332 }, { "epoch": 0.444, "grad_norm": 55.83653259277344, "learning_rate": 1.704e-05, "loss": 0.4077, "step": 333 }, { "epoch": 0.44533333333333336, "grad_norm": 14.701739311218262, "learning_rate": 1.7031111111111113e-05, "loss": 0.305, "step": 334 }, { "epoch": 0.44666666666666666, "grad_norm": 2.745668649673462, "learning_rate": 1.7022222222222226e-05, "loss": 0.0373, "step": 335 }, { "epoch": 0.448, "grad_norm": 4.234600067138672, "learning_rate": 1.7013333333333335e-05, "loss": 0.0528, "step": 336 }, { "epoch": 0.4493333333333333, "grad_norm": 1.737822413444519, "learning_rate": 1.7004444444444445e-05, "loss": 0.036, "step": 337 }, { "epoch": 0.45066666666666666, "grad_norm": 79.35819244384766, "learning_rate": 1.6995555555555555e-05, "loss": 0.186, "step": 338 }, { "epoch": 0.452, "grad_norm": 90.3438949584961, "learning_rate": 1.6986666666666668e-05, "loss": 0.1738, "step": 339 }, { "epoch": 0.4533333333333333, "grad_norm": 6.399804592132568, "learning_rate": 1.697777777777778e-05, "loss": 0.2824, "step": 340 }, { "epoch": 0.45466666666666666, "grad_norm": 34.14095687866211, "learning_rate": 1.696888888888889e-05, "loss": 0.5652, "step": 341 }, { "epoch": 0.456, "grad_norm": 7.133403301239014, "learning_rate": 1.696e-05, "loss": 0.33, "step": 342 }, { "epoch": 0.4573333333333333, "grad_norm": 57.944828033447266, "learning_rate": 1.695111111111111e-05, "loss": 0.1089, "step": 343 }, { "epoch": 0.45866666666666667, "grad_norm": 43.966346740722656, "learning_rate": 1.6942222222222223e-05, "loss": 0.5545, "step": 344 }, { "epoch": 0.46, "grad_norm": 3.990805149078369, "learning_rate": 1.6933333333333336e-05, "loss": 0.0321, "step": 345 }, { "epoch": 0.4613333333333333, "grad_norm": 43.71564483642578, "learning_rate": 1.6924444444444446e-05, "loss": 0.7703, "step": 346 }, { "epoch": 0.46266666666666667, "grad_norm": 56.1742057800293, "learning_rate": 1.6915555555555555e-05, "loss": 0.4543, "step": 347 }, { "epoch": 0.464, "grad_norm": 24.629106521606445, "learning_rate": 1.690666666666667e-05, "loss": 0.1364, "step": 348 }, { "epoch": 0.4653333333333333, "grad_norm": 1.52285897731781, "learning_rate": 1.6897777777777778e-05, "loss": 0.0288, "step": 349 }, { "epoch": 0.4666666666666667, "grad_norm": 11.193754196166992, "learning_rate": 1.688888888888889e-05, "loss": 0.6342, "step": 350 }, { "epoch": 0.468, "grad_norm": 2.9235169887542725, "learning_rate": 1.688e-05, "loss": 0.0308, "step": 351 }, { "epoch": 0.4693333333333333, "grad_norm": 22.250591278076172, "learning_rate": 1.687111111111111e-05, "loss": 0.2062, "step": 352 }, { "epoch": 0.4706666666666667, "grad_norm": 65.51893615722656, "learning_rate": 1.6862222222222224e-05, "loss": 0.1219, "step": 353 }, { "epoch": 0.472, "grad_norm": 1.9695253372192383, "learning_rate": 1.6853333333333333e-05, "loss": 0.0267, "step": 354 }, { "epoch": 0.47333333333333333, "grad_norm": 41.16484832763672, "learning_rate": 1.6844444444444447e-05, "loss": 0.3747, "step": 355 }, { "epoch": 0.4746666666666667, "grad_norm": 59.84547424316406, "learning_rate": 1.6835555555555556e-05, "loss": 0.1666, "step": 356 }, { "epoch": 0.476, "grad_norm": 20.506546020507812, "learning_rate": 1.682666666666667e-05, "loss": 0.3325, "step": 357 }, { "epoch": 0.47733333333333333, "grad_norm": 1.2213846445083618, "learning_rate": 1.681777777777778e-05, "loss": 0.0127, "step": 358 }, { "epoch": 0.4786666666666667, "grad_norm": 2.5118396282196045, "learning_rate": 1.680888888888889e-05, "loss": 0.0186, "step": 359 }, { "epoch": 0.48, "grad_norm": 39.39874267578125, "learning_rate": 1.6800000000000002e-05, "loss": 0.3088, "step": 360 }, { "epoch": 0.48133333333333334, "grad_norm": 27.76407241821289, "learning_rate": 1.6791111111111115e-05, "loss": 1.0233, "step": 361 }, { "epoch": 0.4826666666666667, "grad_norm": 34.02022171020508, "learning_rate": 1.6782222222222225e-05, "loss": 0.2557, "step": 362 }, { "epoch": 0.484, "grad_norm": 267.3395690917969, "learning_rate": 1.6773333333333334e-05, "loss": 0.9249, "step": 363 }, { "epoch": 0.48533333333333334, "grad_norm": 1.2267107963562012, "learning_rate": 1.6764444444444444e-05, "loss": 0.0129, "step": 364 }, { "epoch": 0.4866666666666667, "grad_norm": 0.6880038380622864, "learning_rate": 1.6755555555555557e-05, "loss": 0.0079, "step": 365 }, { "epoch": 0.488, "grad_norm": 84.12385559082031, "learning_rate": 1.674666666666667e-05, "loss": 0.2129, "step": 366 }, { "epoch": 0.48933333333333334, "grad_norm": 70.79206848144531, "learning_rate": 1.673777777777778e-05, "loss": 0.8714, "step": 367 }, { "epoch": 0.49066666666666664, "grad_norm": 92.06423950195312, "learning_rate": 1.672888888888889e-05, "loss": 0.9983, "step": 368 }, { "epoch": 0.492, "grad_norm": 16.41324806213379, "learning_rate": 1.672e-05, "loss": 0.4104, "step": 369 }, { "epoch": 0.49333333333333335, "grad_norm": 18.517337799072266, "learning_rate": 1.6711111111111112e-05, "loss": 0.4307, "step": 370 }, { "epoch": 0.49466666666666664, "grad_norm": 0.6116989850997925, "learning_rate": 1.6702222222222225e-05, "loss": 0.0079, "step": 371 }, { "epoch": 0.496, "grad_norm": 0.5906031727790833, "learning_rate": 1.6693333333333335e-05, "loss": 0.009, "step": 372 }, { "epoch": 0.49733333333333335, "grad_norm": 0.40563252568244934, "learning_rate": 1.6684444444444445e-05, "loss": 0.0079, "step": 373 }, { "epoch": 0.49866666666666665, "grad_norm": 99.43434143066406, "learning_rate": 1.6675555555555554e-05, "loss": 0.0799, "step": 374 }, { "epoch": 0.5, "grad_norm": 94.07172393798828, "learning_rate": 1.6666666666666667e-05, "loss": 0.4407, "step": 375 }, { "epoch": 0.5013333333333333, "grad_norm": 95.74668884277344, "learning_rate": 1.665777777777778e-05, "loss": 1.4446, "step": 376 }, { "epoch": 0.5026666666666667, "grad_norm": 15.985678672790527, "learning_rate": 1.664888888888889e-05, "loss": 0.8306, "step": 377 }, { "epoch": 0.504, "grad_norm": 298.76837158203125, "learning_rate": 1.664e-05, "loss": 0.3422, "step": 378 }, { "epoch": 0.5053333333333333, "grad_norm": 36.80162811279297, "learning_rate": 1.6631111111111113e-05, "loss": 0.5058, "step": 379 }, { "epoch": 0.5066666666666667, "grad_norm": 21.144271850585938, "learning_rate": 1.6622222222222223e-05, "loss": 0.0309, "step": 380 }, { "epoch": 0.508, "grad_norm": 7.567387104034424, "learning_rate": 1.6613333333333336e-05, "loss": 0.4728, "step": 381 }, { "epoch": 0.5093333333333333, "grad_norm": 26.494226455688477, "learning_rate": 1.6604444444444445e-05, "loss": 0.0867, "step": 382 }, { "epoch": 0.5106666666666667, "grad_norm": 126.83513641357422, "learning_rate": 1.6595555555555555e-05, "loss": 0.8798, "step": 383 }, { "epoch": 0.512, "grad_norm": 58.590965270996094, "learning_rate": 1.6586666666666668e-05, "loss": 0.1136, "step": 384 }, { "epoch": 0.5133333333333333, "grad_norm": 31.592548370361328, "learning_rate": 1.6577777777777778e-05, "loss": 0.353, "step": 385 }, { "epoch": 0.5146666666666667, "grad_norm": 12.600981712341309, "learning_rate": 1.656888888888889e-05, "loss": 0.0412, "step": 386 }, { "epoch": 0.516, "grad_norm": 4.373597621917725, "learning_rate": 1.656e-05, "loss": 0.0208, "step": 387 }, { "epoch": 0.5173333333333333, "grad_norm": 1.4264463186264038, "learning_rate": 1.6551111111111114e-05, "loss": 0.0176, "step": 388 }, { "epoch": 0.5186666666666667, "grad_norm": 0.9098450541496277, "learning_rate": 1.6542222222222223e-05, "loss": 0.0123, "step": 389 }, { "epoch": 0.52, "grad_norm": 0.44002705812454224, "learning_rate": 1.6533333333333333e-05, "loss": 0.0065, "step": 390 }, { "epoch": 0.5213333333333333, "grad_norm": 11.295949935913086, "learning_rate": 1.6524444444444446e-05, "loss": 0.4225, "step": 391 }, { "epoch": 0.5226666666666666, "grad_norm": 9.730602264404297, "learning_rate": 1.651555555555556e-05, "loss": 0.0279, "step": 392 }, { "epoch": 0.524, "grad_norm": 36.07223129272461, "learning_rate": 1.650666666666667e-05, "loss": 0.0432, "step": 393 }, { "epoch": 0.5253333333333333, "grad_norm": 82.18423461914062, "learning_rate": 1.649777777777778e-05, "loss": 0.1572, "step": 394 }, { "epoch": 0.5266666666666666, "grad_norm": 0.6244869232177734, "learning_rate": 1.648888888888889e-05, "loss": 0.0068, "step": 395 }, { "epoch": 0.528, "grad_norm": 0.3239281177520752, "learning_rate": 1.648e-05, "loss": 0.0054, "step": 396 }, { "epoch": 0.5293333333333333, "grad_norm": 7.361968994140625, "learning_rate": 1.6471111111111115e-05, "loss": 0.4715, "step": 397 }, { "epoch": 0.5306666666666666, "grad_norm": 29.584047317504883, "learning_rate": 1.6462222222222224e-05, "loss": 1.2635, "step": 398 }, { "epoch": 0.532, "grad_norm": 0.8452209234237671, "learning_rate": 1.6453333333333334e-05, "loss": 0.0054, "step": 399 }, { "epoch": 0.5333333333333333, "grad_norm": 0.3747219145298004, "learning_rate": 1.6444444444444444e-05, "loss": 0.0051, "step": 400 }, { "epoch": 0.5346666666666666, "grad_norm": 14.766377449035645, "learning_rate": 1.6435555555555557e-05, "loss": 0.3855, "step": 401 }, { "epoch": 0.536, "grad_norm": 35.21036911010742, "learning_rate": 1.642666666666667e-05, "loss": 0.0422, "step": 402 }, { "epoch": 0.5373333333333333, "grad_norm": 17.602951049804688, "learning_rate": 1.641777777777778e-05, "loss": 0.0188, "step": 403 }, { "epoch": 0.5386666666666666, "grad_norm": 6.351717472076416, "learning_rate": 1.640888888888889e-05, "loss": 0.466, "step": 404 }, { "epoch": 0.54, "grad_norm": 0.3398309350013733, "learning_rate": 1.64e-05, "loss": 0.005, "step": 405 }, { "epoch": 0.5413333333333333, "grad_norm": 163.7615203857422, "learning_rate": 1.6391111111111112e-05, "loss": 0.1587, "step": 406 }, { "epoch": 0.5426666666666666, "grad_norm": 0.6235336661338806, "learning_rate": 1.6382222222222225e-05, "loss": 0.0088, "step": 407 }, { "epoch": 0.544, "grad_norm": 150.38983154296875, "learning_rate": 1.6373333333333335e-05, "loss": 0.192, "step": 408 }, { "epoch": 0.5453333333333333, "grad_norm": 55.88649368286133, "learning_rate": 1.6364444444444444e-05, "loss": 0.0832, "step": 409 }, { "epoch": 0.5466666666666666, "grad_norm": 1.7112860679626465, "learning_rate": 1.6355555555555557e-05, "loss": 0.01, "step": 410 }, { "epoch": 0.548, "grad_norm": 0.8538914322853088, "learning_rate": 1.6346666666666667e-05, "loss": 0.0063, "step": 411 }, { "epoch": 0.5493333333333333, "grad_norm": 0.23169256746768951, "learning_rate": 1.633777777777778e-05, "loss": 0.0048, "step": 412 }, { "epoch": 0.5506666666666666, "grad_norm": 0.34852316975593567, "learning_rate": 1.632888888888889e-05, "loss": 0.0057, "step": 413 }, { "epoch": 0.552, "grad_norm": 15.184539794921875, "learning_rate": 1.632e-05, "loss": 0.4847, "step": 414 }, { "epoch": 0.5533333333333333, "grad_norm": 1.8451186418533325, "learning_rate": 1.6311111111111113e-05, "loss": 0.0065, "step": 415 }, { "epoch": 0.5546666666666666, "grad_norm": 75.28857421875, "learning_rate": 1.6302222222222222e-05, "loss": 1.4651, "step": 416 }, { "epoch": 0.556, "grad_norm": 48.11509704589844, "learning_rate": 1.6293333333333335e-05, "loss": 0.4342, "step": 417 }, { "epoch": 0.5573333333333333, "grad_norm": 695.0440673828125, "learning_rate": 1.6284444444444445e-05, "loss": 0.6185, "step": 418 }, { "epoch": 0.5586666666666666, "grad_norm": 5.151619911193848, "learning_rate": 1.6275555555555558e-05, "loss": 0.0081, "step": 419 }, { "epoch": 0.56, "grad_norm": 0.47942811250686646, "learning_rate": 1.6266666666666668e-05, "loss": 0.0034, "step": 420 }, { "epoch": 0.5613333333333334, "grad_norm": 0.299633264541626, "learning_rate": 1.6257777777777778e-05, "loss": 0.0036, "step": 421 }, { "epoch": 0.5626666666666666, "grad_norm": 0.1341838836669922, "learning_rate": 1.624888888888889e-05, "loss": 0.0026, "step": 422 }, { "epoch": 0.564, "grad_norm": 5.8148345947265625, "learning_rate": 1.6240000000000004e-05, "loss": 0.4921, "step": 423 }, { "epoch": 0.5653333333333334, "grad_norm": 92.06847381591797, "learning_rate": 1.6231111111111113e-05, "loss": 0.4398, "step": 424 }, { "epoch": 0.5666666666666667, "grad_norm": 90.83396911621094, "learning_rate": 1.6222222222222223e-05, "loss": 0.2355, "step": 425 }, { "epoch": 0.568, "grad_norm": 0.14604602754116058, "learning_rate": 1.6213333333333333e-05, "loss": 0.0032, "step": 426 }, { "epoch": 0.5693333333333334, "grad_norm": 8.506234169006348, "learning_rate": 1.6204444444444446e-05, "loss": 0.4767, "step": 427 }, { "epoch": 0.5706666666666667, "grad_norm": 2.6388230323791504, "learning_rate": 1.619555555555556e-05, "loss": 0.0151, "step": 428 }, { "epoch": 0.572, "grad_norm": 0.7352663278579712, "learning_rate": 1.618666666666667e-05, "loss": 0.0057, "step": 429 }, { "epoch": 0.5733333333333334, "grad_norm": 11.93177318572998, "learning_rate": 1.617777777777778e-05, "loss": 0.3565, "step": 430 }, { "epoch": 0.5746666666666667, "grad_norm": 1.0510191917419434, "learning_rate": 1.6168888888888888e-05, "loss": 0.0087, "step": 431 }, { "epoch": 0.576, "grad_norm": 9.897022247314453, "learning_rate": 1.616e-05, "loss": 0.3432, "step": 432 }, { "epoch": 0.5773333333333334, "grad_norm": 21.137832641601562, "learning_rate": 1.6151111111111114e-05, "loss": 0.2775, "step": 433 }, { "epoch": 0.5786666666666667, "grad_norm": 9.9161958694458, "learning_rate": 1.6142222222222224e-05, "loss": 0.3355, "step": 434 }, { "epoch": 0.58, "grad_norm": 3.8584706783294678, "learning_rate": 1.6133333333333334e-05, "loss": 0.0265, "step": 435 }, { "epoch": 0.5813333333333334, "grad_norm": 3.582775354385376, "learning_rate": 1.6124444444444443e-05, "loss": 0.0247, "step": 436 }, { "epoch": 0.5826666666666667, "grad_norm": 32.9600944519043, "learning_rate": 1.6115555555555556e-05, "loss": 0.1991, "step": 437 }, { "epoch": 0.584, "grad_norm": 7.211201190948486, "learning_rate": 1.610666666666667e-05, "loss": 0.0687, "step": 438 }, { "epoch": 0.5853333333333334, "grad_norm": 11.30628490447998, "learning_rate": 1.609777777777778e-05, "loss": 0.6328, "step": 439 }, { "epoch": 0.5866666666666667, "grad_norm": 4.940673828125, "learning_rate": 1.608888888888889e-05, "loss": 0.0498, "step": 440 }, { "epoch": 0.588, "grad_norm": 0.8353086113929749, "learning_rate": 1.6080000000000002e-05, "loss": 0.0123, "step": 441 }, { "epoch": 0.5893333333333334, "grad_norm": 1.4801274538040161, "learning_rate": 1.607111111111111e-05, "loss": 0.0184, "step": 442 }, { "epoch": 0.5906666666666667, "grad_norm": 144.69313049316406, "learning_rate": 1.6062222222222225e-05, "loss": 0.1352, "step": 443 }, { "epoch": 0.592, "grad_norm": 0.8882383108139038, "learning_rate": 1.6053333333333334e-05, "loss": 0.0105, "step": 444 }, { "epoch": 0.5933333333333334, "grad_norm": 4.9518561363220215, "learning_rate": 1.6044444444444444e-05, "loss": 0.4543, "step": 445 }, { "epoch": 0.5946666666666667, "grad_norm": 6.000964641571045, "learning_rate": 1.6035555555555557e-05, "loss": 0.4443, "step": 446 }, { "epoch": 0.596, "grad_norm": 192.08148193359375, "learning_rate": 1.6026666666666667e-05, "loss": 0.4305, "step": 447 }, { "epoch": 0.5973333333333334, "grad_norm": 30.50543212890625, "learning_rate": 1.601777777777778e-05, "loss": 0.0139, "step": 448 }, { "epoch": 0.5986666666666667, "grad_norm": 38.68901062011719, "learning_rate": 1.600888888888889e-05, "loss": 0.353, "step": 449 }, { "epoch": 0.6, "grad_norm": 6.430370807647705, "learning_rate": 1.6000000000000003e-05, "loss": 0.3726, "step": 450 }, { "epoch": 0.6013333333333334, "grad_norm": 2.0896520614624023, "learning_rate": 1.5991111111111112e-05, "loss": 0.019, "step": 451 }, { "epoch": 0.6026666666666667, "grad_norm": 12.255717277526855, "learning_rate": 1.5982222222222222e-05, "loss": 1.0324, "step": 452 }, { "epoch": 0.604, "grad_norm": 1531.068603515625, "learning_rate": 1.5973333333333335e-05, "loss": 0.2266, "step": 453 }, { "epoch": 0.6053333333333333, "grad_norm": 7.718644618988037, "learning_rate": 1.5964444444444448e-05, "loss": 0.4901, "step": 454 }, { "epoch": 0.6066666666666667, "grad_norm": 30.948810577392578, "learning_rate": 1.5955555555555558e-05, "loss": 0.2895, "step": 455 }, { "epoch": 0.608, "grad_norm": 4.588623523712158, "learning_rate": 1.5946666666666668e-05, "loss": 0.2993, "step": 456 }, { "epoch": 0.6093333333333333, "grad_norm": 21.00495719909668, "learning_rate": 1.5937777777777777e-05, "loss": 0.2929, "step": 457 }, { "epoch": 0.6106666666666667, "grad_norm": 18.039936065673828, "learning_rate": 1.592888888888889e-05, "loss": 0.3247, "step": 458 }, { "epoch": 0.612, "grad_norm": 27.10317611694336, "learning_rate": 1.5920000000000003e-05, "loss": 0.575, "step": 459 }, { "epoch": 0.6133333333333333, "grad_norm": 59.71908950805664, "learning_rate": 1.5911111111111113e-05, "loss": 0.2302, "step": 460 }, { "epoch": 0.6146666666666667, "grad_norm": 6.468291282653809, "learning_rate": 1.5902222222222223e-05, "loss": 0.0704, "step": 461 }, { "epoch": 0.616, "grad_norm": 6.852536201477051, "learning_rate": 1.5893333333333333e-05, "loss": 0.0758, "step": 462 }, { "epoch": 0.6173333333333333, "grad_norm": 5.467730522155762, "learning_rate": 1.5884444444444446e-05, "loss": 0.0744, "step": 463 }, { "epoch": 0.6186666666666667, "grad_norm": 33.81056213378906, "learning_rate": 1.587555555555556e-05, "loss": 0.0851, "step": 464 }, { "epoch": 0.62, "grad_norm": 54.69092559814453, "learning_rate": 1.586666666666667e-05, "loss": 0.2549, "step": 465 }, { "epoch": 0.6213333333333333, "grad_norm": 66.9840087890625, "learning_rate": 1.5857777777777778e-05, "loss": 0.5219, "step": 466 }, { "epoch": 0.6226666666666667, "grad_norm": 152.1387481689453, "learning_rate": 1.5848888888888888e-05, "loss": 0.7371, "step": 467 }, { "epoch": 0.624, "grad_norm": 41.37196350097656, "learning_rate": 1.584e-05, "loss": 0.101, "step": 468 }, { "epoch": 0.6253333333333333, "grad_norm": 95.80058288574219, "learning_rate": 1.5831111111111114e-05, "loss": 0.7426, "step": 469 }, { "epoch": 0.6266666666666667, "grad_norm": 77.90318298339844, "learning_rate": 1.5822222222222224e-05, "loss": 0.6606, "step": 470 }, { "epoch": 0.628, "grad_norm": 1.419073462486267, "learning_rate": 1.5813333333333333e-05, "loss": 0.035, "step": 471 }, { "epoch": 0.6293333333333333, "grad_norm": 57.34606170654297, "learning_rate": 1.5804444444444446e-05, "loss": 0.3481, "step": 472 }, { "epoch": 0.6306666666666667, "grad_norm": 41.00575256347656, "learning_rate": 1.5795555555555556e-05, "loss": 0.4179, "step": 473 }, { "epoch": 0.632, "grad_norm": 9.139270782470703, "learning_rate": 1.578666666666667e-05, "loss": 0.1765, "step": 474 }, { "epoch": 0.6333333333333333, "grad_norm": 39.54038619995117, "learning_rate": 1.577777777777778e-05, "loss": 0.3153, "step": 475 }, { "epoch": 0.6346666666666667, "grad_norm": 56.17218780517578, "learning_rate": 1.576888888888889e-05, "loss": 0.0638, "step": 476 }, { "epoch": 0.636, "grad_norm": 22.6376895904541, "learning_rate": 1.576e-05, "loss": 0.3546, "step": 477 }, { "epoch": 0.6373333333333333, "grad_norm": 4.79631233215332, "learning_rate": 1.575111111111111e-05, "loss": 0.2847, "step": 478 }, { "epoch": 0.6386666666666667, "grad_norm": 13.064446449279785, "learning_rate": 1.5742222222222224e-05, "loss": 0.2872, "step": 479 }, { "epoch": 0.64, "grad_norm": 93.45035552978516, "learning_rate": 1.5733333333333334e-05, "loss": 0.9595, "step": 480 }, { "epoch": 0.6413333333333333, "grad_norm": 58.496395111083984, "learning_rate": 1.5724444444444447e-05, "loss": 0.5208, "step": 481 }, { "epoch": 0.6426666666666667, "grad_norm": 395.58599853515625, "learning_rate": 1.5715555555555557e-05, "loss": 0.9958, "step": 482 }, { "epoch": 0.644, "grad_norm": 20.389188766479492, "learning_rate": 1.5706666666666666e-05, "loss": 0.3198, "step": 483 }, { "epoch": 0.6453333333333333, "grad_norm": 82.8431625366211, "learning_rate": 1.569777777777778e-05, "loss": 0.3409, "step": 484 }, { "epoch": 0.6466666666666666, "grad_norm": 23.467159271240234, "learning_rate": 1.5688888888888893e-05, "loss": 0.2477, "step": 485 }, { "epoch": 0.648, "grad_norm": 37.725948333740234, "learning_rate": 1.5680000000000002e-05, "loss": 0.588, "step": 486 }, { "epoch": 0.6493333333333333, "grad_norm": 19.586387634277344, "learning_rate": 1.5671111111111112e-05, "loss": 0.0594, "step": 487 }, { "epoch": 0.6506666666666666, "grad_norm": 5.975935459136963, "learning_rate": 1.5662222222222222e-05, "loss": 0.3105, "step": 488 }, { "epoch": 0.652, "grad_norm": 18.773696899414062, "learning_rate": 1.5653333333333335e-05, "loss": 0.3031, "step": 489 }, { "epoch": 0.6533333333333333, "grad_norm": 31.22116470336914, "learning_rate": 1.5644444444444448e-05, "loss": 0.118, "step": 490 }, { "epoch": 0.6546666666666666, "grad_norm": 41.45954895019531, "learning_rate": 1.5635555555555558e-05, "loss": 0.2721, "step": 491 }, { "epoch": 0.656, "grad_norm": 17.413455963134766, "learning_rate": 1.5626666666666667e-05, "loss": 0.0804, "step": 492 }, { "epoch": 0.6573333333333333, "grad_norm": 58.417236328125, "learning_rate": 1.5617777777777777e-05, "loss": 0.0678, "step": 493 }, { "epoch": 0.6586666666666666, "grad_norm": 155.69955444335938, "learning_rate": 1.560888888888889e-05, "loss": 0.4444, "step": 494 }, { "epoch": 0.66, "grad_norm": 39.25685501098633, "learning_rate": 1.5600000000000003e-05, "loss": 0.2145, "step": 495 }, { "epoch": 0.6613333333333333, "grad_norm": 20.140029907226562, "learning_rate": 1.5591111111111113e-05, "loss": 0.0743, "step": 496 }, { "epoch": 0.6626666666666666, "grad_norm": 327.0036926269531, "learning_rate": 1.5582222222222222e-05, "loss": 0.4372, "step": 497 }, { "epoch": 0.664, "grad_norm": 118.68206787109375, "learning_rate": 1.5573333333333332e-05, "loss": 0.1729, "step": 498 }, { "epoch": 0.6653333333333333, "grad_norm": 7.200020790100098, "learning_rate": 1.5564444444444445e-05, "loss": 0.0582, "step": 499 }, { "epoch": 0.6666666666666666, "grad_norm": 45.35590362548828, "learning_rate": 1.555555555555556e-05, "loss": 0.3621, "step": 500 }, { "epoch": 0.668, "grad_norm": 2.685757875442505, "learning_rate": 1.5546666666666668e-05, "loss": 0.0325, "step": 501 }, { "epoch": 0.6693333333333333, "grad_norm": 48.73164749145508, "learning_rate": 1.5537777777777778e-05, "loss": 0.2718, "step": 502 }, { "epoch": 0.6706666666666666, "grad_norm": 11.607429504394531, "learning_rate": 1.552888888888889e-05, "loss": 0.2085, "step": 503 }, { "epoch": 0.672, "grad_norm": 6.8460164070129395, "learning_rate": 1.552e-05, "loss": 0.059, "step": 504 }, { "epoch": 0.6733333333333333, "grad_norm": 18.40593910217285, "learning_rate": 1.5511111111111114e-05, "loss": 0.3699, "step": 505 }, { "epoch": 0.6746666666666666, "grad_norm": 64.14971160888672, "learning_rate": 1.5502222222222223e-05, "loss": 0.0513, "step": 506 }, { "epoch": 0.676, "grad_norm": 4.932974338531494, "learning_rate": 1.5493333333333333e-05, "loss": 0.0453, "step": 507 }, { "epoch": 0.6773333333333333, "grad_norm": 36.308570861816406, "learning_rate": 1.5484444444444446e-05, "loss": 0.3024, "step": 508 }, { "epoch": 0.6786666666666666, "grad_norm": 53.45915985107422, "learning_rate": 1.5475555555555556e-05, "loss": 0.5699, "step": 509 }, { "epoch": 0.68, "grad_norm": 3.9167819023132324, "learning_rate": 1.546666666666667e-05, "loss": 0.0334, "step": 510 }, { "epoch": 0.6813333333333333, "grad_norm": 14.153958320617676, "learning_rate": 1.545777777777778e-05, "loss": 0.3914, "step": 511 }, { "epoch": 0.6826666666666666, "grad_norm": 31.98660659790039, "learning_rate": 1.544888888888889e-05, "loss": 0.2675, "step": 512 }, { "epoch": 0.684, "grad_norm": 4.5382080078125, "learning_rate": 1.544e-05, "loss": 0.037, "step": 513 }, { "epoch": 0.6853333333333333, "grad_norm": 47.25726318359375, "learning_rate": 1.543111111111111e-05, "loss": 0.2256, "step": 514 }, { "epoch": 0.6866666666666666, "grad_norm": 21.551340103149414, "learning_rate": 1.5422222222222224e-05, "loss": 0.0282, "step": 515 }, { "epoch": 0.688, "grad_norm": 6.829284191131592, "learning_rate": 1.5413333333333337e-05, "loss": 0.0298, "step": 516 }, { "epoch": 0.6893333333333334, "grad_norm": 66.61030578613281, "learning_rate": 1.5404444444444447e-05, "loss": 0.14, "step": 517 }, { "epoch": 0.6906666666666667, "grad_norm": 24.75452995300293, "learning_rate": 1.5395555555555556e-05, "loss": 0.0703, "step": 518 }, { "epoch": 0.692, "grad_norm": 19.0056209564209, "learning_rate": 1.5386666666666666e-05, "loss": 0.0475, "step": 519 }, { "epoch": 0.6933333333333334, "grad_norm": 15.497206687927246, "learning_rate": 1.537777777777778e-05, "loss": 0.3868, "step": 520 }, { "epoch": 0.6946666666666667, "grad_norm": 22.020931243896484, "learning_rate": 1.5368888888888892e-05, "loss": 0.2283, "step": 521 }, { "epoch": 0.696, "grad_norm": 1.1743708848953247, "learning_rate": 1.5360000000000002e-05, "loss": 0.0129, "step": 522 }, { "epoch": 0.6973333333333334, "grad_norm": 3.0380542278289795, "learning_rate": 1.5351111111111112e-05, "loss": 0.0222, "step": 523 }, { "epoch": 0.6986666666666667, "grad_norm": 517.7556762695312, "learning_rate": 1.534222222222222e-05, "loss": 0.1896, "step": 524 }, { "epoch": 0.7, "grad_norm": 18.8843936920166, "learning_rate": 1.5333333333333334e-05, "loss": 0.1162, "step": 525 }, { "epoch": 0.7013333333333334, "grad_norm": 485.10577392578125, "learning_rate": 1.5324444444444448e-05, "loss": 0.4503, "step": 526 }, { "epoch": 0.7026666666666667, "grad_norm": 14.825898170471191, "learning_rate": 1.5315555555555557e-05, "loss": 0.0256, "step": 527 }, { "epoch": 0.704, "grad_norm": 19.143966674804688, "learning_rate": 1.5306666666666667e-05, "loss": 0.3837, "step": 528 }, { "epoch": 0.7053333333333334, "grad_norm": 99.0759048461914, "learning_rate": 1.5297777777777777e-05, "loss": 0.1893, "step": 529 }, { "epoch": 0.7066666666666667, "grad_norm": 24.80434226989746, "learning_rate": 1.528888888888889e-05, "loss": 0.0717, "step": 530 }, { "epoch": 0.708, "grad_norm": 0.7176944017410278, "learning_rate": 1.5280000000000003e-05, "loss": 0.0088, "step": 531 }, { "epoch": 0.7093333333333334, "grad_norm": 18.233673095703125, "learning_rate": 1.5271111111111112e-05, "loss": 0.3459, "step": 532 }, { "epoch": 0.7106666666666667, "grad_norm": 87.71961975097656, "learning_rate": 1.5262222222222222e-05, "loss": 1.083, "step": 533 }, { "epoch": 0.712, "grad_norm": 81.94210815429688, "learning_rate": 1.5253333333333335e-05, "loss": 0.398, "step": 534 }, { "epoch": 0.7133333333333334, "grad_norm": 25.385360717773438, "learning_rate": 1.5244444444444447e-05, "loss": 0.0598, "step": 535 }, { "epoch": 0.7146666666666667, "grad_norm": 22.733335494995117, "learning_rate": 1.5235555555555556e-05, "loss": 0.2829, "step": 536 }, { "epoch": 0.716, "grad_norm": 28.56426429748535, "learning_rate": 1.5226666666666668e-05, "loss": 0.2213, "step": 537 }, { "epoch": 0.7173333333333334, "grad_norm": 2.311807155609131, "learning_rate": 1.5217777777777777e-05, "loss": 0.0144, "step": 538 }, { "epoch": 0.7186666666666667, "grad_norm": 54.28264236450195, "learning_rate": 1.520888888888889e-05, "loss": 0.5976, "step": 539 }, { "epoch": 0.72, "grad_norm": 0.5071966052055359, "learning_rate": 1.5200000000000002e-05, "loss": 0.0067, "step": 540 }, { "epoch": 0.7213333333333334, "grad_norm": 92.36091613769531, "learning_rate": 1.5191111111111112e-05, "loss": 0.065, "step": 541 }, { "epoch": 0.7226666666666667, "grad_norm": 49.756309509277344, "learning_rate": 1.5182222222222223e-05, "loss": 0.5455, "step": 542 }, { "epoch": 0.724, "grad_norm": 12.686720848083496, "learning_rate": 1.5173333333333336e-05, "loss": 0.5099, "step": 543 }, { "epoch": 0.7253333333333334, "grad_norm": 0.342751145362854, "learning_rate": 1.5164444444444446e-05, "loss": 0.0051, "step": 544 }, { "epoch": 0.7266666666666667, "grad_norm": 0.7254379987716675, "learning_rate": 1.5155555555555557e-05, "loss": 0.0069, "step": 545 }, { "epoch": 0.728, "grad_norm": 3.126568555831909, "learning_rate": 1.5146666666666667e-05, "loss": 0.0153, "step": 546 }, { "epoch": 0.7293333333333333, "grad_norm": 0.7411602735519409, "learning_rate": 1.513777777777778e-05, "loss": 0.0062, "step": 547 }, { "epoch": 0.7306666666666667, "grad_norm": 15.793583869934082, "learning_rate": 1.5128888888888891e-05, "loss": 0.0212, "step": 548 }, { "epoch": 0.732, "grad_norm": 25.394554138183594, "learning_rate": 1.5120000000000001e-05, "loss": 0.4654, "step": 549 }, { "epoch": 0.7333333333333333, "grad_norm": 0.46709954738616943, "learning_rate": 1.5111111111111112e-05, "loss": 0.0033, "step": 550 }, { "epoch": 0.7346666666666667, "grad_norm": 15.044448852539062, "learning_rate": 1.5102222222222222e-05, "loss": 0.2347, "step": 551 }, { "epoch": 0.736, "grad_norm": 43.96204376220703, "learning_rate": 1.5093333333333335e-05, "loss": 0.2297, "step": 552 }, { "epoch": 0.7373333333333333, "grad_norm": 1.031826376914978, "learning_rate": 1.5084444444444446e-05, "loss": 0.0064, "step": 553 }, { "epoch": 0.7386666666666667, "grad_norm": 1.6380364894866943, "learning_rate": 1.5075555555555556e-05, "loss": 0.0088, "step": 554 }, { "epoch": 0.74, "grad_norm": 117.55204772949219, "learning_rate": 1.5066666666666668e-05, "loss": 0.152, "step": 555 }, { "epoch": 0.7413333333333333, "grad_norm": 19.951438903808594, "learning_rate": 1.505777777777778e-05, "loss": 0.8698, "step": 556 }, { "epoch": 0.7426666666666667, "grad_norm": 19.266027450561523, "learning_rate": 1.504888888888889e-05, "loss": 0.4189, "step": 557 }, { "epoch": 0.744, "grad_norm": 1.7079962491989136, "learning_rate": 1.5040000000000002e-05, "loss": 0.0053, "step": 558 }, { "epoch": 0.7453333333333333, "grad_norm": 6.839558124542236, "learning_rate": 1.5031111111111111e-05, "loss": 0.5149, "step": 559 }, { "epoch": 0.7466666666666667, "grad_norm": 45.2992057800293, "learning_rate": 1.5022222222222223e-05, "loss": 1.4541, "step": 560 }, { "epoch": 0.748, "grad_norm": 5.1155195236206055, "learning_rate": 1.5013333333333336e-05, "loss": 0.4816, "step": 561 }, { "epoch": 0.7493333333333333, "grad_norm": 1.703602910041809, "learning_rate": 1.5004444444444446e-05, "loss": 0.0085, "step": 562 }, { "epoch": 0.7506666666666667, "grad_norm": 8.983227729797363, "learning_rate": 1.4995555555555557e-05, "loss": 0.3089, "step": 563 }, { "epoch": 0.752, "grad_norm": 9.243966102600098, "learning_rate": 1.4986666666666667e-05, "loss": 0.3994, "step": 564 }, { "epoch": 0.7533333333333333, "grad_norm": 10.324238777160645, "learning_rate": 1.497777777777778e-05, "loss": 0.2995, "step": 565 }, { "epoch": 0.7546666666666667, "grad_norm": 86.90589904785156, "learning_rate": 1.4968888888888891e-05, "loss": 0.6332, "step": 566 }, { "epoch": 0.756, "grad_norm": 7.942810535430908, "learning_rate": 1.496e-05, "loss": 0.2721, "step": 567 }, { "epoch": 0.7573333333333333, "grad_norm": 32.12351608276367, "learning_rate": 1.4951111111111112e-05, "loss": 0.5918, "step": 568 }, { "epoch": 0.7586666666666667, "grad_norm": 1.933473825454712, "learning_rate": 1.4942222222222222e-05, "loss": 0.0289, "step": 569 }, { "epoch": 0.76, "grad_norm": 18.67357063293457, "learning_rate": 1.4933333333333335e-05, "loss": 0.2769, "step": 570 }, { "epoch": 0.7613333333333333, "grad_norm": 12.466032028198242, "learning_rate": 1.4924444444444446e-05, "loss": 0.2401, "step": 571 }, { "epoch": 0.7626666666666667, "grad_norm": 17.986351013183594, "learning_rate": 1.4915555555555556e-05, "loss": 0.4597, "step": 572 }, { "epoch": 0.764, "grad_norm": 1.631819486618042, "learning_rate": 1.4906666666666667e-05, "loss": 0.0228, "step": 573 }, { "epoch": 0.7653333333333333, "grad_norm": 7.692989349365234, "learning_rate": 1.489777777777778e-05, "loss": 0.4544, "step": 574 }, { "epoch": 0.7666666666666667, "grad_norm": 195.19027709960938, "learning_rate": 1.488888888888889e-05, "loss": 0.0663, "step": 575 }, { "epoch": 0.768, "grad_norm": 105.00302124023438, "learning_rate": 1.4880000000000002e-05, "loss": 0.3391, "step": 576 }, { "epoch": 0.7693333333333333, "grad_norm": 31.891664505004883, "learning_rate": 1.4871111111111111e-05, "loss": 0.191, "step": 577 }, { "epoch": 0.7706666666666667, "grad_norm": 4.34639835357666, "learning_rate": 1.4862222222222223e-05, "loss": 0.0267, "step": 578 }, { "epoch": 0.772, "grad_norm": 268.2490539550781, "learning_rate": 1.4853333333333336e-05, "loss": 0.5903, "step": 579 }, { "epoch": 0.7733333333333333, "grad_norm": 10.594819068908691, "learning_rate": 1.4844444444444445e-05, "loss": 0.3271, "step": 580 }, { "epoch": 0.7746666666666666, "grad_norm": 3.189711809158325, "learning_rate": 1.4835555555555557e-05, "loss": 0.0439, "step": 581 }, { "epoch": 0.776, "grad_norm": 2.304900884628296, "learning_rate": 1.4826666666666666e-05, "loss": 0.0541, "step": 582 }, { "epoch": 0.7773333333333333, "grad_norm": 201.5353240966797, "learning_rate": 1.481777777777778e-05, "loss": 0.2644, "step": 583 }, { "epoch": 0.7786666666666666, "grad_norm": 30.733774185180664, "learning_rate": 1.4808888888888891e-05, "loss": 0.0595, "step": 584 }, { "epoch": 0.78, "grad_norm": 34.6660270690918, "learning_rate": 1.48e-05, "loss": 0.4677, "step": 585 }, { "epoch": 0.7813333333333333, "grad_norm": 4.181580543518066, "learning_rate": 1.4791111111111112e-05, "loss": 0.1315, "step": 586 }, { "epoch": 0.7826666666666666, "grad_norm": 1.2800259590148926, "learning_rate": 1.4782222222222225e-05, "loss": 0.0229, "step": 587 }, { "epoch": 0.784, "grad_norm": 24.08536148071289, "learning_rate": 1.4773333333333335e-05, "loss": 0.7003, "step": 588 }, { "epoch": 0.7853333333333333, "grad_norm": 2.638282537460327, "learning_rate": 1.4764444444444446e-05, "loss": 0.0139, "step": 589 }, { "epoch": 0.7866666666666666, "grad_norm": 0.8761337995529175, "learning_rate": 1.4755555555555556e-05, "loss": 0.0122, "step": 590 }, { "epoch": 0.788, "grad_norm": 0.3712925314903259, "learning_rate": 1.4746666666666667e-05, "loss": 0.0083, "step": 591 }, { "epoch": 0.7893333333333333, "grad_norm": 26.60057258605957, "learning_rate": 1.473777777777778e-05, "loss": 0.3055, "step": 592 }, { "epoch": 0.7906666666666666, "grad_norm": 21.553802490234375, "learning_rate": 1.472888888888889e-05, "loss": 0.0939, "step": 593 }, { "epoch": 0.792, "grad_norm": 7.633984565734863, "learning_rate": 1.4720000000000001e-05, "loss": 0.1372, "step": 594 }, { "epoch": 0.7933333333333333, "grad_norm": 7.709981441497803, "learning_rate": 1.4711111111111111e-05, "loss": 0.4164, "step": 595 }, { "epoch": 0.7946666666666666, "grad_norm": 0.2574272155761719, "learning_rate": 1.4702222222222224e-05, "loss": 0.005, "step": 596 }, { "epoch": 0.796, "grad_norm": 7.406916618347168, "learning_rate": 1.4693333333333336e-05, "loss": 0.4153, "step": 597 }, { "epoch": 0.7973333333333333, "grad_norm": 8.549392700195312, "learning_rate": 1.4684444444444445e-05, "loss": 0.1372, "step": 598 }, { "epoch": 0.7986666666666666, "grad_norm": 5.977468967437744, "learning_rate": 1.4675555555555557e-05, "loss": 0.1337, "step": 599 }, { "epoch": 0.8, "grad_norm": 0.23972530663013458, "learning_rate": 1.4666666666666666e-05, "loss": 0.0042, "step": 600 }, { "epoch": 0.8013333333333333, "grad_norm": 9.198740005493164, "learning_rate": 1.465777777777778e-05, "loss": 0.4097, "step": 601 }, { "epoch": 0.8026666666666666, "grad_norm": 4.692670822143555, "learning_rate": 1.464888888888889e-05, "loss": 0.0764, "step": 602 }, { "epoch": 0.804, "grad_norm": 67.2090072631836, "learning_rate": 1.464e-05, "loss": 0.4757, "step": 603 }, { "epoch": 0.8053333333333333, "grad_norm": 2.1489129066467285, "learning_rate": 1.4631111111111112e-05, "loss": 0.0307, "step": 604 }, { "epoch": 0.8066666666666666, "grad_norm": 0.2775600254535675, "learning_rate": 1.4622222222222225e-05, "loss": 0.0037, "step": 605 }, { "epoch": 0.808, "grad_norm": 8.754255294799805, "learning_rate": 1.4613333333333335e-05, "loss": 0.0291, "step": 606 }, { "epoch": 0.8093333333333333, "grad_norm": 25.030412673950195, "learning_rate": 1.4604444444444446e-05, "loss": 0.5705, "step": 607 }, { "epoch": 0.8106666666666666, "grad_norm": 126.87890625, "learning_rate": 1.4595555555555556e-05, "loss": 0.0298, "step": 608 }, { "epoch": 0.812, "grad_norm": 7.466097354888916, "learning_rate": 1.4586666666666667e-05, "loss": 0.4935, "step": 609 }, { "epoch": 0.8133333333333334, "grad_norm": 0.39378899335861206, "learning_rate": 1.457777777777778e-05, "loss": 0.004, "step": 610 }, { "epoch": 0.8146666666666667, "grad_norm": 143.76158142089844, "learning_rate": 1.456888888888889e-05, "loss": 0.3528, "step": 611 }, { "epoch": 0.816, "grad_norm": 134.15032958984375, "learning_rate": 1.4560000000000001e-05, "loss": 0.6809, "step": 612 }, { "epoch": 0.8173333333333334, "grad_norm": 10.220468521118164, "learning_rate": 1.4551111111111111e-05, "loss": 0.0936, "step": 613 }, { "epoch": 0.8186666666666667, "grad_norm": 23.48536491394043, "learning_rate": 1.4542222222222224e-05, "loss": 0.3548, "step": 614 }, { "epoch": 0.82, "grad_norm": 12.261889457702637, "learning_rate": 1.4533333333333335e-05, "loss": 0.2362, "step": 615 }, { "epoch": 0.8213333333333334, "grad_norm": 24.66901206970215, "learning_rate": 1.4524444444444445e-05, "loss": 0.5179, "step": 616 }, { "epoch": 0.8226666666666667, "grad_norm": 16.926904678344727, "learning_rate": 1.4515555555555556e-05, "loss": 0.3197, "step": 617 }, { "epoch": 0.824, "grad_norm": 13.385184288024902, "learning_rate": 1.450666666666667e-05, "loss": 0.0922, "step": 618 }, { "epoch": 0.8253333333333334, "grad_norm": 57.45046615600586, "learning_rate": 1.449777777777778e-05, "loss": 0.442, "step": 619 }, { "epoch": 0.8266666666666667, "grad_norm": 7.121749401092529, "learning_rate": 1.448888888888889e-05, "loss": 0.0118, "step": 620 }, { "epoch": 0.828, "grad_norm": 5.478396415710449, "learning_rate": 1.448e-05, "loss": 0.0732, "step": 621 }, { "epoch": 0.8293333333333334, "grad_norm": 10.309385299682617, "learning_rate": 1.4471111111111112e-05, "loss": 0.0934, "step": 622 }, { "epoch": 0.8306666666666667, "grad_norm": 12.518217086791992, "learning_rate": 1.4462222222222225e-05, "loss": 0.0717, "step": 623 }, { "epoch": 0.832, "grad_norm": 1.8621327877044678, "learning_rate": 1.4453333333333334e-05, "loss": 0.0193, "step": 624 }, { "epoch": 0.8333333333333334, "grad_norm": 12.550138473510742, "learning_rate": 1.4444444444444446e-05, "loss": 0.2917, "step": 625 }, { "epoch": 0.8346666666666667, "grad_norm": 38.43443298339844, "learning_rate": 1.4435555555555556e-05, "loss": 0.1387, "step": 626 }, { "epoch": 0.836, "grad_norm": 1.4778586626052856, "learning_rate": 1.4426666666666669e-05, "loss": 0.0109, "step": 627 }, { "epoch": 0.8373333333333334, "grad_norm": 0.8024053573608398, "learning_rate": 1.441777777777778e-05, "loss": 0.0114, "step": 628 }, { "epoch": 0.8386666666666667, "grad_norm": 33.1444206237793, "learning_rate": 1.440888888888889e-05, "loss": 0.8442, "step": 629 }, { "epoch": 0.84, "grad_norm": 9.499881744384766, "learning_rate": 1.4400000000000001e-05, "loss": 0.7325, "step": 630 }, { "epoch": 0.8413333333333334, "grad_norm": 15.393890380859375, "learning_rate": 1.439111111111111e-05, "loss": 0.0582, "step": 631 }, { "epoch": 0.8426666666666667, "grad_norm": 27.567861557006836, "learning_rate": 1.4382222222222224e-05, "loss": 0.2942, "step": 632 }, { "epoch": 0.844, "grad_norm": 32.60098648071289, "learning_rate": 1.4373333333333335e-05, "loss": 0.1987, "step": 633 }, { "epoch": 0.8453333333333334, "grad_norm": 15.415559768676758, "learning_rate": 1.4364444444444445e-05, "loss": 0.0773, "step": 634 }, { "epoch": 0.8466666666666667, "grad_norm": 7.764647006988525, "learning_rate": 1.4355555555555556e-05, "loss": 0.0096, "step": 635 }, { "epoch": 0.848, "grad_norm": 30.226110458374023, "learning_rate": 1.434666666666667e-05, "loss": 0.1447, "step": 636 }, { "epoch": 0.8493333333333334, "grad_norm": 23.151321411132812, "learning_rate": 1.4337777777777779e-05, "loss": 0.2854, "step": 637 }, { "epoch": 0.8506666666666667, "grad_norm": 1.633979082107544, "learning_rate": 1.432888888888889e-05, "loss": 0.0053, "step": 638 }, { "epoch": 0.852, "grad_norm": 18.048336029052734, "learning_rate": 1.432e-05, "loss": 0.1183, "step": 639 }, { "epoch": 0.8533333333333334, "grad_norm": 6.508684158325195, "learning_rate": 1.4311111111111111e-05, "loss": 0.344, "step": 640 }, { "epoch": 0.8546666666666667, "grad_norm": 0.3348619341850281, "learning_rate": 1.4302222222222225e-05, "loss": 0.0062, "step": 641 }, { "epoch": 0.856, "grad_norm": 18.507034301757812, "learning_rate": 1.4293333333333334e-05, "loss": 0.0288, "step": 642 }, { "epoch": 0.8573333333333333, "grad_norm": 0.7478644847869873, "learning_rate": 1.4284444444444446e-05, "loss": 0.0112, "step": 643 }, { "epoch": 0.8586666666666667, "grad_norm": 7.950412273406982, "learning_rate": 1.4275555555555555e-05, "loss": 0.0436, "step": 644 }, { "epoch": 0.86, "grad_norm": 0.4940491020679474, "learning_rate": 1.4266666666666668e-05, "loss": 0.0079, "step": 645 }, { "epoch": 0.8613333333333333, "grad_norm": 10.13092041015625, "learning_rate": 1.425777777777778e-05, "loss": 0.5285, "step": 646 }, { "epoch": 0.8626666666666667, "grad_norm": 23.632478713989258, "learning_rate": 1.424888888888889e-05, "loss": 0.5921, "step": 647 }, { "epoch": 0.864, "grad_norm": 56.903564453125, "learning_rate": 1.4240000000000001e-05, "loss": 0.3602, "step": 648 }, { "epoch": 0.8653333333333333, "grad_norm": 18.035160064697266, "learning_rate": 1.4231111111111114e-05, "loss": 0.1687, "step": 649 }, { "epoch": 0.8666666666666667, "grad_norm": 6.601646423339844, "learning_rate": 1.4222222222222224e-05, "loss": 0.4454, "step": 650 }, { "epoch": 0.868, "grad_norm": 3.116445779800415, "learning_rate": 1.4213333333333335e-05, "loss": 0.0209, "step": 651 }, { "epoch": 0.8693333333333333, "grad_norm": 118.74122619628906, "learning_rate": 1.4204444444444445e-05, "loss": 0.3045, "step": 652 }, { "epoch": 0.8706666666666667, "grad_norm": 2.370626211166382, "learning_rate": 1.4195555555555556e-05, "loss": 0.0201, "step": 653 }, { "epoch": 0.872, "grad_norm": 19.292724609375, "learning_rate": 1.418666666666667e-05, "loss": 0.3257, "step": 654 }, { "epoch": 0.8733333333333333, "grad_norm": 173.11138916015625, "learning_rate": 1.4177777777777779e-05, "loss": 0.1839, "step": 655 }, { "epoch": 0.8746666666666667, "grad_norm": 35.89756393432617, "learning_rate": 1.416888888888889e-05, "loss": 0.6123, "step": 656 }, { "epoch": 0.876, "grad_norm": 0.6465488076210022, "learning_rate": 1.416e-05, "loss": 0.01, "step": 657 }, { "epoch": 0.8773333333333333, "grad_norm": 43.133426666259766, "learning_rate": 1.4151111111111113e-05, "loss": 0.1062, "step": 658 }, { "epoch": 0.8786666666666667, "grad_norm": 24.65461540222168, "learning_rate": 1.4142222222222224e-05, "loss": 0.2138, "step": 659 }, { "epoch": 0.88, "grad_norm": 35.20946502685547, "learning_rate": 1.4133333333333334e-05, "loss": 0.0783, "step": 660 }, { "epoch": 0.8813333333333333, "grad_norm": 30.163761138916016, "learning_rate": 1.4124444444444445e-05, "loss": 0.4074, "step": 661 }, { "epoch": 0.8826666666666667, "grad_norm": 0.3964151442050934, "learning_rate": 1.4115555555555555e-05, "loss": 0.005, "step": 662 }, { "epoch": 0.884, "grad_norm": 23.621362686157227, "learning_rate": 1.4106666666666668e-05, "loss": 0.1986, "step": 663 }, { "epoch": 0.8853333333333333, "grad_norm": 149.72171020507812, "learning_rate": 1.409777777777778e-05, "loss": 0.2421, "step": 664 }, { "epoch": 0.8866666666666667, "grad_norm": 10.025938987731934, "learning_rate": 1.408888888888889e-05, "loss": 0.3462, "step": 665 }, { "epoch": 0.888, "grad_norm": 27.56491470336914, "learning_rate": 1.408e-05, "loss": 0.0386, "step": 666 }, { "epoch": 0.8893333333333333, "grad_norm": 636.2874145507812, "learning_rate": 1.4071111111111114e-05, "loss": 0.1498, "step": 667 }, { "epoch": 0.8906666666666667, "grad_norm": 1.1810599565505981, "learning_rate": 1.4062222222222223e-05, "loss": 0.011, "step": 668 }, { "epoch": 0.892, "grad_norm": 37.325931549072266, "learning_rate": 1.4053333333333335e-05, "loss": 0.078, "step": 669 }, { "epoch": 0.8933333333333333, "grad_norm": 70.01134490966797, "learning_rate": 1.4044444444444445e-05, "loss": 0.1558, "step": 670 }, { "epoch": 0.8946666666666667, "grad_norm": 83.56266021728516, "learning_rate": 1.4035555555555556e-05, "loss": 0.9207, "step": 671 }, { "epoch": 0.896, "grad_norm": 0.8822095990180969, "learning_rate": 1.4026666666666669e-05, "loss": 0.0097, "step": 672 }, { "epoch": 0.8973333333333333, "grad_norm": 174.066650390625, "learning_rate": 1.4017777777777779e-05, "loss": 0.7328, "step": 673 }, { "epoch": 0.8986666666666666, "grad_norm": 20.079992294311523, "learning_rate": 1.400888888888889e-05, "loss": 0.1633, "step": 674 }, { "epoch": 0.9, "grad_norm": 40.04283905029297, "learning_rate": 1.4e-05, "loss": 0.304, "step": 675 }, { "epoch": 0.9013333333333333, "grad_norm": 95.69343566894531, "learning_rate": 1.3991111111111113e-05, "loss": 0.1475, "step": 676 }, { "epoch": 0.9026666666666666, "grad_norm": 0.2900297939777374, "learning_rate": 1.3982222222222224e-05, "loss": 0.0036, "step": 677 }, { "epoch": 0.904, "grad_norm": 36.137916564941406, "learning_rate": 1.3973333333333334e-05, "loss": 0.5857, "step": 678 }, { "epoch": 0.9053333333333333, "grad_norm": 67.86377716064453, "learning_rate": 1.3964444444444445e-05, "loss": 0.3878, "step": 679 }, { "epoch": 0.9066666666666666, "grad_norm": 1.3393468856811523, "learning_rate": 1.3955555555555558e-05, "loss": 0.0087, "step": 680 }, { "epoch": 0.908, "grad_norm": 50.98375701904297, "learning_rate": 1.3946666666666668e-05, "loss": 0.7813, "step": 681 }, { "epoch": 0.9093333333333333, "grad_norm": 24.97650146484375, "learning_rate": 1.393777777777778e-05, "loss": 0.1692, "step": 682 }, { "epoch": 0.9106666666666666, "grad_norm": 31.256669998168945, "learning_rate": 1.392888888888889e-05, "loss": 0.2205, "step": 683 }, { "epoch": 0.912, "grad_norm": 0.6565353274345398, "learning_rate": 1.392e-05, "loss": 0.0036, "step": 684 }, { "epoch": 0.9133333333333333, "grad_norm": 0.2643939256668091, "learning_rate": 1.3911111111111114e-05, "loss": 0.0025, "step": 685 }, { "epoch": 0.9146666666666666, "grad_norm": 16.961984634399414, "learning_rate": 1.3902222222222223e-05, "loss": 0.0251, "step": 686 }, { "epoch": 0.916, "grad_norm": 17.22585678100586, "learning_rate": 1.3893333333333335e-05, "loss": 0.3696, "step": 687 }, { "epoch": 0.9173333333333333, "grad_norm": 4.090214252471924, "learning_rate": 1.3884444444444444e-05, "loss": 0.0195, "step": 688 }, { "epoch": 0.9186666666666666, "grad_norm": 127.1395034790039, "learning_rate": 1.3875555555555557e-05, "loss": 0.4954, "step": 689 }, { "epoch": 0.92, "grad_norm": 3.8261067867279053, "learning_rate": 1.3866666666666669e-05, "loss": 0.0183, "step": 690 }, { "epoch": 0.9213333333333333, "grad_norm": 25.026809692382812, "learning_rate": 1.3857777777777779e-05, "loss": 0.4342, "step": 691 }, { "epoch": 0.9226666666666666, "grad_norm": 18.404979705810547, "learning_rate": 1.384888888888889e-05, "loss": 0.5552, "step": 692 }, { "epoch": 0.924, "grad_norm": 6.9787139892578125, "learning_rate": 1.384e-05, "loss": 0.0185, "step": 693 }, { "epoch": 0.9253333333333333, "grad_norm": 1.4521383047103882, "learning_rate": 1.3831111111111113e-05, "loss": 0.0028, "step": 694 }, { "epoch": 0.9266666666666666, "grad_norm": 73.410400390625, "learning_rate": 1.3822222222222224e-05, "loss": 0.3271, "step": 695 }, { "epoch": 0.928, "grad_norm": 17.47388458251953, "learning_rate": 1.3813333333333334e-05, "loss": 0.5127, "step": 696 }, { "epoch": 0.9293333333333333, "grad_norm": 1.6573940515518188, "learning_rate": 1.3804444444444445e-05, "loss": 0.0055, "step": 697 }, { "epoch": 0.9306666666666666, "grad_norm": 35.203224182128906, "learning_rate": 1.3795555555555558e-05, "loss": 0.0271, "step": 698 }, { "epoch": 0.932, "grad_norm": 25.617536544799805, "learning_rate": 1.3786666666666668e-05, "loss": 0.1143, "step": 699 }, { "epoch": 0.9333333333333333, "grad_norm": 12.24096965789795, "learning_rate": 1.377777777777778e-05, "loss": 0.0111, "step": 700 }, { "epoch": 0.9346666666666666, "grad_norm": 25.50994110107422, "learning_rate": 1.3768888888888889e-05, "loss": 0.0096, "step": 701 }, { "epoch": 0.936, "grad_norm": 143.40684509277344, "learning_rate": 1.376e-05, "loss": 0.3342, "step": 702 }, { "epoch": 0.9373333333333334, "grad_norm": 14.626077651977539, "learning_rate": 1.3751111111111113e-05, "loss": 0.9422, "step": 703 }, { "epoch": 0.9386666666666666, "grad_norm": 10.534880638122559, "learning_rate": 1.3742222222222223e-05, "loss": 0.0429, "step": 704 }, { "epoch": 0.94, "grad_norm": 0.29387494921684265, "learning_rate": 1.3733333333333335e-05, "loss": 0.0041, "step": 705 }, { "epoch": 0.9413333333333334, "grad_norm": 6.872982025146484, "learning_rate": 1.3724444444444444e-05, "loss": 0.0391, "step": 706 }, { "epoch": 0.9426666666666667, "grad_norm": 6.712430953979492, "learning_rate": 1.3715555555555557e-05, "loss": 0.0229, "step": 707 }, { "epoch": 0.944, "grad_norm": 18.711732864379883, "learning_rate": 1.3706666666666669e-05, "loss": 0.4872, "step": 708 }, { "epoch": 0.9453333333333334, "grad_norm": 105.72051239013672, "learning_rate": 1.3697777777777778e-05, "loss": 0.1312, "step": 709 }, { "epoch": 0.9466666666666667, "grad_norm": 65.53568267822266, "learning_rate": 1.368888888888889e-05, "loss": 0.5901, "step": 710 }, { "epoch": 0.948, "grad_norm": 73.6441650390625, "learning_rate": 1.3680000000000003e-05, "loss": 0.5972, "step": 711 }, { "epoch": 0.9493333333333334, "grad_norm": 0.5898783206939697, "learning_rate": 1.3671111111111113e-05, "loss": 0.007, "step": 712 }, { "epoch": 0.9506666666666667, "grad_norm": 47.6138916015625, "learning_rate": 1.3662222222222224e-05, "loss": 0.5103, "step": 713 }, { "epoch": 0.952, "grad_norm": 0.5217769742012024, "learning_rate": 1.3653333333333334e-05, "loss": 0.0078, "step": 714 }, { "epoch": 0.9533333333333334, "grad_norm": 33.95098114013672, "learning_rate": 1.3644444444444445e-05, "loss": 0.2849, "step": 715 }, { "epoch": 0.9546666666666667, "grad_norm": 14.006319999694824, "learning_rate": 1.3635555555555558e-05, "loss": 0.8321, "step": 716 }, { "epoch": 0.956, "grad_norm": 0.16549982130527496, "learning_rate": 1.3626666666666668e-05, "loss": 0.0037, "step": 717 }, { "epoch": 0.9573333333333334, "grad_norm": 23.815263748168945, "learning_rate": 1.361777777777778e-05, "loss": 0.3162, "step": 718 }, { "epoch": 0.9586666666666667, "grad_norm": 7.512960910797119, "learning_rate": 1.3608888888888889e-05, "loss": 0.0415, "step": 719 }, { "epoch": 0.96, "grad_norm": 4.769608497619629, "learning_rate": 1.3600000000000002e-05, "loss": 0.0151, "step": 720 }, { "epoch": 0.9613333333333334, "grad_norm": 1.0321413278579712, "learning_rate": 1.3591111111111113e-05, "loss": 0.0075, "step": 721 }, { "epoch": 0.9626666666666667, "grad_norm": 37.12084197998047, "learning_rate": 1.3582222222222223e-05, "loss": 0.1606, "step": 722 }, { "epoch": 0.964, "grad_norm": 47.215087890625, "learning_rate": 1.3573333333333334e-05, "loss": 0.7428, "step": 723 }, { "epoch": 0.9653333333333334, "grad_norm": 70.62277221679688, "learning_rate": 1.3564444444444444e-05, "loss": 0.3467, "step": 724 }, { "epoch": 0.9666666666666667, "grad_norm": 6.499557018280029, "learning_rate": 1.3555555555555557e-05, "loss": 0.0326, "step": 725 }, { "epoch": 0.968, "grad_norm": 54.95820999145508, "learning_rate": 1.3546666666666669e-05, "loss": 0.3965, "step": 726 }, { "epoch": 0.9693333333333334, "grad_norm": 0.20337001979351044, "learning_rate": 1.3537777777777778e-05, "loss": 0.0043, "step": 727 }, { "epoch": 0.9706666666666667, "grad_norm": 4.6722307205200195, "learning_rate": 1.352888888888889e-05, "loss": 0.0103, "step": 728 }, { "epoch": 0.972, "grad_norm": 7.788360118865967, "learning_rate": 1.3520000000000003e-05, "loss": 0.5042, "step": 729 }, { "epoch": 0.9733333333333334, "grad_norm": 52.938663482666016, "learning_rate": 1.3511111111111112e-05, "loss": 0.0738, "step": 730 }, { "epoch": 0.9746666666666667, "grad_norm": 39.24916076660156, "learning_rate": 1.3502222222222224e-05, "loss": 0.3102, "step": 731 }, { "epoch": 0.976, "grad_norm": 23.674108505249023, "learning_rate": 1.3493333333333333e-05, "loss": 0.2696, "step": 732 }, { "epoch": 0.9773333333333334, "grad_norm": 5.811005115509033, "learning_rate": 1.3484444444444445e-05, "loss": 0.4753, "step": 733 }, { "epoch": 0.9786666666666667, "grad_norm": 8.476629257202148, "learning_rate": 1.3475555555555558e-05, "loss": 0.0326, "step": 734 }, { "epoch": 0.98, "grad_norm": 1.6852353811264038, "learning_rate": 1.3466666666666668e-05, "loss": 0.016, "step": 735 }, { "epoch": 0.9813333333333333, "grad_norm": 11.485468864440918, "learning_rate": 1.3457777777777779e-05, "loss": 0.0259, "step": 736 }, { "epoch": 0.9826666666666667, "grad_norm": 6.595991611480713, "learning_rate": 1.3448888888888889e-05, "loss": 0.4633, "step": 737 }, { "epoch": 0.984, "grad_norm": 14.869954109191895, "learning_rate": 1.3440000000000002e-05, "loss": 0.4617, "step": 738 }, { "epoch": 0.9853333333333333, "grad_norm": 7.625372886657715, "learning_rate": 1.3431111111111113e-05, "loss": 0.0273, "step": 739 }, { "epoch": 0.9866666666666667, "grad_norm": 164.1210479736328, "learning_rate": 1.3422222222222223e-05, "loss": 0.2741, "step": 740 }, { "epoch": 0.988, "grad_norm": 17.344690322875977, "learning_rate": 1.3413333333333334e-05, "loss": 0.3976, "step": 741 }, { "epoch": 0.9893333333333333, "grad_norm": 125.66578674316406, "learning_rate": 1.3404444444444447e-05, "loss": 0.6106, "step": 742 }, { "epoch": 0.9906666666666667, "grad_norm": 31.312238693237305, "learning_rate": 1.3395555555555557e-05, "loss": 0.4355, "step": 743 }, { "epoch": 0.992, "grad_norm": 62.93149185180664, "learning_rate": 1.3386666666666668e-05, "loss": 0.4577, "step": 744 }, { "epoch": 0.9933333333333333, "grad_norm": 24.452299118041992, "learning_rate": 1.3377777777777778e-05, "loss": 0.1201, "step": 745 }, { "epoch": 0.9946666666666667, "grad_norm": 5.4809184074401855, "learning_rate": 1.336888888888889e-05, "loss": 0.3438, "step": 746 }, { "epoch": 0.996, "grad_norm": 258.2469787597656, "learning_rate": 1.3360000000000003e-05, "loss": 0.176, "step": 747 }, { "epoch": 0.9973333333333333, "grad_norm": 16.465011596679688, "learning_rate": 1.3351111111111112e-05, "loss": 0.3134, "step": 748 }, { "epoch": 0.9986666666666667, "grad_norm": 1.7587103843688965, "learning_rate": 1.3342222222222224e-05, "loss": 0.0356, "step": 749 }, { "epoch": 1.0, "grad_norm": 1.1261321306228638, "learning_rate": 1.3333333333333333e-05, "loss": 0.0239, "step": 750 }, { "epoch": 1.0, "eval_accuracy": 0.904846598488217, "eval_loss": 0.28887197375297546, "eval_runtime": 26.9664, "eval_samples_per_second": 83.4, "eval_steps_per_second": 2.633, "step": 750 }, { "epoch": 1.0013333333333334, "grad_norm": 27.586259841918945, "learning_rate": 1.3324444444444446e-05, "loss": 0.3364, "step": 751 }, { "epoch": 1.0026666666666666, "grad_norm": 17.20166015625, "learning_rate": 1.3315555555555558e-05, "loss": 0.611, "step": 752 }, { "epoch": 1.004, "grad_norm": 226.0165557861328, "learning_rate": 1.3306666666666667e-05, "loss": 0.1405, "step": 753 }, { "epoch": 1.0053333333333334, "grad_norm": 1.760454535484314, "learning_rate": 1.3297777777777779e-05, "loss": 0.0228, "step": 754 }, { "epoch": 1.0066666666666666, "grad_norm": 7.992147445678711, "learning_rate": 1.3288888888888889e-05, "loss": 0.3244, "step": 755 }, { "epoch": 1.008, "grad_norm": 15.441391944885254, "learning_rate": 1.3280000000000002e-05, "loss": 0.2427, "step": 756 }, { "epoch": 1.0093333333333334, "grad_norm": 40.13923263549805, "learning_rate": 1.3271111111111113e-05, "loss": 0.4277, "step": 757 }, { "epoch": 1.0106666666666666, "grad_norm": 736.183837890625, "learning_rate": 1.3262222222222223e-05, "loss": 0.1555, "step": 758 }, { "epoch": 1.012, "grad_norm": 60.84284591674805, "learning_rate": 1.3253333333333334e-05, "loss": 0.7378, "step": 759 }, { "epoch": 1.0133333333333334, "grad_norm": 121.41837310791016, "learning_rate": 1.3244444444444447e-05, "loss": 0.2704, "step": 760 }, { "epoch": 1.0146666666666666, "grad_norm": 1.4436596632003784, "learning_rate": 1.3235555555555557e-05, "loss": 0.0192, "step": 761 }, { "epoch": 1.016, "grad_norm": 47.147212982177734, "learning_rate": 1.3226666666666668e-05, "loss": 0.6038, "step": 762 }, { "epoch": 1.0173333333333334, "grad_norm": 55.193904876708984, "learning_rate": 1.3217777777777778e-05, "loss": 0.4551, "step": 763 }, { "epoch": 1.0186666666666666, "grad_norm": 56.34294128417969, "learning_rate": 1.320888888888889e-05, "loss": 0.448, "step": 764 }, { "epoch": 1.02, "grad_norm": 119.21453857421875, "learning_rate": 1.3200000000000002e-05, "loss": 0.1817, "step": 765 }, { "epoch": 1.0213333333333334, "grad_norm": 1.1165677309036255, "learning_rate": 1.3191111111111112e-05, "loss": 0.018, "step": 766 }, { "epoch": 1.0226666666666666, "grad_norm": 18.053470611572266, "learning_rate": 1.3182222222222223e-05, "loss": 0.0448, "step": 767 }, { "epoch": 1.024, "grad_norm": 13.568665504455566, "learning_rate": 1.3173333333333333e-05, "loss": 0.0827, "step": 768 }, { "epoch": 1.0253333333333334, "grad_norm": 5.251883029937744, "learning_rate": 1.3164444444444446e-05, "loss": 0.0168, "step": 769 }, { "epoch": 1.0266666666666666, "grad_norm": 1.9971121549606323, "learning_rate": 1.3155555555555558e-05, "loss": 0.0096, "step": 770 }, { "epoch": 1.028, "grad_norm": 0.86379474401474, "learning_rate": 1.3146666666666667e-05, "loss": 0.0122, "step": 771 }, { "epoch": 1.0293333333333334, "grad_norm": 8.765575408935547, "learning_rate": 1.3137777777777779e-05, "loss": 0.358, "step": 772 }, { "epoch": 1.0306666666666666, "grad_norm": 49.42302703857422, "learning_rate": 1.3128888888888892e-05, "loss": 0.433, "step": 773 }, { "epoch": 1.032, "grad_norm": 0.342842161655426, "learning_rate": 1.3120000000000001e-05, "loss": 0.0066, "step": 774 }, { "epoch": 1.0333333333333334, "grad_norm": 34.168487548828125, "learning_rate": 1.3111111111111113e-05, "loss": 0.2098, "step": 775 }, { "epoch": 1.0346666666666666, "grad_norm": 0.7996595501899719, "learning_rate": 1.3102222222222223e-05, "loss": 0.0087, "step": 776 }, { "epoch": 1.036, "grad_norm": 2.569247245788574, "learning_rate": 1.3093333333333334e-05, "loss": 0.0117, "step": 777 }, { "epoch": 1.0373333333333334, "grad_norm": 1.2888752222061157, "learning_rate": 1.3084444444444447e-05, "loss": 0.0043, "step": 778 }, { "epoch": 1.0386666666666666, "grad_norm": 148.22377014160156, "learning_rate": 1.3075555555555557e-05, "loss": 0.2264, "step": 779 }, { "epoch": 1.04, "grad_norm": 25.763715744018555, "learning_rate": 1.3066666666666668e-05, "loss": 0.4641, "step": 780 }, { "epoch": 1.0413333333333332, "grad_norm": 7.064035892486572, "learning_rate": 1.3057777777777778e-05, "loss": 0.016, "step": 781 }, { "epoch": 1.0426666666666666, "grad_norm": 43.18195343017578, "learning_rate": 1.304888888888889e-05, "loss": 0.2659, "step": 782 }, { "epoch": 1.044, "grad_norm": 37.13945770263672, "learning_rate": 1.3040000000000002e-05, "loss": 0.4031, "step": 783 }, { "epoch": 1.0453333333333332, "grad_norm": 5.505980491638184, "learning_rate": 1.3031111111111112e-05, "loss": 0.0151, "step": 784 }, { "epoch": 1.0466666666666666, "grad_norm": 2.462235450744629, "learning_rate": 1.3022222222222223e-05, "loss": 0.0115, "step": 785 }, { "epoch": 1.048, "grad_norm": 0.2651556134223938, "learning_rate": 1.3013333333333333e-05, "loss": 0.0029, "step": 786 }, { "epoch": 1.0493333333333332, "grad_norm": 20.15157699584961, "learning_rate": 1.3004444444444446e-05, "loss": 0.4606, "step": 787 }, { "epoch": 1.0506666666666666, "grad_norm": 16.805007934570312, "learning_rate": 1.2995555555555557e-05, "loss": 0.0093, "step": 788 }, { "epoch": 1.052, "grad_norm": 49.0029296875, "learning_rate": 1.2986666666666667e-05, "loss": 0.5551, "step": 789 }, { "epoch": 1.0533333333333332, "grad_norm": 3.09700608253479, "learning_rate": 1.2977777777777779e-05, "loss": 0.0112, "step": 790 }, { "epoch": 1.0546666666666666, "grad_norm": 0.3791140615940094, "learning_rate": 1.2968888888888892e-05, "loss": 0.0034, "step": 791 }, { "epoch": 1.056, "grad_norm": 117.6129379272461, "learning_rate": 1.2960000000000001e-05, "loss": 1.7288, "step": 792 }, { "epoch": 1.0573333333333332, "grad_norm": 221.93267822265625, "learning_rate": 1.2951111111111113e-05, "loss": 0.1407, "step": 793 }, { "epoch": 1.0586666666666666, "grad_norm": 55.06201171875, "learning_rate": 1.2942222222222222e-05, "loss": 0.329, "step": 794 }, { "epoch": 1.06, "grad_norm": 11.678918838500977, "learning_rate": 1.2933333333333334e-05, "loss": 0.0158, "step": 795 }, { "epoch": 1.0613333333333332, "grad_norm": 0.2170952707529068, "learning_rate": 1.2924444444444447e-05, "loss": 0.0024, "step": 796 }, { "epoch": 1.0626666666666666, "grad_norm": 0.17647413909435272, "learning_rate": 1.2915555555555557e-05, "loss": 0.003, "step": 797 }, { "epoch": 1.064, "grad_norm": 2.979579210281372, "learning_rate": 1.2906666666666668e-05, "loss": 0.0074, "step": 798 }, { "epoch": 1.0653333333333332, "grad_norm": 0.11164411902427673, "learning_rate": 1.2897777777777778e-05, "loss": 0.0022, "step": 799 }, { "epoch": 1.0666666666666667, "grad_norm": 0.127725288271904, "learning_rate": 1.288888888888889e-05, "loss": 0.0021, "step": 800 }, { "epoch": 1.068, "grad_norm": 1.5642305612564087, "learning_rate": 1.2880000000000002e-05, "loss": 0.0036, "step": 801 }, { "epoch": 1.0693333333333332, "grad_norm": 24.924209594726562, "learning_rate": 1.2871111111111112e-05, "loss": 0.042, "step": 802 }, { "epoch": 1.0706666666666667, "grad_norm": 0.12092596292495728, "learning_rate": 1.2862222222222223e-05, "loss": 0.0021, "step": 803 }, { "epoch": 1.072, "grad_norm": 1.0227552652359009, "learning_rate": 1.2853333333333336e-05, "loss": 0.0029, "step": 804 }, { "epoch": 1.0733333333333333, "grad_norm": 34.25923538208008, "learning_rate": 1.2844444444444446e-05, "loss": 0.0896, "step": 805 }, { "epoch": 1.0746666666666667, "grad_norm": 96.62979125976562, "learning_rate": 1.2835555555555557e-05, "loss": 0.6089, "step": 806 }, { "epoch": 1.076, "grad_norm": 38.05104446411133, "learning_rate": 1.2826666666666667e-05, "loss": 0.4133, "step": 807 }, { "epoch": 1.0773333333333333, "grad_norm": 1.4345643520355225, "learning_rate": 1.2817777777777778e-05, "loss": 0.0038, "step": 808 }, { "epoch": 1.0786666666666667, "grad_norm": 0.053676433861255646, "learning_rate": 1.2808888888888891e-05, "loss": 0.0015, "step": 809 }, { "epoch": 1.08, "grad_norm": 96.8714599609375, "learning_rate": 1.2800000000000001e-05, "loss": 1.3294, "step": 810 }, { "epoch": 1.0813333333333333, "grad_norm": 0.07187049835920334, "learning_rate": 1.2791111111111112e-05, "loss": 0.0017, "step": 811 }, { "epoch": 1.0826666666666667, "grad_norm": 14.80344295501709, "learning_rate": 1.2782222222222222e-05, "loss": 0.0165, "step": 812 }, { "epoch": 1.084, "grad_norm": 3.4597558975219727, "learning_rate": 1.2773333333333335e-05, "loss": 0.0076, "step": 813 }, { "epoch": 1.0853333333333333, "grad_norm": 700.4561157226562, "learning_rate": 1.2764444444444447e-05, "loss": 0.2888, "step": 814 }, { "epoch": 1.0866666666666667, "grad_norm": 0.08150532841682434, "learning_rate": 1.2755555555555556e-05, "loss": 0.0017, "step": 815 }, { "epoch": 1.088, "grad_norm": 101.07064819335938, "learning_rate": 1.2746666666666668e-05, "loss": 0.793, "step": 816 }, { "epoch": 1.0893333333333333, "grad_norm": 79.26262664794922, "learning_rate": 1.2737777777777777e-05, "loss": 1.0043, "step": 817 }, { "epoch": 1.0906666666666667, "grad_norm": 1.4211872816085815, "learning_rate": 1.272888888888889e-05, "loss": 0.0032, "step": 818 }, { "epoch": 1.092, "grad_norm": 453.25897216796875, "learning_rate": 1.2720000000000002e-05, "loss": 0.1466, "step": 819 }, { "epoch": 1.0933333333333333, "grad_norm": 1.5293344259262085, "learning_rate": 1.2711111111111112e-05, "loss": 0.0033, "step": 820 }, { "epoch": 1.0946666666666667, "grad_norm": 52.81258773803711, "learning_rate": 1.2702222222222223e-05, "loss": 0.7177, "step": 821 }, { "epoch": 1.096, "grad_norm": 0.20062361657619476, "learning_rate": 1.2693333333333336e-05, "loss": 0.002, "step": 822 }, { "epoch": 1.0973333333333333, "grad_norm": 0.40297842025756836, "learning_rate": 1.2684444444444446e-05, "loss": 0.0015, "step": 823 }, { "epoch": 1.0986666666666667, "grad_norm": 0.19320163130760193, "learning_rate": 1.2675555555555557e-05, "loss": 0.0019, "step": 824 }, { "epoch": 1.1, "grad_norm": 26.835094451904297, "learning_rate": 1.2666666666666667e-05, "loss": 0.4955, "step": 825 }, { "epoch": 1.1013333333333333, "grad_norm": 171.86520385742188, "learning_rate": 1.2657777777777778e-05, "loss": 0.4986, "step": 826 }, { "epoch": 1.1026666666666667, "grad_norm": 0.062163546681404114, "learning_rate": 1.2648888888888891e-05, "loss": 0.0014, "step": 827 }, { "epoch": 1.104, "grad_norm": 0.08295907080173492, "learning_rate": 1.2640000000000001e-05, "loss": 0.0014, "step": 828 }, { "epoch": 1.1053333333333333, "grad_norm": 140.89132690429688, "learning_rate": 1.2631111111111112e-05, "loss": 0.3092, "step": 829 }, { "epoch": 1.1066666666666667, "grad_norm": 134.7340087890625, "learning_rate": 1.2622222222222222e-05, "loss": 0.0797, "step": 830 }, { "epoch": 1.108, "grad_norm": 0.08058121800422668, "learning_rate": 1.2613333333333335e-05, "loss": 0.0012, "step": 831 }, { "epoch": 1.1093333333333333, "grad_norm": 135.03155517578125, "learning_rate": 1.2604444444444446e-05, "loss": 1.1038, "step": 832 }, { "epoch": 1.1106666666666667, "grad_norm": 0.12343065440654755, "learning_rate": 1.2595555555555556e-05, "loss": 0.0014, "step": 833 }, { "epoch": 1.112, "grad_norm": 1.4600228071212769, "learning_rate": 1.2586666666666668e-05, "loss": 0.0024, "step": 834 }, { "epoch": 1.1133333333333333, "grad_norm": 20.80870246887207, "learning_rate": 1.257777777777778e-05, "loss": 0.9738, "step": 835 }, { "epoch": 1.1146666666666667, "grad_norm": 82.81521606445312, "learning_rate": 1.256888888888889e-05, "loss": 0.1791, "step": 836 }, { "epoch": 1.116, "grad_norm": 49.21027374267578, "learning_rate": 1.2560000000000002e-05, "loss": 0.0736, "step": 837 }, { "epoch": 1.1173333333333333, "grad_norm": 7.727200984954834, "learning_rate": 1.2551111111111111e-05, "loss": 0.0129, "step": 838 }, { "epoch": 1.1186666666666667, "grad_norm": 39.5984001159668, "learning_rate": 1.2542222222222223e-05, "loss": 0.4686, "step": 839 }, { "epoch": 1.12, "grad_norm": 3.5434956550598145, "learning_rate": 1.2533333333333336e-05, "loss": 0.575, "step": 840 }, { "epoch": 1.1213333333333333, "grad_norm": 5.994466781616211, "learning_rate": 1.2524444444444446e-05, "loss": 0.5574, "step": 841 }, { "epoch": 1.1226666666666667, "grad_norm": 0.913675844669342, "learning_rate": 1.2515555555555557e-05, "loss": 0.0038, "step": 842 }, { "epoch": 1.124, "grad_norm": 0.5497124791145325, "learning_rate": 1.2506666666666667e-05, "loss": 0.0021, "step": 843 }, { "epoch": 1.1253333333333333, "grad_norm": 182.46014404296875, "learning_rate": 1.249777777777778e-05, "loss": 0.6174, "step": 844 }, { "epoch": 1.1266666666666667, "grad_norm": 6.25128698348999, "learning_rate": 1.2488888888888891e-05, "loss": 0.5011, "step": 845 }, { "epoch": 1.1280000000000001, "grad_norm": 17.34930419921875, "learning_rate": 1.248e-05, "loss": 0.474, "step": 846 }, { "epoch": 1.1293333333333333, "grad_norm": 24.189481735229492, "learning_rate": 1.2471111111111112e-05, "loss": 0.7739, "step": 847 }, { "epoch": 1.1306666666666667, "grad_norm": 30.252674102783203, "learning_rate": 1.2462222222222222e-05, "loss": 0.4029, "step": 848 }, { "epoch": 1.1320000000000001, "grad_norm": 0.5519030690193176, "learning_rate": 1.2453333333333335e-05, "loss": 0.0081, "step": 849 }, { "epoch": 1.1333333333333333, "grad_norm": 15.290019989013672, "learning_rate": 1.2444444444444446e-05, "loss": 0.0577, "step": 850 }, { "epoch": 1.1346666666666667, "grad_norm": 0.6529953479766846, "learning_rate": 1.2435555555555556e-05, "loss": 0.0099, "step": 851 }, { "epoch": 1.1360000000000001, "grad_norm": 16.313291549682617, "learning_rate": 1.2426666666666667e-05, "loss": 0.2651, "step": 852 }, { "epoch": 1.1373333333333333, "grad_norm": 0.7528375387191772, "learning_rate": 1.241777777777778e-05, "loss": 0.0106, "step": 853 }, { "epoch": 1.1386666666666667, "grad_norm": 0.7328863143920898, "learning_rate": 1.240888888888889e-05, "loss": 0.0111, "step": 854 }, { "epoch": 1.1400000000000001, "grad_norm": 0.2663259506225586, "learning_rate": 1.2400000000000002e-05, "loss": 0.0038, "step": 855 }, { "epoch": 1.1413333333333333, "grad_norm": 7.513643741607666, "learning_rate": 1.2391111111111111e-05, "loss": 0.036, "step": 856 }, { "epoch": 1.1426666666666667, "grad_norm": 41.81425857543945, "learning_rate": 1.2382222222222223e-05, "loss": 0.4298, "step": 857 }, { "epoch": 1.144, "grad_norm": 45.59193801879883, "learning_rate": 1.2373333333333336e-05, "loss": 0.354, "step": 858 }, { "epoch": 1.1453333333333333, "grad_norm": 64.54571533203125, "learning_rate": 1.2364444444444445e-05, "loss": 0.0884, "step": 859 }, { "epoch": 1.1466666666666667, "grad_norm": 0.4215911626815796, "learning_rate": 1.2355555555555557e-05, "loss": 0.0058, "step": 860 }, { "epoch": 1.148, "grad_norm": 0.5809759497642517, "learning_rate": 1.2346666666666666e-05, "loss": 0.006, "step": 861 }, { "epoch": 1.1493333333333333, "grad_norm": 0.33577969670295715, "learning_rate": 1.233777777777778e-05, "loss": 0.0044, "step": 862 }, { "epoch": 1.1506666666666667, "grad_norm": 12.825361251831055, "learning_rate": 1.2328888888888891e-05, "loss": 0.5172, "step": 863 }, { "epoch": 1.152, "grad_norm": 2.0829153060913086, "learning_rate": 1.232e-05, "loss": 0.0142, "step": 864 }, { "epoch": 1.1533333333333333, "grad_norm": 193.0457305908203, "learning_rate": 1.2311111111111112e-05, "loss": 0.4961, "step": 865 }, { "epoch": 1.1546666666666667, "grad_norm": 11.269798278808594, "learning_rate": 1.2302222222222225e-05, "loss": 0.4096, "step": 866 }, { "epoch": 1.156, "grad_norm": 0.5155045986175537, "learning_rate": 1.2293333333333335e-05, "loss": 0.005, "step": 867 }, { "epoch": 1.1573333333333333, "grad_norm": 12.284307479858398, "learning_rate": 1.2284444444444446e-05, "loss": 0.6147, "step": 868 }, { "epoch": 1.1586666666666667, "grad_norm": 18.633132934570312, "learning_rate": 1.2275555555555556e-05, "loss": 0.5362, "step": 869 }, { "epoch": 1.16, "grad_norm": 0.18201844394207, "learning_rate": 1.2266666666666667e-05, "loss": 0.0029, "step": 870 }, { "epoch": 1.1613333333333333, "grad_norm": 41.96181869506836, "learning_rate": 1.225777777777778e-05, "loss": 0.7109, "step": 871 }, { "epoch": 1.1626666666666667, "grad_norm": 0.15295831859111786, "learning_rate": 1.224888888888889e-05, "loss": 0.0031, "step": 872 }, { "epoch": 1.164, "grad_norm": 0.26740360260009766, "learning_rate": 1.2240000000000001e-05, "loss": 0.0029, "step": 873 }, { "epoch": 1.1653333333333333, "grad_norm": 0.7902565598487854, "learning_rate": 1.2231111111111111e-05, "loss": 0.0044, "step": 874 }, { "epoch": 1.1666666666666667, "grad_norm": 35.6673583984375, "learning_rate": 1.2222222222222224e-05, "loss": 0.4477, "step": 875 }, { "epoch": 1.168, "grad_norm": 0.08016163110733032, "learning_rate": 1.2213333333333336e-05, "loss": 0.0022, "step": 876 }, { "epoch": 1.1693333333333333, "grad_norm": 0.1301957368850708, "learning_rate": 1.2204444444444445e-05, "loss": 0.0027, "step": 877 }, { "epoch": 1.1706666666666667, "grad_norm": 84.76673889160156, "learning_rate": 1.2195555555555557e-05, "loss": 0.515, "step": 878 }, { "epoch": 1.172, "grad_norm": 20.881052017211914, "learning_rate": 1.2186666666666666e-05, "loss": 0.5052, "step": 879 }, { "epoch": 1.1733333333333333, "grad_norm": 28.483245849609375, "learning_rate": 1.217777777777778e-05, "loss": 0.2576, "step": 880 }, { "epoch": 1.1746666666666667, "grad_norm": 0.10363554954528809, "learning_rate": 1.216888888888889e-05, "loss": 0.0024, "step": 881 }, { "epoch": 1.176, "grad_norm": 0.12127348780632019, "learning_rate": 1.216e-05, "loss": 0.0029, "step": 882 }, { "epoch": 1.1773333333333333, "grad_norm": 3.900700092315674, "learning_rate": 1.2151111111111112e-05, "loss": 0.5431, "step": 883 }, { "epoch": 1.1786666666666668, "grad_norm": 0.07921244204044342, "learning_rate": 1.2142222222222225e-05, "loss": 0.0022, "step": 884 }, { "epoch": 1.18, "grad_norm": 0.2758810222148895, "learning_rate": 1.2133333333333335e-05, "loss": 0.0042, "step": 885 }, { "epoch": 1.1813333333333333, "grad_norm": 0.14938539266586304, "learning_rate": 1.2124444444444446e-05, "loss": 0.0029, "step": 886 }, { "epoch": 1.1826666666666668, "grad_norm": 92.51848602294922, "learning_rate": 1.2115555555555556e-05, "loss": 0.0353, "step": 887 }, { "epoch": 1.184, "grad_norm": 9.922256469726562, "learning_rate": 1.2106666666666667e-05, "loss": 0.0128, "step": 888 }, { "epoch": 1.1853333333333333, "grad_norm": 45.24642562866211, "learning_rate": 1.209777777777778e-05, "loss": 0.4618, "step": 889 }, { "epoch": 1.1866666666666668, "grad_norm": 0.2325056493282318, "learning_rate": 1.208888888888889e-05, "loss": 0.003, "step": 890 }, { "epoch": 1.188, "grad_norm": 0.2904539406299591, "learning_rate": 1.2080000000000001e-05, "loss": 0.0036, "step": 891 }, { "epoch": 1.1893333333333334, "grad_norm": 0.8002233505249023, "learning_rate": 1.2071111111111111e-05, "loss": 0.0034, "step": 892 }, { "epoch": 1.1906666666666668, "grad_norm": 23.455820083618164, "learning_rate": 1.2062222222222224e-05, "loss": 0.3988, "step": 893 }, { "epoch": 1.192, "grad_norm": 0.0952620804309845, "learning_rate": 1.2053333333333335e-05, "loss": 0.0024, "step": 894 }, { "epoch": 1.1933333333333334, "grad_norm": 20.559545516967773, "learning_rate": 1.2044444444444445e-05, "loss": 0.016, "step": 895 }, { "epoch": 1.1946666666666665, "grad_norm": 4.858412265777588, "learning_rate": 1.2035555555555556e-05, "loss": 0.5362, "step": 896 }, { "epoch": 1.196, "grad_norm": 18.93775749206543, "learning_rate": 1.202666666666667e-05, "loss": 0.3102, "step": 897 }, { "epoch": 1.1973333333333334, "grad_norm": 0.20715278387069702, "learning_rate": 1.201777777777778e-05, "loss": 0.0025, "step": 898 }, { "epoch": 1.1986666666666665, "grad_norm": 8.263291358947754, "learning_rate": 1.200888888888889e-05, "loss": 0.0095, "step": 899 }, { "epoch": 1.2, "grad_norm": 0.15967799723148346, "learning_rate": 1.2e-05, "loss": 0.0031, "step": 900 }, { "epoch": 1.2013333333333334, "grad_norm": 12.468239784240723, "learning_rate": 1.1991111111111112e-05, "loss": 0.4627, "step": 901 }, { "epoch": 1.2026666666666666, "grad_norm": 0.23650714755058289, "learning_rate": 1.1982222222222225e-05, "loss": 0.0042, "step": 902 }, { "epoch": 1.204, "grad_norm": 0.10377378761768341, "learning_rate": 1.1973333333333334e-05, "loss": 0.0027, "step": 903 }, { "epoch": 1.2053333333333334, "grad_norm": 0.14577721059322357, "learning_rate": 1.1964444444444446e-05, "loss": 0.0035, "step": 904 }, { "epoch": 1.2066666666666666, "grad_norm": 79.82862854003906, "learning_rate": 1.1955555555555556e-05, "loss": 0.3619, "step": 905 }, { "epoch": 1.208, "grad_norm": 0.16100451350212097, "learning_rate": 1.1946666666666669e-05, "loss": 0.0032, "step": 906 }, { "epoch": 1.2093333333333334, "grad_norm": 0.10858803987503052, "learning_rate": 1.193777777777778e-05, "loss": 0.0028, "step": 907 }, { "epoch": 1.2106666666666666, "grad_norm": 1.640223741531372, "learning_rate": 1.192888888888889e-05, "loss": 0.0065, "step": 908 }, { "epoch": 1.212, "grad_norm": 3.5480217933654785, "learning_rate": 1.1920000000000001e-05, "loss": 0.0051, "step": 909 }, { "epoch": 1.2133333333333334, "grad_norm": 31.298311233520508, "learning_rate": 1.191111111111111e-05, "loss": 0.3445, "step": 910 }, { "epoch": 1.2146666666666666, "grad_norm": 83.92938232421875, "learning_rate": 1.1902222222222224e-05, "loss": 0.5631, "step": 911 }, { "epoch": 1.216, "grad_norm": 0.1466776579618454, "learning_rate": 1.1893333333333335e-05, "loss": 0.0031, "step": 912 }, { "epoch": 1.2173333333333334, "grad_norm": 9.025130271911621, "learning_rate": 1.1884444444444445e-05, "loss": 0.4819, "step": 913 }, { "epoch": 1.2186666666666666, "grad_norm": 20.17824935913086, "learning_rate": 1.1875555555555556e-05, "loss": 0.2918, "step": 914 }, { "epoch": 1.22, "grad_norm": 0.1393057405948639, "learning_rate": 1.186666666666667e-05, "loss": 0.0027, "step": 915 }, { "epoch": 1.2213333333333334, "grad_norm": 1.765773057937622, "learning_rate": 1.1857777777777779e-05, "loss": 0.005, "step": 916 }, { "epoch": 1.2226666666666666, "grad_norm": 16.329025268554688, "learning_rate": 1.184888888888889e-05, "loss": 0.4116, "step": 917 }, { "epoch": 1.224, "grad_norm": 21.189285278320312, "learning_rate": 1.184e-05, "loss": 0.3532, "step": 918 }, { "epoch": 1.2253333333333334, "grad_norm": 3.216411590576172, "learning_rate": 1.1831111111111112e-05, "loss": 0.0046, "step": 919 }, { "epoch": 1.2266666666666666, "grad_norm": 0.19620104134082794, "learning_rate": 1.1822222222222225e-05, "loss": 0.0037, "step": 920 }, { "epoch": 1.228, "grad_norm": 0.48292961716651917, "learning_rate": 1.1813333333333334e-05, "loss": 0.0046, "step": 921 }, { "epoch": 1.2293333333333334, "grad_norm": 29.918201446533203, "learning_rate": 1.1804444444444446e-05, "loss": 0.3111, "step": 922 }, { "epoch": 1.2306666666666666, "grad_norm": 0.17015571892261505, "learning_rate": 1.1795555555555555e-05, "loss": 0.0033, "step": 923 }, { "epoch": 1.232, "grad_norm": 0.9593067169189453, "learning_rate": 1.1786666666666668e-05, "loss": 0.0061, "step": 924 }, { "epoch": 1.2333333333333334, "grad_norm": 0.13157722353935242, "learning_rate": 1.177777777777778e-05, "loss": 0.0028, "step": 925 }, { "epoch": 1.2346666666666666, "grad_norm": 1.6399060487747192, "learning_rate": 1.176888888888889e-05, "loss": 0.0046, "step": 926 }, { "epoch": 1.236, "grad_norm": 137.57984924316406, "learning_rate": 1.1760000000000001e-05, "loss": 0.5043, "step": 927 }, { "epoch": 1.2373333333333334, "grad_norm": 11.29311466217041, "learning_rate": 1.1751111111111112e-05, "loss": 0.4658, "step": 928 }, { "epoch": 1.2386666666666666, "grad_norm": 5.140443325042725, "learning_rate": 1.1742222222222224e-05, "loss": 0.505, "step": 929 }, { "epoch": 1.24, "grad_norm": 0.2025599628686905, "learning_rate": 1.1733333333333335e-05, "loss": 0.003, "step": 930 }, { "epoch": 1.2413333333333334, "grad_norm": 40.2384147644043, "learning_rate": 1.1724444444444445e-05, "loss": 0.3934, "step": 931 }, { "epoch": 1.2426666666666666, "grad_norm": 58.11953353881836, "learning_rate": 1.1715555555555556e-05, "loss": 0.0403, "step": 932 }, { "epoch": 1.244, "grad_norm": 6.105989933013916, "learning_rate": 1.170666666666667e-05, "loss": 0.5154, "step": 933 }, { "epoch": 1.2453333333333334, "grad_norm": 0.9199371933937073, "learning_rate": 1.1697777777777779e-05, "loss": 0.006, "step": 934 }, { "epoch": 1.2466666666666666, "grad_norm": 1.2838635444641113, "learning_rate": 1.168888888888889e-05, "loss": 0.0082, "step": 935 }, { "epoch": 1.248, "grad_norm": 22.795225143432617, "learning_rate": 1.168e-05, "loss": 0.3632, "step": 936 }, { "epoch": 1.2493333333333334, "grad_norm": 14.74439811706543, "learning_rate": 1.1671111111111113e-05, "loss": 0.3315, "step": 937 }, { "epoch": 1.2506666666666666, "grad_norm": 118.87178802490234, "learning_rate": 1.1662222222222224e-05, "loss": 0.6016, "step": 938 }, { "epoch": 1.252, "grad_norm": 8.751676559448242, "learning_rate": 1.1653333333333334e-05, "loss": 0.4587, "step": 939 }, { "epoch": 1.2533333333333334, "grad_norm": 3.969007730484009, "learning_rate": 1.1644444444444446e-05, "loss": 0.0088, "step": 940 }, { "epoch": 1.2546666666666666, "grad_norm": 0.3607846200466156, "learning_rate": 1.1635555555555555e-05, "loss": 0.0048, "step": 941 }, { "epoch": 1.256, "grad_norm": 0.4155414402484894, "learning_rate": 1.1626666666666668e-05, "loss": 0.0055, "step": 942 }, { "epoch": 1.2573333333333334, "grad_norm": 0.6266899108886719, "learning_rate": 1.161777777777778e-05, "loss": 0.0073, "step": 943 }, { "epoch": 1.2586666666666666, "grad_norm": 0.5248187184333801, "learning_rate": 1.160888888888889e-05, "loss": 0.0069, "step": 944 }, { "epoch": 1.26, "grad_norm": 1.0109491348266602, "learning_rate": 1.16e-05, "loss": 0.0045, "step": 945 }, { "epoch": 1.2613333333333334, "grad_norm": 8.226187705993652, "learning_rate": 1.1591111111111114e-05, "loss": 0.0136, "step": 946 }, { "epoch": 1.2626666666666666, "grad_norm": 1.3889366388320923, "learning_rate": 1.1582222222222224e-05, "loss": 0.0098, "step": 947 }, { "epoch": 1.264, "grad_norm": 82.0073471069336, "learning_rate": 1.1573333333333335e-05, "loss": 0.0194, "step": 948 }, { "epoch": 1.2653333333333334, "grad_norm": 11.125330924987793, "learning_rate": 1.1564444444444445e-05, "loss": 0.0047, "step": 949 }, { "epoch": 1.2666666666666666, "grad_norm": 0.4823436141014099, "learning_rate": 1.1555555555555556e-05, "loss": 0.0048, "step": 950 }, { "epoch": 1.268, "grad_norm": 45.379638671875, "learning_rate": 1.1546666666666669e-05, "loss": 0.6432, "step": 951 }, { "epoch": 1.2693333333333334, "grad_norm": 26.949378967285156, "learning_rate": 1.1537777777777779e-05, "loss": 0.2687, "step": 952 }, { "epoch": 1.2706666666666666, "grad_norm": 0.3253675103187561, "learning_rate": 1.152888888888889e-05, "loss": 0.0048, "step": 953 }, { "epoch": 1.272, "grad_norm": 28.58254051208496, "learning_rate": 1.152e-05, "loss": 0.4162, "step": 954 }, { "epoch": 1.2733333333333334, "grad_norm": 5.473392009735107, "learning_rate": 1.1511111111111113e-05, "loss": 0.0054, "step": 955 }, { "epoch": 1.2746666666666666, "grad_norm": 0.4049687087535858, "learning_rate": 1.1502222222222224e-05, "loss": 0.003, "step": 956 }, { "epoch": 1.276, "grad_norm": 12.284566879272461, "learning_rate": 1.1493333333333334e-05, "loss": 0.9907, "step": 957 }, { "epoch": 1.2773333333333334, "grad_norm": 28.280475616455078, "learning_rate": 1.1484444444444445e-05, "loss": 1.2906, "step": 958 }, { "epoch": 1.2786666666666666, "grad_norm": 0.15694104135036469, "learning_rate": 1.1475555555555557e-05, "loss": 0.003, "step": 959 }, { "epoch": 1.28, "grad_norm": 125.3262939453125, "learning_rate": 1.1466666666666668e-05, "loss": 0.1059, "step": 960 }, { "epoch": 1.2813333333333334, "grad_norm": 1.7037324905395508, "learning_rate": 1.145777777777778e-05, "loss": 0.005, "step": 961 }, { "epoch": 1.2826666666666666, "grad_norm": 34.69887924194336, "learning_rate": 1.144888888888889e-05, "loss": 0.8149, "step": 962 }, { "epoch": 1.284, "grad_norm": 68.41641235351562, "learning_rate": 1.144e-05, "loss": 0.259, "step": 963 }, { "epoch": 1.2853333333333334, "grad_norm": 17.679241180419922, "learning_rate": 1.1431111111111114e-05, "loss": 0.89, "step": 964 }, { "epoch": 1.2866666666666666, "grad_norm": 0.44580599665641785, "learning_rate": 1.1422222222222223e-05, "loss": 0.003, "step": 965 }, { "epoch": 1.288, "grad_norm": 2.4933066368103027, "learning_rate": 1.1413333333333335e-05, "loss": 0.0068, "step": 966 }, { "epoch": 1.2893333333333334, "grad_norm": 109.09564208984375, "learning_rate": 1.1404444444444444e-05, "loss": 0.7981, "step": 967 }, { "epoch": 1.2906666666666666, "grad_norm": 0.216598778963089, "learning_rate": 1.1395555555555558e-05, "loss": 0.0032, "step": 968 }, { "epoch": 1.292, "grad_norm": 1.6283466815948486, "learning_rate": 1.1386666666666669e-05, "loss": 0.0085, "step": 969 }, { "epoch": 1.2933333333333334, "grad_norm": 0.14359629154205322, "learning_rate": 1.1377777777777779e-05, "loss": 0.0031, "step": 970 }, { "epoch": 1.2946666666666666, "grad_norm": 8.637922286987305, "learning_rate": 1.136888888888889e-05, "loss": 0.0466, "step": 971 }, { "epoch": 1.296, "grad_norm": 11.157002449035645, "learning_rate": 1.136e-05, "loss": 0.056, "step": 972 }, { "epoch": 1.2973333333333334, "grad_norm": 7.2839508056640625, "learning_rate": 1.1351111111111113e-05, "loss": 0.0093, "step": 973 }, { "epoch": 1.2986666666666666, "grad_norm": 20.36553382873535, "learning_rate": 1.1342222222222224e-05, "loss": 0.3563, "step": 974 }, { "epoch": 1.3, "grad_norm": 0.09845487773418427, "learning_rate": 1.1333333333333334e-05, "loss": 0.0025, "step": 975 }, { "epoch": 1.3013333333333335, "grad_norm": 7.82648229598999, "learning_rate": 1.1324444444444445e-05, "loss": 0.0089, "step": 976 }, { "epoch": 1.3026666666666666, "grad_norm": 18.02204132080078, "learning_rate": 1.1315555555555557e-05, "loss": 0.3675, "step": 977 }, { "epoch": 1.304, "grad_norm": 160.16041564941406, "learning_rate": 1.1306666666666668e-05, "loss": 0.0404, "step": 978 }, { "epoch": 1.3053333333333335, "grad_norm": 2.9476184844970703, "learning_rate": 1.129777777777778e-05, "loss": 0.0081, "step": 979 }, { "epoch": 1.3066666666666666, "grad_norm": 53.64346694946289, "learning_rate": 1.1288888888888889e-05, "loss": 0.1896, "step": 980 }, { "epoch": 1.308, "grad_norm": 30.197551727294922, "learning_rate": 1.128e-05, "loss": 0.6301, "step": 981 }, { "epoch": 1.3093333333333335, "grad_norm": 0.9788207411766052, "learning_rate": 1.1271111111111113e-05, "loss": 0.012, "step": 982 }, { "epoch": 1.3106666666666666, "grad_norm": 0.47784310579299927, "learning_rate": 1.1262222222222223e-05, "loss": 0.0064, "step": 983 }, { "epoch": 1.312, "grad_norm": 56.818809509277344, "learning_rate": 1.1253333333333335e-05, "loss": 0.3145, "step": 984 }, { "epoch": 1.3133333333333335, "grad_norm": 0.17256160080432892, "learning_rate": 1.1244444444444444e-05, "loss": 0.0033, "step": 985 }, { "epoch": 1.3146666666666667, "grad_norm": 0.5721084475517273, "learning_rate": 1.1235555555555557e-05, "loss": 0.0038, "step": 986 }, { "epoch": 1.316, "grad_norm": 25.935848236083984, "learning_rate": 1.1226666666666669e-05, "loss": 0.3047, "step": 987 }, { "epoch": 1.3173333333333335, "grad_norm": 31.875411987304688, "learning_rate": 1.1217777777777778e-05, "loss": 0.3474, "step": 988 }, { "epoch": 1.3186666666666667, "grad_norm": 2.268709421157837, "learning_rate": 1.120888888888889e-05, "loss": 0.007, "step": 989 }, { "epoch": 1.32, "grad_norm": 4.736310005187988, "learning_rate": 1.1200000000000001e-05, "loss": 0.5332, "step": 990 }, { "epoch": 1.3213333333333335, "grad_norm": 0.5186072587966919, "learning_rate": 1.1191111111111113e-05, "loss": 0.0049, "step": 991 }, { "epoch": 1.3226666666666667, "grad_norm": 0.9063280820846558, "learning_rate": 1.1182222222222224e-05, "loss": 0.0055, "step": 992 }, { "epoch": 1.324, "grad_norm": 10.004049301147461, "learning_rate": 1.1173333333333334e-05, "loss": 0.5001, "step": 993 }, { "epoch": 1.3253333333333333, "grad_norm": 0.10727064311504364, "learning_rate": 1.1164444444444445e-05, "loss": 0.0026, "step": 994 }, { "epoch": 1.3266666666666667, "grad_norm": 0.0779246836900711, "learning_rate": 1.1155555555555556e-05, "loss": 0.0023, "step": 995 }, { "epoch": 1.328, "grad_norm": 0.1362374871969223, "learning_rate": 1.1146666666666668e-05, "loss": 0.0031, "step": 996 }, { "epoch": 1.3293333333333333, "grad_norm": 0.1214473694562912, "learning_rate": 1.113777777777778e-05, "loss": 0.003, "step": 997 }, { "epoch": 1.3306666666666667, "grad_norm": 0.19001039862632751, "learning_rate": 1.1128888888888889e-05, "loss": 0.0031, "step": 998 }, { "epoch": 1.332, "grad_norm": 13.757452011108398, "learning_rate": 1.1120000000000002e-05, "loss": 0.3473, "step": 999 }, { "epoch": 1.3333333333333333, "grad_norm": 45.05511474609375, "learning_rate": 1.1111111111111113e-05, "loss": 0.2901, "step": 1000 }, { "epoch": 1.3346666666666667, "grad_norm": 15.986353874206543, "learning_rate": 1.1102222222222223e-05, "loss": 0.9144, "step": 1001 }, { "epoch": 1.336, "grad_norm": 208.5457763671875, "learning_rate": 1.1093333333333334e-05, "loss": 0.5198, "step": 1002 }, { "epoch": 1.3373333333333333, "grad_norm": 1.682790994644165, "learning_rate": 1.1084444444444444e-05, "loss": 0.0066, "step": 1003 }, { "epoch": 1.3386666666666667, "grad_norm": 559.8340454101562, "learning_rate": 1.1075555555555557e-05, "loss": 0.1847, "step": 1004 }, { "epoch": 1.34, "grad_norm": 19.687036514282227, "learning_rate": 1.1066666666666669e-05, "loss": 0.3462, "step": 1005 }, { "epoch": 1.3413333333333333, "grad_norm": 35.04238510131836, "learning_rate": 1.1057777777777778e-05, "loss": 0.0196, "step": 1006 }, { "epoch": 1.3426666666666667, "grad_norm": 15.6327486038208, "learning_rate": 1.104888888888889e-05, "loss": 0.4656, "step": 1007 }, { "epoch": 1.3439999999999999, "grad_norm": 0.1875307708978653, "learning_rate": 1.1040000000000001e-05, "loss": 0.0037, "step": 1008 }, { "epoch": 1.3453333333333333, "grad_norm": 25.909387588500977, "learning_rate": 1.1031111111111112e-05, "loss": 0.3833, "step": 1009 }, { "epoch": 1.3466666666666667, "grad_norm": 0.467212051153183, "learning_rate": 1.1022222222222224e-05, "loss": 0.007, "step": 1010 }, { "epoch": 1.3479999999999999, "grad_norm": 3.0302629470825195, "learning_rate": 1.1013333333333333e-05, "loss": 0.0062, "step": 1011 }, { "epoch": 1.3493333333333333, "grad_norm": 179.12498474121094, "learning_rate": 1.1004444444444445e-05, "loss": 0.0608, "step": 1012 }, { "epoch": 1.3506666666666667, "grad_norm": 0.25609830021858215, "learning_rate": 1.0995555555555556e-05, "loss": 0.0044, "step": 1013 }, { "epoch": 1.3519999999999999, "grad_norm": 37.782615661621094, "learning_rate": 1.0986666666666668e-05, "loss": 1.2477, "step": 1014 }, { "epoch": 1.3533333333333333, "grad_norm": 0.5754727125167847, "learning_rate": 1.0977777777777779e-05, "loss": 0.0064, "step": 1015 }, { "epoch": 1.3546666666666667, "grad_norm": 1.6934483051300049, "learning_rate": 1.0968888888888889e-05, "loss": 0.0083, "step": 1016 }, { "epoch": 1.3559999999999999, "grad_norm": 46.205413818359375, "learning_rate": 1.0960000000000002e-05, "loss": 0.2697, "step": 1017 }, { "epoch": 1.3573333333333333, "grad_norm": 12.102858543395996, "learning_rate": 1.0951111111111113e-05, "loss": 0.4314, "step": 1018 }, { "epoch": 1.3586666666666667, "grad_norm": 72.37397766113281, "learning_rate": 1.0942222222222223e-05, "loss": 0.7672, "step": 1019 }, { "epoch": 1.3599999999999999, "grad_norm": 0.19211329519748688, "learning_rate": 1.0933333333333334e-05, "loss": 0.0031, "step": 1020 }, { "epoch": 1.3613333333333333, "grad_norm": 29.372970581054688, "learning_rate": 1.0924444444444446e-05, "loss": 0.7679, "step": 1021 }, { "epoch": 1.3626666666666667, "grad_norm": 47.5743522644043, "learning_rate": 1.0915555555555557e-05, "loss": 0.0351, "step": 1022 }, { "epoch": 1.3639999999999999, "grad_norm": 0.17210566997528076, "learning_rate": 1.0906666666666668e-05, "loss": 0.0038, "step": 1023 }, { "epoch": 1.3653333333333333, "grad_norm": 31.828094482421875, "learning_rate": 1.0897777777777778e-05, "loss": 0.64, "step": 1024 }, { "epoch": 1.3666666666666667, "grad_norm": 1.0670193433761597, "learning_rate": 1.088888888888889e-05, "loss": 0.0057, "step": 1025 }, { "epoch": 1.3679999999999999, "grad_norm": 0.5194656252861023, "learning_rate": 1.0880000000000001e-05, "loss": 0.0061, "step": 1026 }, { "epoch": 1.3693333333333333, "grad_norm": 0.6150916814804077, "learning_rate": 1.0871111111111112e-05, "loss": 0.0044, "step": 1027 }, { "epoch": 1.3706666666666667, "grad_norm": 0.4025200307369232, "learning_rate": 1.0862222222222224e-05, "loss": 0.0034, "step": 1028 }, { "epoch": 1.3719999999999999, "grad_norm": 78.88444519042969, "learning_rate": 1.0853333333333333e-05, "loss": 0.5577, "step": 1029 }, { "epoch": 1.3733333333333333, "grad_norm": 0.36716604232788086, "learning_rate": 1.0844444444444446e-05, "loss": 0.0042, "step": 1030 }, { "epoch": 1.3746666666666667, "grad_norm": 24.414928436279297, "learning_rate": 1.0835555555555556e-05, "loss": 0.4569, "step": 1031 }, { "epoch": 1.376, "grad_norm": 15.043314933776855, "learning_rate": 1.0826666666666667e-05, "loss": 0.4252, "step": 1032 }, { "epoch": 1.3773333333333333, "grad_norm": 0.9665635824203491, "learning_rate": 1.0817777777777779e-05, "loss": 0.0102, "step": 1033 }, { "epoch": 1.3786666666666667, "grad_norm": 85.10862731933594, "learning_rate": 1.0808888888888889e-05, "loss": 0.4623, "step": 1034 }, { "epoch": 1.38, "grad_norm": 0.07986774295568466, "learning_rate": 1.0800000000000002e-05, "loss": 0.0021, "step": 1035 }, { "epoch": 1.3813333333333333, "grad_norm": 1.6344101428985596, "learning_rate": 1.0791111111111113e-05, "loss": 0.0056, "step": 1036 }, { "epoch": 1.3826666666666667, "grad_norm": 11.960233688354492, "learning_rate": 1.0782222222222223e-05, "loss": 0.3291, "step": 1037 }, { "epoch": 1.384, "grad_norm": 115.85118865966797, "learning_rate": 1.0773333333333334e-05, "loss": 0.6358, "step": 1038 }, { "epoch": 1.3853333333333333, "grad_norm": 11.307171821594238, "learning_rate": 1.0764444444444445e-05, "loss": 0.0057, "step": 1039 }, { "epoch": 1.3866666666666667, "grad_norm": 29.196582794189453, "learning_rate": 1.0755555555555557e-05, "loss": 0.3273, "step": 1040 }, { "epoch": 1.388, "grad_norm": 4.270632266998291, "learning_rate": 1.0746666666666668e-05, "loss": 0.5097, "step": 1041 }, { "epoch": 1.3893333333333333, "grad_norm": 0.5369338393211365, "learning_rate": 1.0737777777777778e-05, "loss": 0.0041, "step": 1042 }, { "epoch": 1.3906666666666667, "grad_norm": 53.553565979003906, "learning_rate": 1.072888888888889e-05, "loss": 0.3232, "step": 1043 }, { "epoch": 1.392, "grad_norm": 18.59355354309082, "learning_rate": 1.072e-05, "loss": 0.3795, "step": 1044 }, { "epoch": 1.3933333333333333, "grad_norm": 36.67383575439453, "learning_rate": 1.0711111111111112e-05, "loss": 0.35, "step": 1045 }, { "epoch": 1.3946666666666667, "grad_norm": 53.03459167480469, "learning_rate": 1.0702222222222223e-05, "loss": 0.5612, "step": 1046 }, { "epoch": 1.396, "grad_norm": 0.10832452774047852, "learning_rate": 1.0693333333333333e-05, "loss": 0.0026, "step": 1047 }, { "epoch": 1.3973333333333333, "grad_norm": 0.2469080537557602, "learning_rate": 1.0684444444444446e-05, "loss": 0.0035, "step": 1048 }, { "epoch": 1.3986666666666667, "grad_norm": 103.76860809326172, "learning_rate": 1.0675555555555558e-05, "loss": 0.4732, "step": 1049 }, { "epoch": 1.4, "grad_norm": 80.80223846435547, "learning_rate": 1.0666666666666667e-05, "loss": 0.225, "step": 1050 }, { "epoch": 1.4013333333333333, "grad_norm": 2.287863254547119, "learning_rate": 1.0657777777777779e-05, "loss": 0.0079, "step": 1051 }, { "epoch": 1.4026666666666667, "grad_norm": 1.9578336477279663, "learning_rate": 1.064888888888889e-05, "loss": 0.0071, "step": 1052 }, { "epoch": 1.404, "grad_norm": 36.453514099121094, "learning_rate": 1.0640000000000001e-05, "loss": 0.2202, "step": 1053 }, { "epoch": 1.4053333333333333, "grad_norm": 0.319528192281723, "learning_rate": 1.0631111111111113e-05, "loss": 0.004, "step": 1054 }, { "epoch": 1.4066666666666667, "grad_norm": 53.01961135864258, "learning_rate": 1.0622222222222223e-05, "loss": 0.1055, "step": 1055 }, { "epoch": 1.408, "grad_norm": 0.13486705720424652, "learning_rate": 1.0613333333333334e-05, "loss": 0.0031, "step": 1056 }, { "epoch": 1.4093333333333333, "grad_norm": 0.32953041791915894, "learning_rate": 1.0604444444444445e-05, "loss": 0.0036, "step": 1057 }, { "epoch": 1.4106666666666667, "grad_norm": 15.87716007232666, "learning_rate": 1.0595555555555557e-05, "loss": 0.4346, "step": 1058 }, { "epoch": 1.412, "grad_norm": 0.8685833215713501, "learning_rate": 1.0586666666666668e-05, "loss": 0.0052, "step": 1059 }, { "epoch": 1.4133333333333333, "grad_norm": 41.96293640136719, "learning_rate": 1.0577777777777778e-05, "loss": 0.5125, "step": 1060 }, { "epoch": 1.4146666666666667, "grad_norm": 0.5692912340164185, "learning_rate": 1.0568888888888891e-05, "loss": 0.0043, "step": 1061 }, { "epoch": 1.416, "grad_norm": 0.08257541060447693, "learning_rate": 1.056e-05, "loss": 0.0022, "step": 1062 }, { "epoch": 1.4173333333333333, "grad_norm": 4.80947732925415, "learning_rate": 1.0551111111111112e-05, "loss": 0.0107, "step": 1063 }, { "epoch": 1.4186666666666667, "grad_norm": 174.61288452148438, "learning_rate": 1.0542222222222223e-05, "loss": 0.6981, "step": 1064 }, { "epoch": 1.42, "grad_norm": 148.44122314453125, "learning_rate": 1.0533333333333333e-05, "loss": 0.2447, "step": 1065 }, { "epoch": 1.4213333333333333, "grad_norm": 43.43819046020508, "learning_rate": 1.0524444444444446e-05, "loss": 0.7442, "step": 1066 }, { "epoch": 1.4226666666666667, "grad_norm": 28.182193756103516, "learning_rate": 1.0515555555555557e-05, "loss": 0.347, "step": 1067 }, { "epoch": 1.424, "grad_norm": 0.11235974729061127, "learning_rate": 1.0506666666666667e-05, "loss": 0.0023, "step": 1068 }, { "epoch": 1.4253333333333333, "grad_norm": 6.5808820724487305, "learning_rate": 1.0497777777777779e-05, "loss": 0.0164, "step": 1069 }, { "epoch": 1.4266666666666667, "grad_norm": 0.1427670419216156, "learning_rate": 1.048888888888889e-05, "loss": 0.003, "step": 1070 }, { "epoch": 1.428, "grad_norm": 0.16648639738559723, "learning_rate": 1.0480000000000001e-05, "loss": 0.0023, "step": 1071 }, { "epoch": 1.4293333333333333, "grad_norm": 0.16597194969654083, "learning_rate": 1.0471111111111113e-05, "loss": 0.0027, "step": 1072 }, { "epoch": 1.4306666666666668, "grad_norm": 0.19746990501880646, "learning_rate": 1.0462222222222222e-05, "loss": 0.0025, "step": 1073 }, { "epoch": 1.432, "grad_norm": 7.8732476234436035, "learning_rate": 1.0453333333333334e-05, "loss": 0.0117, "step": 1074 }, { "epoch": 1.4333333333333333, "grad_norm": 2.6486756801605225, "learning_rate": 1.0444444444444445e-05, "loss": 0.0049, "step": 1075 }, { "epoch": 1.4346666666666668, "grad_norm": 0.11213681846857071, "learning_rate": 1.0435555555555557e-05, "loss": 0.0022, "step": 1076 }, { "epoch": 1.436, "grad_norm": 1.1678744554519653, "learning_rate": 1.0426666666666668e-05, "loss": 0.0054, "step": 1077 }, { "epoch": 1.4373333333333334, "grad_norm": 670.6453247070312, "learning_rate": 1.0417777777777778e-05, "loss": 0.0567, "step": 1078 }, { "epoch": 1.4386666666666668, "grad_norm": 0.1925370693206787, "learning_rate": 1.040888888888889e-05, "loss": 0.0019, "step": 1079 }, { "epoch": 1.44, "grad_norm": 0.06694521754980087, "learning_rate": 1.04e-05, "loss": 0.0017, "step": 1080 }, { "epoch": 1.4413333333333334, "grad_norm": 14.15124225616455, "learning_rate": 1.0391111111111112e-05, "loss": 0.0121, "step": 1081 }, { "epoch": 1.4426666666666668, "grad_norm": 276.757080078125, "learning_rate": 1.0382222222222223e-05, "loss": 0.0742, "step": 1082 }, { "epoch": 1.444, "grad_norm": 71.43821716308594, "learning_rate": 1.0373333333333335e-05, "loss": 0.3538, "step": 1083 }, { "epoch": 1.4453333333333334, "grad_norm": 0.08575307577848434, "learning_rate": 1.0364444444444446e-05, "loss": 0.0014, "step": 1084 }, { "epoch": 1.4466666666666668, "grad_norm": 0.27344760298728943, "learning_rate": 1.0355555555555557e-05, "loss": 0.0027, "step": 1085 }, { "epoch": 1.448, "grad_norm": 0.15349318087100983, "learning_rate": 1.0346666666666667e-05, "loss": 0.0018, "step": 1086 }, { "epoch": 1.4493333333333334, "grad_norm": 54.50678634643555, "learning_rate": 1.0337777777777778e-05, "loss": 0.2653, "step": 1087 }, { "epoch": 1.4506666666666668, "grad_norm": 33.06585693359375, "learning_rate": 1.032888888888889e-05, "loss": 0.3189, "step": 1088 }, { "epoch": 1.452, "grad_norm": 178.1517791748047, "learning_rate": 1.0320000000000001e-05, "loss": 0.3299, "step": 1089 }, { "epoch": 1.4533333333333334, "grad_norm": 0.6169297099113464, "learning_rate": 1.0311111111111113e-05, "loss": 0.004, "step": 1090 }, { "epoch": 1.4546666666666668, "grad_norm": 91.25619506835938, "learning_rate": 1.0302222222222222e-05, "loss": 0.0517, "step": 1091 }, { "epoch": 1.456, "grad_norm": 0.10870151966810226, "learning_rate": 1.0293333333333335e-05, "loss": 0.0017, "step": 1092 }, { "epoch": 1.4573333333333334, "grad_norm": 2.133047342300415, "learning_rate": 1.0284444444444445e-05, "loss": 0.0057, "step": 1093 }, { "epoch": 1.4586666666666668, "grad_norm": 47.87104415893555, "learning_rate": 1.0275555555555556e-05, "loss": 0.3508, "step": 1094 }, { "epoch": 1.46, "grad_norm": 24.64542007446289, "learning_rate": 1.0266666666666668e-05, "loss": 0.0132, "step": 1095 }, { "epoch": 1.4613333333333334, "grad_norm": 1513.9296875, "learning_rate": 1.0257777777777777e-05, "loss": 0.5643, "step": 1096 }, { "epoch": 1.4626666666666668, "grad_norm": 0.054696571081876755, "learning_rate": 1.024888888888889e-05, "loss": 0.0012, "step": 1097 }, { "epoch": 1.464, "grad_norm": 81.91468811035156, "learning_rate": 1.024e-05, "loss": 0.6442, "step": 1098 }, { "epoch": 1.4653333333333334, "grad_norm": 98.64302062988281, "learning_rate": 1.0231111111111112e-05, "loss": 0.0834, "step": 1099 }, { "epoch": 1.4666666666666668, "grad_norm": 103.47653198242188, "learning_rate": 1.0222222222222223e-05, "loss": 0.4408, "step": 1100 }, { "epoch": 1.468, "grad_norm": 0.1152467280626297, "learning_rate": 1.0213333333333334e-05, "loss": 0.0014, "step": 1101 }, { "epoch": 1.4693333333333334, "grad_norm": 20.122108459472656, "learning_rate": 1.0204444444444446e-05, "loss": 0.4366, "step": 1102 }, { "epoch": 1.4706666666666668, "grad_norm": 22.154659271240234, "learning_rate": 1.0195555555555557e-05, "loss": 1.5776, "step": 1103 }, { "epoch": 1.472, "grad_norm": 21.897808074951172, "learning_rate": 1.0186666666666667e-05, "loss": 1.0368, "step": 1104 }, { "epoch": 1.4733333333333334, "grad_norm": 0.050926513969898224, "learning_rate": 1.0177777777777778e-05, "loss": 0.0014, "step": 1105 }, { "epoch": 1.4746666666666668, "grad_norm": 9.63754940032959, "learning_rate": 1.016888888888889e-05, "loss": 0.005, "step": 1106 }, { "epoch": 1.476, "grad_norm": 0.11397027224302292, "learning_rate": 1.0160000000000001e-05, "loss": 0.0016, "step": 1107 }, { "epoch": 1.4773333333333334, "grad_norm": 38.685401916503906, "learning_rate": 1.0151111111111112e-05, "loss": 0.3492, "step": 1108 }, { "epoch": 1.4786666666666668, "grad_norm": 3.294534683227539, "learning_rate": 1.0142222222222222e-05, "loss": 0.0068, "step": 1109 }, { "epoch": 1.48, "grad_norm": 0.12291810661554337, "learning_rate": 1.0133333333333335e-05, "loss": 0.0018, "step": 1110 }, { "epoch": 1.4813333333333334, "grad_norm": 39.436256408691406, "learning_rate": 1.0124444444444445e-05, "loss": 0.4789, "step": 1111 }, { "epoch": 1.4826666666666668, "grad_norm": 1.4077755212783813, "learning_rate": 1.0115555555555556e-05, "loss": 0.0037, "step": 1112 }, { "epoch": 1.484, "grad_norm": 8.338570594787598, "learning_rate": 1.0106666666666668e-05, "loss": 0.5367, "step": 1113 }, { "epoch": 1.4853333333333334, "grad_norm": 1.365424394607544, "learning_rate": 1.0097777777777779e-05, "loss": 0.0027, "step": 1114 }, { "epoch": 1.4866666666666668, "grad_norm": 3.4707038402557373, "learning_rate": 1.008888888888889e-05, "loss": 0.0107, "step": 1115 }, { "epoch": 1.488, "grad_norm": 0.12392369657754898, "learning_rate": 1.008e-05, "loss": 0.0018, "step": 1116 }, { "epoch": 1.4893333333333334, "grad_norm": 54.68601608276367, "learning_rate": 1.0071111111111111e-05, "loss": 0.1573, "step": 1117 }, { "epoch": 1.4906666666666666, "grad_norm": 0.08152028173208237, "learning_rate": 1.0062222222222223e-05, "loss": 0.0015, "step": 1118 }, { "epoch": 1.492, "grad_norm": 17.499496459960938, "learning_rate": 1.0053333333333334e-05, "loss": 0.4368, "step": 1119 }, { "epoch": 1.4933333333333334, "grad_norm": 32.79203414916992, "learning_rate": 1.0044444444444446e-05, "loss": 0.4103, "step": 1120 }, { "epoch": 1.4946666666666666, "grad_norm": 16.255796432495117, "learning_rate": 1.0035555555555557e-05, "loss": 0.4025, "step": 1121 }, { "epoch": 1.496, "grad_norm": 0.7766789793968201, "learning_rate": 1.0026666666666667e-05, "loss": 0.0038, "step": 1122 }, { "epoch": 1.4973333333333334, "grad_norm": 159.65065002441406, "learning_rate": 1.001777777777778e-05, "loss": 0.1574, "step": 1123 }, { "epoch": 1.4986666666666666, "grad_norm": 0.8925172686576843, "learning_rate": 1.000888888888889e-05, "loss": 0.0044, "step": 1124 }, { "epoch": 1.5, "grad_norm": 20.526613235473633, "learning_rate": 1e-05, "loss": 1.0146, "step": 1125 }, { "epoch": 1.5013333333333332, "grad_norm": 19.690019607543945, "learning_rate": 9.991111111111112e-06, "loss": 0.4503, "step": 1126 }, { "epoch": 1.5026666666666668, "grad_norm": 22.120075225830078, "learning_rate": 9.982222222222224e-06, "loss": 0.0183, "step": 1127 }, { "epoch": 1.504, "grad_norm": 207.06312561035156, "learning_rate": 9.973333333333333e-06, "loss": 0.1252, "step": 1128 }, { "epoch": 1.5053333333333332, "grad_norm": 0.6239273548126221, "learning_rate": 9.964444444444445e-06, "loss": 0.0058, "step": 1129 }, { "epoch": 1.5066666666666668, "grad_norm": 81.94896697998047, "learning_rate": 9.955555555555556e-06, "loss": 0.385, "step": 1130 }, { "epoch": 1.508, "grad_norm": 33.6357421875, "learning_rate": 9.946666666666667e-06, "loss": 0.7852, "step": 1131 }, { "epoch": 1.5093333333333332, "grad_norm": 1.7893480062484741, "learning_rate": 9.937777777777779e-06, "loss": 0.0091, "step": 1132 }, { "epoch": 1.5106666666666668, "grad_norm": 46.6541748046875, "learning_rate": 9.92888888888889e-06, "loss": 0.0201, "step": 1133 }, { "epoch": 1.512, "grad_norm": 0.6599791646003723, "learning_rate": 9.920000000000002e-06, "loss": 0.0045, "step": 1134 }, { "epoch": 1.5133333333333332, "grad_norm": 1.9575221538543701, "learning_rate": 9.911111111111113e-06, "loss": 0.0054, "step": 1135 }, { "epoch": 1.5146666666666668, "grad_norm": 1.13613760471344, "learning_rate": 9.902222222222223e-06, "loss": 0.0102, "step": 1136 }, { "epoch": 1.516, "grad_norm": 21.506973266601562, "learning_rate": 9.893333333333334e-06, "loss": 0.3668, "step": 1137 }, { "epoch": 1.5173333333333332, "grad_norm": 21.41179847717285, "learning_rate": 9.884444444444445e-06, "loss": 0.4086, "step": 1138 }, { "epoch": 1.5186666666666668, "grad_norm": 85.5159683227539, "learning_rate": 9.875555555555557e-06, "loss": 0.426, "step": 1139 }, { "epoch": 1.52, "grad_norm": 1.8201133012771606, "learning_rate": 9.866666666666668e-06, "loss": 0.0115, "step": 1140 }, { "epoch": 1.5213333333333332, "grad_norm": 26.631025314331055, "learning_rate": 9.857777777777778e-06, "loss": 0.5982, "step": 1141 }, { "epoch": 1.5226666666666666, "grad_norm": 1.1851919889450073, "learning_rate": 9.84888888888889e-06, "loss": 0.0045, "step": 1142 }, { "epoch": 1.524, "grad_norm": 26.685226440429688, "learning_rate": 9.84e-06, "loss": 0.3714, "step": 1143 }, { "epoch": 1.5253333333333332, "grad_norm": 18.316144943237305, "learning_rate": 9.831111111111112e-06, "loss": 0.2551, "step": 1144 }, { "epoch": 1.5266666666666666, "grad_norm": 45.43986892700195, "learning_rate": 9.822222222222223e-06, "loss": 0.2435, "step": 1145 }, { "epoch": 1.528, "grad_norm": 1.2840975522994995, "learning_rate": 9.813333333333333e-06, "loss": 0.0083, "step": 1146 }, { "epoch": 1.5293333333333332, "grad_norm": 38.377506256103516, "learning_rate": 9.804444444444444e-06, "loss": 0.2242, "step": 1147 }, { "epoch": 1.5306666666666666, "grad_norm": 1.2217894792556763, "learning_rate": 9.795555555555556e-06, "loss": 0.0062, "step": 1148 }, { "epoch": 1.532, "grad_norm": 11.981416702270508, "learning_rate": 9.786666666666667e-06, "loss": 0.2839, "step": 1149 }, { "epoch": 1.5333333333333332, "grad_norm": 29.032106399536133, "learning_rate": 9.777777777777779e-06, "loss": 0.3739, "step": 1150 }, { "epoch": 1.5346666666666666, "grad_norm": 0.16497567296028137, "learning_rate": 9.76888888888889e-06, "loss": 0.002, "step": 1151 }, { "epoch": 1.536, "grad_norm": 95.48800659179688, "learning_rate": 9.760000000000001e-06, "loss": 0.7441, "step": 1152 }, { "epoch": 1.5373333333333332, "grad_norm": 0.6212103962898254, "learning_rate": 9.751111111111113e-06, "loss": 0.0054, "step": 1153 }, { "epoch": 1.5386666666666666, "grad_norm": 671.316162109375, "learning_rate": 9.742222222222222e-06, "loss": 0.438, "step": 1154 }, { "epoch": 1.54, "grad_norm": 14.683266639709473, "learning_rate": 9.733333333333334e-06, "loss": 0.0231, "step": 1155 }, { "epoch": 1.5413333333333332, "grad_norm": 35.538475036621094, "learning_rate": 9.724444444444445e-06, "loss": 0.2821, "step": 1156 }, { "epoch": 1.5426666666666666, "grad_norm": 37.71883773803711, "learning_rate": 9.715555555555557e-06, "loss": 0.1893, "step": 1157 }, { "epoch": 1.544, "grad_norm": 13.541324615478516, "learning_rate": 9.706666666666668e-06, "loss": 0.2474, "step": 1158 }, { "epoch": 1.5453333333333332, "grad_norm": 60.65049362182617, "learning_rate": 9.697777777777778e-06, "loss": 0.2213, "step": 1159 }, { "epoch": 1.5466666666666666, "grad_norm": 17.99744987487793, "learning_rate": 9.688888888888889e-06, "loss": 0.3867, "step": 1160 }, { "epoch": 1.548, "grad_norm": 52.22488784790039, "learning_rate": 9.68e-06, "loss": 0.2816, "step": 1161 }, { "epoch": 1.5493333333333332, "grad_norm": 0.2898555397987366, "learning_rate": 9.671111111111112e-06, "loss": 0.0027, "step": 1162 }, { "epoch": 1.5506666666666666, "grad_norm": 74.04916381835938, "learning_rate": 9.662222222222223e-06, "loss": 0.2823, "step": 1163 }, { "epoch": 1.552, "grad_norm": 53.41830825805664, "learning_rate": 9.653333333333335e-06, "loss": 0.1642, "step": 1164 }, { "epoch": 1.5533333333333332, "grad_norm": 0.9745127558708191, "learning_rate": 9.644444444444444e-06, "loss": 0.006, "step": 1165 }, { "epoch": 1.5546666666666666, "grad_norm": 13.257244110107422, "learning_rate": 9.635555555555557e-06, "loss": 0.3397, "step": 1166 }, { "epoch": 1.556, "grad_norm": 43.04121780395508, "learning_rate": 9.626666666666667e-06, "loss": 0.4703, "step": 1167 }, { "epoch": 1.5573333333333332, "grad_norm": 35.288516998291016, "learning_rate": 9.617777777777778e-06, "loss": 0.2274, "step": 1168 }, { "epoch": 1.5586666666666666, "grad_norm": 59.73976516723633, "learning_rate": 9.60888888888889e-06, "loss": 0.0795, "step": 1169 }, { "epoch": 1.56, "grad_norm": 72.6655502319336, "learning_rate": 9.600000000000001e-06, "loss": 1.097, "step": 1170 }, { "epoch": 1.5613333333333332, "grad_norm": 15.759418487548828, "learning_rate": 9.591111111111113e-06, "loss": 0.2047, "step": 1171 }, { "epoch": 1.5626666666666666, "grad_norm": 0.8857228755950928, "learning_rate": 9.582222222222222e-06, "loss": 0.0055, "step": 1172 }, { "epoch": 1.564, "grad_norm": 96.8880615234375, "learning_rate": 9.573333333333334e-06, "loss": 0.2571, "step": 1173 }, { "epoch": 1.5653333333333332, "grad_norm": 36.97969055175781, "learning_rate": 9.564444444444445e-06, "loss": 0.5691, "step": 1174 }, { "epoch": 1.5666666666666667, "grad_norm": 1.0722178220748901, "learning_rate": 9.555555555555556e-06, "loss": 0.0042, "step": 1175 }, { "epoch": 1.568, "grad_norm": 15.472237586975098, "learning_rate": 9.546666666666668e-06, "loss": 0.2531, "step": 1176 }, { "epoch": 1.5693333333333332, "grad_norm": 1.4882992506027222, "learning_rate": 9.537777777777778e-06, "loss": 0.0089, "step": 1177 }, { "epoch": 1.5706666666666667, "grad_norm": 6.004009246826172, "learning_rate": 9.528888888888889e-06, "loss": 0.0365, "step": 1178 }, { "epoch": 1.572, "grad_norm": 0.8936472535133362, "learning_rate": 9.52e-06, "loss": 0.0071, "step": 1179 }, { "epoch": 1.5733333333333333, "grad_norm": 2.1808242797851562, "learning_rate": 9.511111111111112e-06, "loss": 0.0156, "step": 1180 }, { "epoch": 1.5746666666666667, "grad_norm": 3.062775135040283, "learning_rate": 9.502222222222223e-06, "loss": 0.019, "step": 1181 }, { "epoch": 1.576, "grad_norm": 33.260623931884766, "learning_rate": 9.493333333333334e-06, "loss": 0.0623, "step": 1182 }, { "epoch": 1.5773333333333333, "grad_norm": 26.234943389892578, "learning_rate": 9.484444444444444e-06, "loss": 0.0344, "step": 1183 }, { "epoch": 1.5786666666666667, "grad_norm": 0.6550800204277039, "learning_rate": 9.475555555555557e-06, "loss": 0.0026, "step": 1184 }, { "epoch": 1.58, "grad_norm": 47.8802490234375, "learning_rate": 9.466666666666667e-06, "loss": 0.4755, "step": 1185 }, { "epoch": 1.5813333333333333, "grad_norm": 123.26792907714844, "learning_rate": 9.457777777777778e-06, "loss": 0.7114, "step": 1186 }, { "epoch": 1.5826666666666667, "grad_norm": 2.1583354473114014, "learning_rate": 9.44888888888889e-06, "loss": 0.0047, "step": 1187 }, { "epoch": 1.584, "grad_norm": 3.509554624557495, "learning_rate": 9.440000000000001e-06, "loss": 0.01, "step": 1188 }, { "epoch": 1.5853333333333333, "grad_norm": 36.78347396850586, "learning_rate": 9.431111111111112e-06, "loss": 0.9524, "step": 1189 }, { "epoch": 1.5866666666666667, "grad_norm": 4.171144008636475, "learning_rate": 9.422222222222222e-06, "loss": 0.0084, "step": 1190 }, { "epoch": 1.588, "grad_norm": 1.095988392829895, "learning_rate": 9.413333333333334e-06, "loss": 0.0081, "step": 1191 }, { "epoch": 1.5893333333333333, "grad_norm": 86.30313110351562, "learning_rate": 9.404444444444445e-06, "loss": 0.9106, "step": 1192 }, { "epoch": 1.5906666666666667, "grad_norm": 58.169639587402344, "learning_rate": 9.395555555555556e-06, "loss": 0.4907, "step": 1193 }, { "epoch": 1.592, "grad_norm": 12.2610502243042, "learning_rate": 9.386666666666668e-06, "loss": 0.0256, "step": 1194 }, { "epoch": 1.5933333333333333, "grad_norm": 0.3228115737438202, "learning_rate": 9.377777777777779e-06, "loss": 0.0024, "step": 1195 }, { "epoch": 1.5946666666666667, "grad_norm": 212.7126922607422, "learning_rate": 9.368888888888889e-06, "loss": 0.278, "step": 1196 }, { "epoch": 1.596, "grad_norm": 0.17174836993217468, "learning_rate": 9.360000000000002e-06, "loss": 0.0018, "step": 1197 }, { "epoch": 1.5973333333333333, "grad_norm": 0.9282292127609253, "learning_rate": 9.351111111111112e-06, "loss": 0.0027, "step": 1198 }, { "epoch": 1.5986666666666667, "grad_norm": 171.9736785888672, "learning_rate": 9.342222222222223e-06, "loss": 0.3287, "step": 1199 }, { "epoch": 1.6, "grad_norm": 102.6137924194336, "learning_rate": 9.333333333333334e-06, "loss": 1.5001, "step": 1200 }, { "epoch": 1.6013333333333333, "grad_norm": 0.24313202500343323, "learning_rate": 9.324444444444444e-06, "loss": 0.002, "step": 1201 }, { "epoch": 1.6026666666666667, "grad_norm": 22.449628829956055, "learning_rate": 9.315555555555557e-06, "loss": 0.5377, "step": 1202 }, { "epoch": 1.604, "grad_norm": 0.06536167114973068, "learning_rate": 9.306666666666667e-06, "loss": 0.0014, "step": 1203 }, { "epoch": 1.6053333333333333, "grad_norm": 0.3730120360851288, "learning_rate": 9.297777777777778e-06, "loss": 0.0015, "step": 1204 }, { "epoch": 1.6066666666666667, "grad_norm": 3.424034833908081, "learning_rate": 9.28888888888889e-06, "loss": 0.0118, "step": 1205 }, { "epoch": 1.608, "grad_norm": 1.1805728673934937, "learning_rate": 9.280000000000001e-06, "loss": 0.0052, "step": 1206 }, { "epoch": 1.6093333333333333, "grad_norm": 1.5451524257659912, "learning_rate": 9.271111111111112e-06, "loss": 0.0059, "step": 1207 }, { "epoch": 1.6106666666666667, "grad_norm": 150.99436950683594, "learning_rate": 9.262222222222222e-06, "loss": 0.8005, "step": 1208 }, { "epoch": 1.612, "grad_norm": 20.419761657714844, "learning_rate": 9.253333333333333e-06, "loss": 0.2383, "step": 1209 }, { "epoch": 1.6133333333333333, "grad_norm": 8.542495727539062, "learning_rate": 9.244444444444445e-06, "loss": 0.0114, "step": 1210 }, { "epoch": 1.6146666666666667, "grad_norm": 12.474035263061523, "learning_rate": 9.235555555555556e-06, "loss": 0.4765, "step": 1211 }, { "epoch": 1.616, "grad_norm": 0.05620914697647095, "learning_rate": 9.226666666666668e-06, "loss": 0.0012, "step": 1212 }, { "epoch": 1.6173333333333333, "grad_norm": 0.03690945357084274, "learning_rate": 9.217777777777779e-06, "loss": 0.001, "step": 1213 }, { "epoch": 1.6186666666666667, "grad_norm": 0.044510893523693085, "learning_rate": 9.208888888888889e-06, "loss": 0.0011, "step": 1214 }, { "epoch": 1.62, "grad_norm": 12.13549518585205, "learning_rate": 9.200000000000002e-06, "loss": 0.459, "step": 1215 }, { "epoch": 1.6213333333333333, "grad_norm": 15.336878776550293, "learning_rate": 9.191111111111111e-06, "loss": 0.4355, "step": 1216 }, { "epoch": 1.6226666666666667, "grad_norm": 12.965373039245605, "learning_rate": 9.182222222222223e-06, "loss": 0.5857, "step": 1217 }, { "epoch": 1.624, "grad_norm": 31.19281768798828, "learning_rate": 9.173333333333334e-06, "loss": 0.3127, "step": 1218 }, { "epoch": 1.6253333333333333, "grad_norm": 0.047664519399404526, "learning_rate": 9.164444444444446e-06, "loss": 0.0011, "step": 1219 }, { "epoch": 1.6266666666666667, "grad_norm": 121.09150695800781, "learning_rate": 9.155555555555557e-06, "loss": 0.517, "step": 1220 }, { "epoch": 1.6280000000000001, "grad_norm": 68.81010437011719, "learning_rate": 9.146666666666667e-06, "loss": 0.4474, "step": 1221 }, { "epoch": 1.6293333333333333, "grad_norm": 0.09393475949764252, "learning_rate": 9.137777777777778e-06, "loss": 0.0016, "step": 1222 }, { "epoch": 1.6306666666666667, "grad_norm": 23.844467163085938, "learning_rate": 9.12888888888889e-06, "loss": 0.3616, "step": 1223 }, { "epoch": 1.6320000000000001, "grad_norm": 1.540001630783081, "learning_rate": 9.12e-06, "loss": 0.0087, "step": 1224 }, { "epoch": 1.6333333333333333, "grad_norm": 385.2530822753906, "learning_rate": 9.111111111111112e-06, "loss": 0.3125, "step": 1225 }, { "epoch": 1.6346666666666667, "grad_norm": 0.22184151411056519, "learning_rate": 9.102222222222224e-06, "loss": 0.0026, "step": 1226 }, { "epoch": 1.6360000000000001, "grad_norm": 9.767704963684082, "learning_rate": 9.093333333333333e-06, "loss": 0.4027, "step": 1227 }, { "epoch": 1.6373333333333333, "grad_norm": 0.18347415328025818, "learning_rate": 9.084444444444446e-06, "loss": 0.0027, "step": 1228 }, { "epoch": 1.6386666666666667, "grad_norm": 0.3790389895439148, "learning_rate": 9.075555555555556e-06, "loss": 0.0041, "step": 1229 }, { "epoch": 1.6400000000000001, "grad_norm": 80.8835678100586, "learning_rate": 9.066666666666667e-06, "loss": 0.199, "step": 1230 }, { "epoch": 1.6413333333333333, "grad_norm": 0.8472650647163391, "learning_rate": 9.057777777777779e-06, "loss": 0.0058, "step": 1231 }, { "epoch": 1.6426666666666667, "grad_norm": 0.8753399848937988, "learning_rate": 9.048888888888888e-06, "loss": 0.006, "step": 1232 }, { "epoch": 1.6440000000000001, "grad_norm": 15.306134223937988, "learning_rate": 9.040000000000002e-06, "loss": 0.4366, "step": 1233 }, { "epoch": 1.6453333333333333, "grad_norm": 0.5510113835334778, "learning_rate": 9.031111111111111e-06, "loss": 0.0032, "step": 1234 }, { "epoch": 1.6466666666666665, "grad_norm": 0.11380913108587265, "learning_rate": 9.022222222222223e-06, "loss": 0.0018, "step": 1235 }, { "epoch": 1.6480000000000001, "grad_norm": 68.31336975097656, "learning_rate": 9.013333333333334e-06, "loss": 0.7166, "step": 1236 }, { "epoch": 1.6493333333333333, "grad_norm": 10.276823043823242, "learning_rate": 9.004444444444445e-06, "loss": 0.2241, "step": 1237 }, { "epoch": 1.6506666666666665, "grad_norm": 54.461097717285156, "learning_rate": 8.995555555555557e-06, "loss": 0.0424, "step": 1238 }, { "epoch": 1.6520000000000001, "grad_norm": 0.8475139141082764, "learning_rate": 8.986666666666666e-06, "loss": 0.0051, "step": 1239 }, { "epoch": 1.6533333333333333, "grad_norm": 14.95924186706543, "learning_rate": 8.977777777777778e-06, "loss": 1.0054, "step": 1240 }, { "epoch": 1.6546666666666665, "grad_norm": 117.78137969970703, "learning_rate": 8.96888888888889e-06, "loss": 0.6901, "step": 1241 }, { "epoch": 1.6560000000000001, "grad_norm": 22.31456184387207, "learning_rate": 8.96e-06, "loss": 0.3657, "step": 1242 }, { "epoch": 1.6573333333333333, "grad_norm": 0.4788752496242523, "learning_rate": 8.951111111111112e-06, "loss": 0.0045, "step": 1243 }, { "epoch": 1.6586666666666665, "grad_norm": 6.362298488616943, "learning_rate": 8.942222222222223e-06, "loss": 0.0107, "step": 1244 }, { "epoch": 1.6600000000000001, "grad_norm": 0.2006457895040512, "learning_rate": 8.933333333333333e-06, "loss": 0.0023, "step": 1245 }, { "epoch": 1.6613333333333333, "grad_norm": 0.9769859910011292, "learning_rate": 8.924444444444446e-06, "loss": 0.0065, "step": 1246 }, { "epoch": 1.6626666666666665, "grad_norm": 50.59593963623047, "learning_rate": 8.915555555555556e-06, "loss": 0.5262, "step": 1247 }, { "epoch": 1.6640000000000001, "grad_norm": 0.3697497844696045, "learning_rate": 8.906666666666667e-06, "loss": 0.0032, "step": 1248 }, { "epoch": 1.6653333333333333, "grad_norm": 98.93800354003906, "learning_rate": 8.897777777777779e-06, "loss": 0.8187, "step": 1249 }, { "epoch": 1.6666666666666665, "grad_norm": 14.258256912231445, "learning_rate": 8.888888888888888e-06, "loss": 0.3505, "step": 1250 }, { "epoch": 1.6680000000000001, "grad_norm": 1.1765506267547607, "learning_rate": 8.880000000000001e-06, "loss": 0.0053, "step": 1251 }, { "epoch": 1.6693333333333333, "grad_norm": 0.5368697643280029, "learning_rate": 8.871111111111111e-06, "loss": 0.0038, "step": 1252 }, { "epoch": 1.6706666666666665, "grad_norm": 4.834039688110352, "learning_rate": 8.862222222222222e-06, "loss": 0.0153, "step": 1253 }, { "epoch": 1.6720000000000002, "grad_norm": 0.14201617240905762, "learning_rate": 8.853333333333334e-06, "loss": 0.002, "step": 1254 }, { "epoch": 1.6733333333333333, "grad_norm": 1.1270090341567993, "learning_rate": 8.844444444444445e-06, "loss": 0.0046, "step": 1255 }, { "epoch": 1.6746666666666665, "grad_norm": 20.26508331298828, "learning_rate": 8.835555555555557e-06, "loss": 0.3976, "step": 1256 }, { "epoch": 1.6760000000000002, "grad_norm": 0.633030891418457, "learning_rate": 8.826666666666668e-06, "loss": 0.0045, "step": 1257 }, { "epoch": 1.6773333333333333, "grad_norm": 0.1043582558631897, "learning_rate": 8.817777777777778e-06, "loss": 0.0018, "step": 1258 }, { "epoch": 1.6786666666666665, "grad_norm": 2.0548338890075684, "learning_rate": 8.80888888888889e-06, "loss": 0.0063, "step": 1259 }, { "epoch": 1.6800000000000002, "grad_norm": 0.1220216155052185, "learning_rate": 8.8e-06, "loss": 0.0014, "step": 1260 }, { "epoch": 1.6813333333333333, "grad_norm": 0.08869492262601852, "learning_rate": 8.791111111111112e-06, "loss": 0.0016, "step": 1261 }, { "epoch": 1.6826666666666665, "grad_norm": 0.11858934909105301, "learning_rate": 8.782222222222223e-06, "loss": 0.0014, "step": 1262 }, { "epoch": 1.6840000000000002, "grad_norm": 0.2562926411628723, "learning_rate": 8.773333333333333e-06, "loss": 0.0015, "step": 1263 }, { "epoch": 1.6853333333333333, "grad_norm": 141.07345581054688, "learning_rate": 8.764444444444446e-06, "loss": 0.4697, "step": 1264 }, { "epoch": 1.6866666666666665, "grad_norm": 0.2537286877632141, "learning_rate": 8.755555555555556e-06, "loss": 0.0015, "step": 1265 }, { "epoch": 1.688, "grad_norm": 169.7315216064453, "learning_rate": 8.746666666666667e-06, "loss": 1.4453, "step": 1266 }, { "epoch": 1.6893333333333334, "grad_norm": 0.03023740090429783, "learning_rate": 8.737777777777778e-06, "loss": 0.0009, "step": 1267 }, { "epoch": 1.6906666666666665, "grad_norm": 5.885982990264893, "learning_rate": 8.72888888888889e-06, "loss": 0.5489, "step": 1268 }, { "epoch": 1.692, "grad_norm": 25.090717315673828, "learning_rate": 8.720000000000001e-06, "loss": 0.4463, "step": 1269 }, { "epoch": 1.6933333333333334, "grad_norm": 26.74951171875, "learning_rate": 8.711111111111111e-06, "loss": 0.9619, "step": 1270 }, { "epoch": 1.6946666666666665, "grad_norm": 0.16496337950229645, "learning_rate": 8.702222222222222e-06, "loss": 0.0018, "step": 1271 }, { "epoch": 1.696, "grad_norm": 3.537893533706665, "learning_rate": 8.693333333333334e-06, "loss": 0.0046, "step": 1272 }, { "epoch": 1.6973333333333334, "grad_norm": 0.45394954085350037, "learning_rate": 8.684444444444445e-06, "loss": 0.0016, "step": 1273 }, { "epoch": 1.6986666666666665, "grad_norm": 15.843210220336914, "learning_rate": 8.675555555555556e-06, "loss": 0.4405, "step": 1274 }, { "epoch": 1.7, "grad_norm": 261.1629333496094, "learning_rate": 8.666666666666668e-06, "loss": 0.4073, "step": 1275 }, { "epoch": 1.7013333333333334, "grad_norm": 37.69385528564453, "learning_rate": 8.657777777777778e-06, "loss": 0.739, "step": 1276 }, { "epoch": 1.7026666666666666, "grad_norm": 0.9705725908279419, "learning_rate": 8.64888888888889e-06, "loss": 0.0034, "step": 1277 }, { "epoch": 1.704, "grad_norm": 30.183223724365234, "learning_rate": 8.64e-06, "loss": 0.2996, "step": 1278 }, { "epoch": 1.7053333333333334, "grad_norm": 0.05334986373782158, "learning_rate": 8.631111111111112e-06, "loss": 0.0013, "step": 1279 }, { "epoch": 1.7066666666666666, "grad_norm": 191.0198516845703, "learning_rate": 8.622222222222223e-06, "loss": 0.1697, "step": 1280 }, { "epoch": 1.708, "grad_norm": 36.00331497192383, "learning_rate": 8.613333333333333e-06, "loss": 0.3335, "step": 1281 }, { "epoch": 1.7093333333333334, "grad_norm": 338.88104248046875, "learning_rate": 8.604444444444446e-06, "loss": 0.5403, "step": 1282 }, { "epoch": 1.7106666666666666, "grad_norm": 0.4089786410331726, "learning_rate": 8.595555555555556e-06, "loss": 0.0029, "step": 1283 }, { "epoch": 1.712, "grad_norm": 0.10930458456277847, "learning_rate": 8.586666666666667e-06, "loss": 0.0015, "step": 1284 }, { "epoch": 1.7133333333333334, "grad_norm": 63.502708435058594, "learning_rate": 8.577777777777778e-06, "loss": 0.1729, "step": 1285 }, { "epoch": 1.7146666666666666, "grad_norm": 0.21256402134895325, "learning_rate": 8.56888888888889e-06, "loss": 0.002, "step": 1286 }, { "epoch": 1.716, "grad_norm": 42.77898025512695, "learning_rate": 8.560000000000001e-06, "loss": 1.3073, "step": 1287 }, { "epoch": 1.7173333333333334, "grad_norm": 2.2812111377716064, "learning_rate": 8.551111111111112e-06, "loss": 0.0031, "step": 1288 }, { "epoch": 1.7186666666666666, "grad_norm": 234.80577087402344, "learning_rate": 8.542222222222222e-06, "loss": 0.677, "step": 1289 }, { "epoch": 1.72, "grad_norm": 231.55113220214844, "learning_rate": 8.533333333333335e-06, "loss": 0.0351, "step": 1290 }, { "epoch": 1.7213333333333334, "grad_norm": 3.546586036682129, "learning_rate": 8.524444444444445e-06, "loss": 0.0058, "step": 1291 }, { "epoch": 1.7226666666666666, "grad_norm": 114.83734893798828, "learning_rate": 8.515555555555556e-06, "loss": 0.5634, "step": 1292 }, { "epoch": 1.724, "grad_norm": 19.90721893310547, "learning_rate": 8.506666666666668e-06, "loss": 0.5485, "step": 1293 }, { "epoch": 1.7253333333333334, "grad_norm": 0.21437105536460876, "learning_rate": 8.497777777777777e-06, "loss": 0.0023, "step": 1294 }, { "epoch": 1.7266666666666666, "grad_norm": 24.9147891998291, "learning_rate": 8.48888888888889e-06, "loss": 1.2906, "step": 1295 }, { "epoch": 1.728, "grad_norm": 69.30450439453125, "learning_rate": 8.48e-06, "loss": 0.0447, "step": 1296 }, { "epoch": 1.7293333333333334, "grad_norm": 10.30772876739502, "learning_rate": 8.471111111111112e-06, "loss": 0.4798, "step": 1297 }, { "epoch": 1.7306666666666666, "grad_norm": 0.5602415800094604, "learning_rate": 8.462222222222223e-06, "loss": 0.0044, "step": 1298 }, { "epoch": 1.732, "grad_norm": 9.811917304992676, "learning_rate": 8.453333333333334e-06, "loss": 0.0154, "step": 1299 }, { "epoch": 1.7333333333333334, "grad_norm": 84.34893035888672, "learning_rate": 8.444444444444446e-06, "loss": 0.2034, "step": 1300 }, { "epoch": 1.7346666666666666, "grad_norm": 0.2663172483444214, "learning_rate": 8.435555555555555e-06, "loss": 0.0035, "step": 1301 }, { "epoch": 1.736, "grad_norm": 0.4816141128540039, "learning_rate": 8.426666666666667e-06, "loss": 0.0055, "step": 1302 }, { "epoch": 1.7373333333333334, "grad_norm": 62.63591766357422, "learning_rate": 8.417777777777778e-06, "loss": 0.2604, "step": 1303 }, { "epoch": 1.7386666666666666, "grad_norm": 0.3775101602077484, "learning_rate": 8.40888888888889e-06, "loss": 0.0062, "step": 1304 }, { "epoch": 1.74, "grad_norm": 15.386045455932617, "learning_rate": 8.400000000000001e-06, "loss": 0.3375, "step": 1305 }, { "epoch": 1.7413333333333334, "grad_norm": 96.82894897460938, "learning_rate": 8.391111111111112e-06, "loss": 0.0296, "step": 1306 }, { "epoch": 1.7426666666666666, "grad_norm": 0.31404024362564087, "learning_rate": 8.382222222222222e-06, "loss": 0.0037, "step": 1307 }, { "epoch": 1.744, "grad_norm": 0.3081216812133789, "learning_rate": 8.373333333333335e-06, "loss": 0.0034, "step": 1308 }, { "epoch": 1.7453333333333334, "grad_norm": 30.924219131469727, "learning_rate": 8.364444444444445e-06, "loss": 0.2463, "step": 1309 }, { "epoch": 1.7466666666666666, "grad_norm": 2.432894468307495, "learning_rate": 8.355555555555556e-06, "loss": 0.012, "step": 1310 }, { "epoch": 1.748, "grad_norm": 27.161409378051758, "learning_rate": 8.346666666666668e-06, "loss": 0.8663, "step": 1311 }, { "epoch": 1.7493333333333334, "grad_norm": 9.022555351257324, "learning_rate": 8.337777777777777e-06, "loss": 0.5096, "step": 1312 }, { "epoch": 1.7506666666666666, "grad_norm": 32.934574127197266, "learning_rate": 8.32888888888889e-06, "loss": 0.2063, "step": 1313 }, { "epoch": 1.752, "grad_norm": 0.5386740565299988, "learning_rate": 8.32e-06, "loss": 0.0055, "step": 1314 }, { "epoch": 1.7533333333333334, "grad_norm": 1.5111989974975586, "learning_rate": 8.311111111111111e-06, "loss": 0.0058, "step": 1315 }, { "epoch": 1.7546666666666666, "grad_norm": 0.26266345381736755, "learning_rate": 8.302222222222223e-06, "loss": 0.0032, "step": 1316 }, { "epoch": 1.756, "grad_norm": 0.321925550699234, "learning_rate": 8.293333333333334e-06, "loss": 0.004, "step": 1317 }, { "epoch": 1.7573333333333334, "grad_norm": 7.018383026123047, "learning_rate": 8.284444444444446e-06, "loss": 0.3341, "step": 1318 }, { "epoch": 1.7586666666666666, "grad_norm": 0.25563785433769226, "learning_rate": 8.275555555555557e-06, "loss": 0.004, "step": 1319 }, { "epoch": 1.76, "grad_norm": 0.47046586871147156, "learning_rate": 8.266666666666667e-06, "loss": 0.0047, "step": 1320 }, { "epoch": 1.7613333333333334, "grad_norm": 31.27930450439453, "learning_rate": 8.25777777777778e-06, "loss": 0.777, "step": 1321 }, { "epoch": 1.7626666666666666, "grad_norm": 20.72823143005371, "learning_rate": 8.24888888888889e-06, "loss": 0.4115, "step": 1322 }, { "epoch": 1.764, "grad_norm": 0.21902769804000854, "learning_rate": 8.24e-06, "loss": 0.0028, "step": 1323 }, { "epoch": 1.7653333333333334, "grad_norm": 0.22326567769050598, "learning_rate": 8.231111111111112e-06, "loss": 0.0025, "step": 1324 }, { "epoch": 1.7666666666666666, "grad_norm": 0.5159211158752441, "learning_rate": 8.222222222222222e-06, "loss": 0.0054, "step": 1325 }, { "epoch": 1.768, "grad_norm": 2.080169200897217, "learning_rate": 8.213333333333335e-06, "loss": 0.0065, "step": 1326 }, { "epoch": 1.7693333333333334, "grad_norm": 0.7337020635604858, "learning_rate": 8.204444444444445e-06, "loss": 0.0047, "step": 1327 }, { "epoch": 1.7706666666666666, "grad_norm": 193.44793701171875, "learning_rate": 8.195555555555556e-06, "loss": 0.0948, "step": 1328 }, { "epoch": 1.772, "grad_norm": 0.5751442313194275, "learning_rate": 8.186666666666667e-06, "loss": 0.0046, "step": 1329 }, { "epoch": 1.7733333333333334, "grad_norm": 168.5449981689453, "learning_rate": 8.177777777777779e-06, "loss": 0.1972, "step": 1330 }, { "epoch": 1.7746666666666666, "grad_norm": 20.292678833007812, "learning_rate": 8.16888888888889e-06, "loss": 0.895, "step": 1331 }, { "epoch": 1.776, "grad_norm": 20.9902400970459, "learning_rate": 8.16e-06, "loss": 0.3898, "step": 1332 }, { "epoch": 1.7773333333333334, "grad_norm": 0.36485755443573, "learning_rate": 8.151111111111111e-06, "loss": 0.0031, "step": 1333 }, { "epoch": 1.7786666666666666, "grad_norm": 0.1527651995420456, "learning_rate": 8.142222222222223e-06, "loss": 0.0019, "step": 1334 }, { "epoch": 1.78, "grad_norm": 9.142675399780273, "learning_rate": 8.133333333333334e-06, "loss": 0.0164, "step": 1335 }, { "epoch": 1.7813333333333334, "grad_norm": 8.788063049316406, "learning_rate": 8.124444444444445e-06, "loss": 0.3726, "step": 1336 }, { "epoch": 1.7826666666666666, "grad_norm": 0.2779366374015808, "learning_rate": 8.115555555555557e-06, "loss": 0.0017, "step": 1337 }, { "epoch": 1.784, "grad_norm": 53.33522033691406, "learning_rate": 8.106666666666666e-06, "loss": 0.4953, "step": 1338 }, { "epoch": 1.7853333333333334, "grad_norm": 21.393434524536133, "learning_rate": 8.09777777777778e-06, "loss": 0.4634, "step": 1339 }, { "epoch": 1.7866666666666666, "grad_norm": 0.09586068987846375, "learning_rate": 8.08888888888889e-06, "loss": 0.0014, "step": 1340 }, { "epoch": 1.788, "grad_norm": 0.23801133036613464, "learning_rate": 8.08e-06, "loss": 0.0022, "step": 1341 }, { "epoch": 1.7893333333333334, "grad_norm": 4.215709209442139, "learning_rate": 8.071111111111112e-06, "loss": 0.0075, "step": 1342 }, { "epoch": 1.7906666666666666, "grad_norm": 42.23370361328125, "learning_rate": 8.062222222222222e-06, "loss": 0.3302, "step": 1343 }, { "epoch": 1.792, "grad_norm": 1.0628856420516968, "learning_rate": 8.053333333333335e-06, "loss": 0.0012, "step": 1344 }, { "epoch": 1.7933333333333334, "grad_norm": 22.49626350402832, "learning_rate": 8.044444444444444e-06, "loss": 0.3339, "step": 1345 }, { "epoch": 1.7946666666666666, "grad_norm": 1.7261173725128174, "learning_rate": 8.035555555555556e-06, "loss": 0.0062, "step": 1346 }, { "epoch": 1.796, "grad_norm": 49.810604095458984, "learning_rate": 8.026666666666667e-06, "loss": 0.2983, "step": 1347 }, { "epoch": 1.7973333333333334, "grad_norm": 22.612022399902344, "learning_rate": 8.017777777777779e-06, "loss": 0.4291, "step": 1348 }, { "epoch": 1.7986666666666666, "grad_norm": 14.823781967163086, "learning_rate": 8.00888888888889e-06, "loss": 0.4788, "step": 1349 }, { "epoch": 1.8, "grad_norm": 0.16244368255138397, "learning_rate": 8.000000000000001e-06, "loss": 0.0015, "step": 1350 }, { "epoch": 1.8013333333333335, "grad_norm": 9.868521690368652, "learning_rate": 7.991111111111111e-06, "loss": 0.509, "step": 1351 }, { "epoch": 1.8026666666666666, "grad_norm": 71.86180114746094, "learning_rate": 7.982222222222224e-06, "loss": 0.1566, "step": 1352 }, { "epoch": 1.804, "grad_norm": 26.91140365600586, "learning_rate": 7.973333333333334e-06, "loss": 0.3231, "step": 1353 }, { "epoch": 1.8053333333333335, "grad_norm": 48.021881103515625, "learning_rate": 7.964444444444445e-06, "loss": 0.0227, "step": 1354 }, { "epoch": 1.8066666666666666, "grad_norm": 0.508098840713501, "learning_rate": 7.955555555555557e-06, "loss": 0.0027, "step": 1355 }, { "epoch": 1.808, "grad_norm": 0.12021100521087646, "learning_rate": 7.946666666666666e-06, "loss": 0.0018, "step": 1356 }, { "epoch": 1.8093333333333335, "grad_norm": 112.9957275390625, "learning_rate": 7.93777777777778e-06, "loss": 0.0394, "step": 1357 }, { "epoch": 1.8106666666666666, "grad_norm": 57.59538269042969, "learning_rate": 7.928888888888889e-06, "loss": 0.2259, "step": 1358 }, { "epoch": 1.812, "grad_norm": 228.8775177001953, "learning_rate": 7.92e-06, "loss": 0.0705, "step": 1359 }, { "epoch": 1.8133333333333335, "grad_norm": 0.9348694682121277, "learning_rate": 7.911111111111112e-06, "loss": 0.0058, "step": 1360 }, { "epoch": 1.8146666666666667, "grad_norm": 78.82796478271484, "learning_rate": 7.902222222222223e-06, "loss": 0.4052, "step": 1361 }, { "epoch": 1.8159999999999998, "grad_norm": 30.193540573120117, "learning_rate": 7.893333333333335e-06, "loss": 0.0222, "step": 1362 }, { "epoch": 1.8173333333333335, "grad_norm": 0.33562177419662476, "learning_rate": 7.884444444444444e-06, "loss": 0.0029, "step": 1363 }, { "epoch": 1.8186666666666667, "grad_norm": 0.5315313935279846, "learning_rate": 7.875555555555556e-06, "loss": 0.0041, "step": 1364 }, { "epoch": 1.8199999999999998, "grad_norm": 0.49267318844795227, "learning_rate": 7.866666666666667e-06, "loss": 0.0039, "step": 1365 }, { "epoch": 1.8213333333333335, "grad_norm": 8.983467102050781, "learning_rate": 7.857777777777778e-06, "loss": 0.2769, "step": 1366 }, { "epoch": 1.8226666666666667, "grad_norm": 1.2215505838394165, "learning_rate": 7.84888888888889e-06, "loss": 0.0071, "step": 1367 }, { "epoch": 1.8239999999999998, "grad_norm": 23.004446029663086, "learning_rate": 7.840000000000001e-06, "loss": 0.4607, "step": 1368 }, { "epoch": 1.8253333333333335, "grad_norm": 71.36122131347656, "learning_rate": 7.831111111111111e-06, "loss": 0.6094, "step": 1369 }, { "epoch": 1.8266666666666667, "grad_norm": 1.923570156097412, "learning_rate": 7.822222222222224e-06, "loss": 0.0076, "step": 1370 }, { "epoch": 1.8279999999999998, "grad_norm": 102.85234832763672, "learning_rate": 7.813333333333334e-06, "loss": 0.6796, "step": 1371 }, { "epoch": 1.8293333333333335, "grad_norm": 0.200977623462677, "learning_rate": 7.804444444444445e-06, "loss": 0.0022, "step": 1372 }, { "epoch": 1.8306666666666667, "grad_norm": 0.6514906287193298, "learning_rate": 7.795555555555556e-06, "loss": 0.0037, "step": 1373 }, { "epoch": 1.8319999999999999, "grad_norm": 0.9551640152931213, "learning_rate": 7.786666666666666e-06, "loss": 0.0055, "step": 1374 }, { "epoch": 1.8333333333333335, "grad_norm": 33.95350646972656, "learning_rate": 7.77777777777778e-06, "loss": 0.3578, "step": 1375 }, { "epoch": 1.8346666666666667, "grad_norm": 0.2396462857723236, "learning_rate": 7.768888888888889e-06, "loss": 0.0024, "step": 1376 }, { "epoch": 1.8359999999999999, "grad_norm": 29.431734085083008, "learning_rate": 7.76e-06, "loss": 0.3935, "step": 1377 }, { "epoch": 1.8373333333333335, "grad_norm": 0.1087663471698761, "learning_rate": 7.751111111111112e-06, "loss": 0.0015, "step": 1378 }, { "epoch": 1.8386666666666667, "grad_norm": 0.1042017936706543, "learning_rate": 7.742222222222223e-06, "loss": 0.0017, "step": 1379 }, { "epoch": 1.8399999999999999, "grad_norm": 363.0745849609375, "learning_rate": 7.733333333333334e-06, "loss": 0.1487, "step": 1380 }, { "epoch": 1.8413333333333335, "grad_norm": 0.2268853485584259, "learning_rate": 7.724444444444446e-06, "loss": 0.002, "step": 1381 }, { "epoch": 1.8426666666666667, "grad_norm": 0.7000879049301147, "learning_rate": 7.715555555555555e-06, "loss": 0.0029, "step": 1382 }, { "epoch": 1.8439999999999999, "grad_norm": 158.9576873779297, "learning_rate": 7.706666666666669e-06, "loss": 0.4441, "step": 1383 }, { "epoch": 1.8453333333333335, "grad_norm": 0.7805405855178833, "learning_rate": 7.697777777777778e-06, "loss": 0.0067, "step": 1384 }, { "epoch": 1.8466666666666667, "grad_norm": 35.197792053222656, "learning_rate": 7.68888888888889e-06, "loss": 0.4165, "step": 1385 }, { "epoch": 1.8479999999999999, "grad_norm": 35.586875915527344, "learning_rate": 7.680000000000001e-06, "loss": 0.3185, "step": 1386 }, { "epoch": 1.8493333333333335, "grad_norm": 84.61365509033203, "learning_rate": 7.67111111111111e-06, "loss": 0.2545, "step": 1387 }, { "epoch": 1.8506666666666667, "grad_norm": 20.135005950927734, "learning_rate": 7.662222222222224e-06, "loss": 0.1587, "step": 1388 }, { "epoch": 1.8519999999999999, "grad_norm": 0.04393784701824188, "learning_rate": 7.653333333333333e-06, "loss": 0.0011, "step": 1389 }, { "epoch": 1.8533333333333335, "grad_norm": 35.34206008911133, "learning_rate": 7.644444444444445e-06, "loss": 0.5125, "step": 1390 }, { "epoch": 1.8546666666666667, "grad_norm": 0.5580001473426819, "learning_rate": 7.635555555555556e-06, "loss": 0.0026, "step": 1391 }, { "epoch": 1.8559999999999999, "grad_norm": 16.231285095214844, "learning_rate": 7.626666666666668e-06, "loss": 0.3256, "step": 1392 }, { "epoch": 1.8573333333333333, "grad_norm": 515.3563842773438, "learning_rate": 7.617777777777778e-06, "loss": 0.3451, "step": 1393 }, { "epoch": 1.8586666666666667, "grad_norm": 47.77743148803711, "learning_rate": 7.608888888888889e-06, "loss": 0.788, "step": 1394 }, { "epoch": 1.8599999999999999, "grad_norm": 0.06456021964550018, "learning_rate": 7.600000000000001e-06, "loss": 0.0009, "step": 1395 }, { "epoch": 1.8613333333333333, "grad_norm": 8.97366714477539, "learning_rate": 7.5911111111111115e-06, "loss": 0.0146, "step": 1396 }, { "epoch": 1.8626666666666667, "grad_norm": 1.4393601417541504, "learning_rate": 7.582222222222223e-06, "loss": 0.0057, "step": 1397 }, { "epoch": 1.8639999999999999, "grad_norm": 20.542451858520508, "learning_rate": 7.573333333333333e-06, "loss": 1.0716, "step": 1398 }, { "epoch": 1.8653333333333333, "grad_norm": 0.21990971267223358, "learning_rate": 7.564444444444446e-06, "loss": 0.0018, "step": 1399 }, { "epoch": 1.8666666666666667, "grad_norm": 7.867447853088379, "learning_rate": 7.555555555555556e-06, "loss": 0.1396, "step": 1400 }, { "epoch": 1.8679999999999999, "grad_norm": 0.30897411704063416, "learning_rate": 7.5466666666666675e-06, "loss": 0.0022, "step": 1401 }, { "epoch": 1.8693333333333333, "grad_norm": 86.77359008789062, "learning_rate": 7.537777777777778e-06, "loss": 0.0192, "step": 1402 }, { "epoch": 1.8706666666666667, "grad_norm": 13.487273216247559, "learning_rate": 7.52888888888889e-06, "loss": 0.4473, "step": 1403 }, { "epoch": 1.8719999999999999, "grad_norm": 7.259669780731201, "learning_rate": 7.520000000000001e-06, "loss": 0.5501, "step": 1404 }, { "epoch": 1.8733333333333333, "grad_norm": 0.24634958803653717, "learning_rate": 7.511111111111111e-06, "loss": 0.002, "step": 1405 }, { "epoch": 1.8746666666666667, "grad_norm": 0.22721315920352936, "learning_rate": 7.502222222222223e-06, "loss": 0.002, "step": 1406 }, { "epoch": 1.876, "grad_norm": 47.1217041015625, "learning_rate": 7.493333333333333e-06, "loss": 0.3092, "step": 1407 }, { "epoch": 1.8773333333333333, "grad_norm": 0.33732715249061584, "learning_rate": 7.4844444444444455e-06, "loss": 0.0029, "step": 1408 }, { "epoch": 1.8786666666666667, "grad_norm": 0.17734374105930328, "learning_rate": 7.475555555555556e-06, "loss": 0.0019, "step": 1409 }, { "epoch": 1.88, "grad_norm": 0.37512901425361633, "learning_rate": 7.4666666666666675e-06, "loss": 0.0026, "step": 1410 }, { "epoch": 1.8813333333333333, "grad_norm": 3.3836679458618164, "learning_rate": 7.457777777777778e-06, "loss": 0.0079, "step": 1411 }, { "epoch": 1.8826666666666667, "grad_norm": 0.7272549867630005, "learning_rate": 7.44888888888889e-06, "loss": 0.0042, "step": 1412 }, { "epoch": 1.884, "grad_norm": 4.928531169891357, "learning_rate": 7.440000000000001e-06, "loss": 0.6178, "step": 1413 }, { "epoch": 1.8853333333333333, "grad_norm": 21.232038497924805, "learning_rate": 7.431111111111111e-06, "loss": 0.4357, "step": 1414 }, { "epoch": 1.8866666666666667, "grad_norm": 0.2480991780757904, "learning_rate": 7.422222222222223e-06, "loss": 0.003, "step": 1415 }, { "epoch": 1.888, "grad_norm": 19.0875244140625, "learning_rate": 7.413333333333333e-06, "loss": 0.432, "step": 1416 }, { "epoch": 1.8893333333333333, "grad_norm": 0.328852117061615, "learning_rate": 7.4044444444444455e-06, "loss": 0.0032, "step": 1417 }, { "epoch": 1.8906666666666667, "grad_norm": 66.8399887084961, "learning_rate": 7.395555555555556e-06, "loss": 0.1764, "step": 1418 }, { "epoch": 1.892, "grad_norm": 44.74575424194336, "learning_rate": 7.386666666666667e-06, "loss": 0.0848, "step": 1419 }, { "epoch": 1.8933333333333333, "grad_norm": 73.51436614990234, "learning_rate": 7.377777777777778e-06, "loss": 0.0405, "step": 1420 }, { "epoch": 1.8946666666666667, "grad_norm": 18.544828414916992, "learning_rate": 7.36888888888889e-06, "loss": 0.6706, "step": 1421 }, { "epoch": 1.896, "grad_norm": 700.9494018554688, "learning_rate": 7.360000000000001e-06, "loss": 0.099, "step": 1422 }, { "epoch": 1.8973333333333333, "grad_norm": 131.52537536621094, "learning_rate": 7.351111111111112e-06, "loss": 0.1883, "step": 1423 }, { "epoch": 1.8986666666666667, "grad_norm": 82.01148986816406, "learning_rate": 7.342222222222223e-06, "loss": 0.5953, "step": 1424 }, { "epoch": 1.9, "grad_norm": 31.004148483276367, "learning_rate": 7.333333333333333e-06, "loss": 0.9117, "step": 1425 }, { "epoch": 1.9013333333333333, "grad_norm": 0.11772102862596512, "learning_rate": 7.324444444444445e-06, "loss": 0.002, "step": 1426 }, { "epoch": 1.9026666666666667, "grad_norm": 0.19047078490257263, "learning_rate": 7.315555555555556e-06, "loss": 0.0029, "step": 1427 }, { "epoch": 1.904, "grad_norm": 0.8733088970184326, "learning_rate": 7.306666666666667e-06, "loss": 0.0064, "step": 1428 }, { "epoch": 1.9053333333333333, "grad_norm": 0.4149125814437866, "learning_rate": 7.297777777777778e-06, "loss": 0.0038, "step": 1429 }, { "epoch": 1.9066666666666667, "grad_norm": 0.3520980775356293, "learning_rate": 7.28888888888889e-06, "loss": 0.0048, "step": 1430 }, { "epoch": 1.908, "grad_norm": 25.407711029052734, "learning_rate": 7.280000000000001e-06, "loss": 0.4795, "step": 1431 }, { "epoch": 1.9093333333333333, "grad_norm": 1.616394281387329, "learning_rate": 7.271111111111112e-06, "loss": 0.006, "step": 1432 }, { "epoch": 1.9106666666666667, "grad_norm": 0.21883459389209747, "learning_rate": 7.2622222222222225e-06, "loss": 0.0029, "step": 1433 }, { "epoch": 1.912, "grad_norm": 0.6173104643821716, "learning_rate": 7.253333333333335e-06, "loss": 0.0037, "step": 1434 }, { "epoch": 1.9133333333333333, "grad_norm": 0.4333723485469818, "learning_rate": 7.244444444444445e-06, "loss": 0.0035, "step": 1435 }, { "epoch": 1.9146666666666667, "grad_norm": 0.5747796297073364, "learning_rate": 7.235555555555556e-06, "loss": 0.0032, "step": 1436 }, { "epoch": 1.916, "grad_norm": 23.57564926147461, "learning_rate": 7.226666666666667e-06, "loss": 0.3321, "step": 1437 }, { "epoch": 1.9173333333333333, "grad_norm": 1.0602179765701294, "learning_rate": 7.217777777777778e-06, "loss": 0.0028, "step": 1438 }, { "epoch": 1.9186666666666667, "grad_norm": 28.595239639282227, "learning_rate": 7.20888888888889e-06, "loss": 0.3502, "step": 1439 }, { "epoch": 1.92, "grad_norm": 1.071329116821289, "learning_rate": 7.2000000000000005e-06, "loss": 0.0054, "step": 1440 }, { "epoch": 1.9213333333333333, "grad_norm": 0.46082553267478943, "learning_rate": 7.191111111111112e-06, "loss": 0.0027, "step": 1441 }, { "epoch": 1.9226666666666667, "grad_norm": 1.501023292541504, "learning_rate": 7.1822222222222224e-06, "loss": 0.0046, "step": 1442 }, { "epoch": 1.924, "grad_norm": 0.4533475935459137, "learning_rate": 7.173333333333335e-06, "loss": 0.004, "step": 1443 }, { "epoch": 1.9253333333333333, "grad_norm": 40.71757507324219, "learning_rate": 7.164444444444445e-06, "loss": 0.4445, "step": 1444 }, { "epoch": 1.9266666666666667, "grad_norm": 1.261289358139038, "learning_rate": 7.155555555555556e-06, "loss": 0.0018, "step": 1445 }, { "epoch": 1.928, "grad_norm": 0.09040451049804688, "learning_rate": 7.146666666666667e-06, "loss": 0.0013, "step": 1446 }, { "epoch": 1.9293333333333333, "grad_norm": 0.2499515861272812, "learning_rate": 7.137777777777778e-06, "loss": 0.0018, "step": 1447 }, { "epoch": 1.9306666666666668, "grad_norm": 1.828328251838684, "learning_rate": 7.12888888888889e-06, "loss": 0.004, "step": 1448 }, { "epoch": 1.932, "grad_norm": 6.097951412200928, "learning_rate": 7.1200000000000004e-06, "loss": 0.5557, "step": 1449 }, { "epoch": 1.9333333333333333, "grad_norm": 61.6555061340332, "learning_rate": 7.111111111111112e-06, "loss": 0.5163, "step": 1450 }, { "epoch": 1.9346666666666668, "grad_norm": 4.368368625640869, "learning_rate": 7.102222222222222e-06, "loss": 0.6194, "step": 1451 }, { "epoch": 1.936, "grad_norm": 0.4651283025741577, "learning_rate": 7.093333333333335e-06, "loss": 0.0037, "step": 1452 }, { "epoch": 1.9373333333333334, "grad_norm": 0.04045276343822479, "learning_rate": 7.084444444444445e-06, "loss": 0.0011, "step": 1453 }, { "epoch": 1.9386666666666668, "grad_norm": 0.5966789126396179, "learning_rate": 7.0755555555555565e-06, "loss": 0.0027, "step": 1454 }, { "epoch": 1.94, "grad_norm": 39.120121002197266, "learning_rate": 7.066666666666667e-06, "loss": 0.2632, "step": 1455 }, { "epoch": 1.9413333333333334, "grad_norm": 18.70242691040039, "learning_rate": 7.057777777777778e-06, "loss": 0.4598, "step": 1456 }, { "epoch": 1.9426666666666668, "grad_norm": 1.0788371562957764, "learning_rate": 7.04888888888889e-06, "loss": 0.0048, "step": 1457 }, { "epoch": 1.944, "grad_norm": 109.11736297607422, "learning_rate": 7.04e-06, "loss": 0.3345, "step": 1458 }, { "epoch": 1.9453333333333334, "grad_norm": 0.47086769342422485, "learning_rate": 7.031111111111112e-06, "loss": 0.0029, "step": 1459 }, { "epoch": 1.9466666666666668, "grad_norm": 55.00340270996094, "learning_rate": 7.022222222222222e-06, "loss": 0.8851, "step": 1460 }, { "epoch": 1.948, "grad_norm": 0.1486995816230774, "learning_rate": 7.0133333333333345e-06, "loss": 0.0018, "step": 1461 }, { "epoch": 1.9493333333333334, "grad_norm": 0.2541404962539673, "learning_rate": 7.004444444444445e-06, "loss": 0.0023, "step": 1462 }, { "epoch": 1.9506666666666668, "grad_norm": 4.5738301277160645, "learning_rate": 6.9955555555555564e-06, "loss": 0.5411, "step": 1463 }, { "epoch": 1.952, "grad_norm": 0.0940423384308815, "learning_rate": 6.986666666666667e-06, "loss": 0.0016, "step": 1464 }, { "epoch": 1.9533333333333334, "grad_norm": 0.11874913424253464, "learning_rate": 6.977777777777779e-06, "loss": 0.0019, "step": 1465 }, { "epoch": 1.9546666666666668, "grad_norm": 0.12059324979782104, "learning_rate": 6.96888888888889e-06, "loss": 0.0019, "step": 1466 }, { "epoch": 1.956, "grad_norm": 2.355738639831543, "learning_rate": 6.96e-06, "loss": 0.0096, "step": 1467 }, { "epoch": 1.9573333333333334, "grad_norm": 1.687117338180542, "learning_rate": 6.951111111111112e-06, "loss": 0.0064, "step": 1468 }, { "epoch": 1.9586666666666668, "grad_norm": 31.273008346557617, "learning_rate": 6.942222222222222e-06, "loss": 0.374, "step": 1469 }, { "epoch": 1.96, "grad_norm": 0.0997992530465126, "learning_rate": 6.9333333333333344e-06, "loss": 0.0018, "step": 1470 }, { "epoch": 1.9613333333333334, "grad_norm": 39.983211517333984, "learning_rate": 6.924444444444445e-06, "loss": 0.3655, "step": 1471 }, { "epoch": 1.9626666666666668, "grad_norm": 2.8505375385284424, "learning_rate": 6.915555555555556e-06, "loss": 0.008, "step": 1472 }, { "epoch": 1.964, "grad_norm": 0.8014863133430481, "learning_rate": 6.906666666666667e-06, "loss": 0.0045, "step": 1473 }, { "epoch": 1.9653333333333334, "grad_norm": 1.2293097972869873, "learning_rate": 6.897777777777779e-06, "loss": 0.0056, "step": 1474 }, { "epoch": 1.9666666666666668, "grad_norm": 23.034488677978516, "learning_rate": 6.88888888888889e-06, "loss": 0.3985, "step": 1475 }, { "epoch": 1.968, "grad_norm": 3.2061054706573486, "learning_rate": 6.88e-06, "loss": 0.006, "step": 1476 }, { "epoch": 1.9693333333333334, "grad_norm": 7.174966812133789, "learning_rate": 6.871111111111112e-06, "loss": 0.5267, "step": 1477 }, { "epoch": 1.9706666666666668, "grad_norm": 11.269383430480957, "learning_rate": 6.862222222222222e-06, "loss": 0.5178, "step": 1478 }, { "epoch": 1.972, "grad_norm": 0.30215540528297424, "learning_rate": 6.853333333333334e-06, "loss": 0.0025, "step": 1479 }, { "epoch": 1.9733333333333334, "grad_norm": 0.0947900116443634, "learning_rate": 6.844444444444445e-06, "loss": 0.002, "step": 1480 }, { "epoch": 1.9746666666666668, "grad_norm": 0.10220418125391006, "learning_rate": 6.835555555555556e-06, "loss": 0.0017, "step": 1481 }, { "epoch": 1.976, "grad_norm": 0.6676844358444214, "learning_rate": 6.826666666666667e-06, "loss": 0.0029, "step": 1482 }, { "epoch": 1.9773333333333334, "grad_norm": 0.5585715770721436, "learning_rate": 6.817777777777779e-06, "loss": 0.0043, "step": 1483 }, { "epoch": 1.9786666666666668, "grad_norm": 0.07985799014568329, "learning_rate": 6.80888888888889e-06, "loss": 0.0017, "step": 1484 }, { "epoch": 1.98, "grad_norm": 0.14009276032447815, "learning_rate": 6.800000000000001e-06, "loss": 0.0021, "step": 1485 }, { "epoch": 1.9813333333333332, "grad_norm": 0.0922916978597641, "learning_rate": 6.7911111111111115e-06, "loss": 0.0019, "step": 1486 }, { "epoch": 1.9826666666666668, "grad_norm": 0.3144603371620178, "learning_rate": 6.782222222222222e-06, "loss": 0.0031, "step": 1487 }, { "epoch": 1.984, "grad_norm": 14.663305282592773, "learning_rate": 6.773333333333334e-06, "loss": 0.471, "step": 1488 }, { "epoch": 1.9853333333333332, "grad_norm": 8.919342994689941, "learning_rate": 6.764444444444445e-06, "loss": 0.5112, "step": 1489 }, { "epoch": 1.9866666666666668, "grad_norm": 0.10853844881057739, "learning_rate": 6.755555555555556e-06, "loss": 0.0018, "step": 1490 }, { "epoch": 1.988, "grad_norm": 0.7259480953216553, "learning_rate": 6.746666666666667e-06, "loss": 0.0041, "step": 1491 }, { "epoch": 1.9893333333333332, "grad_norm": 49.650352478027344, "learning_rate": 6.737777777777779e-06, "loss": 0.3863, "step": 1492 }, { "epoch": 1.9906666666666668, "grad_norm": 0.39010846614837646, "learning_rate": 6.7288888888888895e-06, "loss": 0.0026, "step": 1493 }, { "epoch": 1.992, "grad_norm": 37.0239372253418, "learning_rate": 6.720000000000001e-06, "loss": 0.313, "step": 1494 }, { "epoch": 1.9933333333333332, "grad_norm": 1.0574296712875366, "learning_rate": 6.711111111111111e-06, "loss": 0.0068, "step": 1495 }, { "epoch": 1.9946666666666668, "grad_norm": 0.1064102053642273, "learning_rate": 6.702222222222224e-06, "loss": 0.002, "step": 1496 }, { "epoch": 1.996, "grad_norm": 65.07914733886719, "learning_rate": 6.693333333333334e-06, "loss": 0.3524, "step": 1497 }, { "epoch": 1.9973333333333332, "grad_norm": 12.633794784545898, "learning_rate": 6.684444444444445e-06, "loss": 0.4009, "step": 1498 }, { "epoch": 1.9986666666666668, "grad_norm": 107.31752014160156, "learning_rate": 6.675555555555556e-06, "loss": 0.1536, "step": 1499 }, { "epoch": 2.0, "grad_norm": 2.6278445720672607, "learning_rate": 6.666666666666667e-06, "loss": 0.0048, "step": 1500 }, { "epoch": 2.0, "eval_accuracy": 0.953757225433526, "eval_loss": 0.2072431445121765, "eval_runtime": 26.9439, "eval_samples_per_second": 83.47, "eval_steps_per_second": 2.635, "step": 1500 }, { "epoch": 2.001333333333333, "grad_norm": 0.21973294019699097, "learning_rate": 6.657777777777779e-06, "loss": 0.0028, "step": 1501 }, { "epoch": 2.002666666666667, "grad_norm": 0.08716049790382385, "learning_rate": 6.648888888888889e-06, "loss": 0.0017, "step": 1502 }, { "epoch": 2.004, "grad_norm": 0.40816184878349304, "learning_rate": 6.640000000000001e-06, "loss": 0.0046, "step": 1503 }, { "epoch": 2.005333333333333, "grad_norm": 0.230136439204216, "learning_rate": 6.631111111111111e-06, "loss": 0.0031, "step": 1504 }, { "epoch": 2.006666666666667, "grad_norm": 0.21828602254390717, "learning_rate": 6.6222222222222236e-06, "loss": 0.0028, "step": 1505 }, { "epoch": 2.008, "grad_norm": 1.3828930854797363, "learning_rate": 6.613333333333334e-06, "loss": 0.0061, "step": 1506 }, { "epoch": 2.009333333333333, "grad_norm": 0.0931534394621849, "learning_rate": 6.604444444444445e-06, "loss": 0.0018, "step": 1507 }, { "epoch": 2.010666666666667, "grad_norm": 29.606918334960938, "learning_rate": 6.595555555555556e-06, "loss": 0.2417, "step": 1508 }, { "epoch": 2.012, "grad_norm": 0.1962568461894989, "learning_rate": 6.5866666666666666e-06, "loss": 0.0027, "step": 1509 }, { "epoch": 2.013333333333333, "grad_norm": 13.325645446777344, "learning_rate": 6.577777777777779e-06, "loss": 0.425, "step": 1510 }, { "epoch": 2.014666666666667, "grad_norm": 0.6442707777023315, "learning_rate": 6.568888888888889e-06, "loss": 0.003, "step": 1511 }, { "epoch": 2.016, "grad_norm": 18.51636505126953, "learning_rate": 6.560000000000001e-06, "loss": 0.3796, "step": 1512 }, { "epoch": 2.017333333333333, "grad_norm": 192.5889434814453, "learning_rate": 6.551111111111111e-06, "loss": 0.3137, "step": 1513 }, { "epoch": 2.018666666666667, "grad_norm": 19.72435760498047, "learning_rate": 6.5422222222222235e-06, "loss": 0.0102, "step": 1514 }, { "epoch": 2.02, "grad_norm": 84.48111724853516, "learning_rate": 6.533333333333334e-06, "loss": 0.565, "step": 1515 }, { "epoch": 2.021333333333333, "grad_norm": 0.23955652117729187, "learning_rate": 6.524444444444445e-06, "loss": 0.0032, "step": 1516 }, { "epoch": 2.022666666666667, "grad_norm": 29.749317169189453, "learning_rate": 6.515555555555556e-06, "loss": 0.8218, "step": 1517 }, { "epoch": 2.024, "grad_norm": 0.2655538022518158, "learning_rate": 6.5066666666666665e-06, "loss": 0.0028, "step": 1518 }, { "epoch": 2.025333333333333, "grad_norm": 0.1561375856399536, "learning_rate": 6.497777777777779e-06, "loss": 0.0022, "step": 1519 }, { "epoch": 2.026666666666667, "grad_norm": 0.1464657187461853, "learning_rate": 6.488888888888889e-06, "loss": 0.0022, "step": 1520 }, { "epoch": 2.028, "grad_norm": 5.506461143493652, "learning_rate": 6.480000000000001e-06, "loss": 0.0153, "step": 1521 }, { "epoch": 2.029333333333333, "grad_norm": 14.1961088180542, "learning_rate": 6.471111111111111e-06, "loss": 0.3547, "step": 1522 }, { "epoch": 2.030666666666667, "grad_norm": 1.2821662425994873, "learning_rate": 6.462222222222223e-06, "loss": 0.0078, "step": 1523 }, { "epoch": 2.032, "grad_norm": 0.09966213256120682, "learning_rate": 6.453333333333334e-06, "loss": 0.0017, "step": 1524 }, { "epoch": 2.033333333333333, "grad_norm": 0.22582799196243286, "learning_rate": 6.444444444444445e-06, "loss": 0.0024, "step": 1525 }, { "epoch": 2.034666666666667, "grad_norm": 1.0199034214019775, "learning_rate": 6.435555555555556e-06, "loss": 0.0035, "step": 1526 }, { "epoch": 2.036, "grad_norm": 77.1421127319336, "learning_rate": 6.426666666666668e-06, "loss": 0.2943, "step": 1527 }, { "epoch": 2.037333333333333, "grad_norm": 0.08893483132123947, "learning_rate": 6.417777777777779e-06, "loss": 0.0016, "step": 1528 }, { "epoch": 2.038666666666667, "grad_norm": 4.2258076667785645, "learning_rate": 6.408888888888889e-06, "loss": 0.5922, "step": 1529 }, { "epoch": 2.04, "grad_norm": 11.95384407043457, "learning_rate": 6.4000000000000006e-06, "loss": 0.5156, "step": 1530 }, { "epoch": 2.041333333333333, "grad_norm": 0.1605321764945984, "learning_rate": 6.391111111111111e-06, "loss": 0.0015, "step": 1531 }, { "epoch": 2.042666666666667, "grad_norm": 2.903740167617798, "learning_rate": 6.382222222222223e-06, "loss": 0.011, "step": 1532 }, { "epoch": 2.044, "grad_norm": 0.6766199469566345, "learning_rate": 6.373333333333334e-06, "loss": 0.0031, "step": 1533 }, { "epoch": 2.0453333333333332, "grad_norm": 44.37566375732422, "learning_rate": 6.364444444444445e-06, "loss": 0.0607, "step": 1534 }, { "epoch": 2.046666666666667, "grad_norm": 0.10974112898111343, "learning_rate": 6.355555555555556e-06, "loss": 0.002, "step": 1535 }, { "epoch": 2.048, "grad_norm": 0.20494496822357178, "learning_rate": 6.346666666666668e-06, "loss": 0.0028, "step": 1536 }, { "epoch": 2.0493333333333332, "grad_norm": 0.8550019264221191, "learning_rate": 6.3377777777777786e-06, "loss": 0.0055, "step": 1537 }, { "epoch": 2.050666666666667, "grad_norm": 12.28849983215332, "learning_rate": 6.328888888888889e-06, "loss": 0.0087, "step": 1538 }, { "epoch": 2.052, "grad_norm": 1.1244903802871704, "learning_rate": 6.3200000000000005e-06, "loss": 0.0031, "step": 1539 }, { "epoch": 2.0533333333333332, "grad_norm": 0.14049769937992096, "learning_rate": 6.311111111111111e-06, "loss": 0.0017, "step": 1540 }, { "epoch": 2.054666666666667, "grad_norm": 0.1448071002960205, "learning_rate": 6.302222222222223e-06, "loss": 0.0023, "step": 1541 }, { "epoch": 2.056, "grad_norm": 0.10534095019102097, "learning_rate": 6.293333333333334e-06, "loss": 0.0019, "step": 1542 }, { "epoch": 2.0573333333333332, "grad_norm": 7.412267208099365, "learning_rate": 6.284444444444445e-06, "loss": 0.5757, "step": 1543 }, { "epoch": 2.058666666666667, "grad_norm": 0.15548262000083923, "learning_rate": 6.275555555555556e-06, "loss": 0.0024, "step": 1544 }, { "epoch": 2.06, "grad_norm": 5.572006702423096, "learning_rate": 6.266666666666668e-06, "loss": 0.0083, "step": 1545 }, { "epoch": 2.0613333333333332, "grad_norm": 0.12951722741127014, "learning_rate": 6.2577777777777785e-06, "loss": 0.0023, "step": 1546 }, { "epoch": 2.062666666666667, "grad_norm": 0.13874755799770355, "learning_rate": 6.24888888888889e-06, "loss": 0.0016, "step": 1547 }, { "epoch": 2.064, "grad_norm": 48.674224853515625, "learning_rate": 6.24e-06, "loss": 0.3069, "step": 1548 }, { "epoch": 2.0653333333333332, "grad_norm": 22.455493927001953, "learning_rate": 6.231111111111111e-06, "loss": 0.2413, "step": 1549 }, { "epoch": 2.066666666666667, "grad_norm": 0.136814683675766, "learning_rate": 6.222222222222223e-06, "loss": 0.0021, "step": 1550 }, { "epoch": 2.068, "grad_norm": 0.10963333398103714, "learning_rate": 6.213333333333334e-06, "loss": 0.0018, "step": 1551 }, { "epoch": 2.0693333333333332, "grad_norm": 165.57952880859375, "learning_rate": 6.204444444444445e-06, "loss": 0.2338, "step": 1552 }, { "epoch": 2.070666666666667, "grad_norm": 0.10615267604589462, "learning_rate": 6.195555555555556e-06, "loss": 0.0017, "step": 1553 }, { "epoch": 2.072, "grad_norm": 0.11457415670156479, "learning_rate": 6.186666666666668e-06, "loss": 0.002, "step": 1554 }, { "epoch": 2.0733333333333333, "grad_norm": 0.20957176387310028, "learning_rate": 6.177777777777778e-06, "loss": 0.0025, "step": 1555 }, { "epoch": 2.074666666666667, "grad_norm": 160.49742126464844, "learning_rate": 6.16888888888889e-06, "loss": 0.1067, "step": 1556 }, { "epoch": 2.076, "grad_norm": 5.042192459106445, "learning_rate": 6.16e-06, "loss": 0.5842, "step": 1557 }, { "epoch": 2.0773333333333333, "grad_norm": 0.12495815008878708, "learning_rate": 6.1511111111111125e-06, "loss": 0.0017, "step": 1558 }, { "epoch": 2.078666666666667, "grad_norm": 15.807305335998535, "learning_rate": 6.142222222222223e-06, "loss": 1.0576, "step": 1559 }, { "epoch": 2.08, "grad_norm": 0.16906969249248505, "learning_rate": 6.133333333333334e-06, "loss": 0.0029, "step": 1560 }, { "epoch": 2.0813333333333333, "grad_norm": 13.155208587646484, "learning_rate": 6.124444444444445e-06, "loss": 0.0203, "step": 1561 }, { "epoch": 2.0826666666666664, "grad_norm": 30.152618408203125, "learning_rate": 6.1155555555555555e-06, "loss": 0.1207, "step": 1562 }, { "epoch": 2.084, "grad_norm": 6.0244832038879395, "learning_rate": 6.106666666666668e-06, "loss": 0.5105, "step": 1563 }, { "epoch": 2.0853333333333333, "grad_norm": 0.1124710813164711, "learning_rate": 6.097777777777778e-06, "loss": 0.0022, "step": 1564 }, { "epoch": 2.086666666666667, "grad_norm": 0.17199675738811493, "learning_rate": 6.08888888888889e-06, "loss": 0.0028, "step": 1565 }, { "epoch": 2.088, "grad_norm": 0.4565213918685913, "learning_rate": 6.08e-06, "loss": 0.0034, "step": 1566 }, { "epoch": 2.0893333333333333, "grad_norm": 0.21287810802459717, "learning_rate": 6.0711111111111125e-06, "loss": 0.0033, "step": 1567 }, { "epoch": 2.0906666666666665, "grad_norm": 0.1844102442264557, "learning_rate": 6.062222222222223e-06, "loss": 0.0031, "step": 1568 }, { "epoch": 2.092, "grad_norm": 1.167273759841919, "learning_rate": 6.0533333333333335e-06, "loss": 0.0045, "step": 1569 }, { "epoch": 2.0933333333333333, "grad_norm": 0.23051945865154266, "learning_rate": 6.044444444444445e-06, "loss": 0.0037, "step": 1570 }, { "epoch": 2.0946666666666665, "grad_norm": 0.23901034891605377, "learning_rate": 6.0355555555555555e-06, "loss": 0.0027, "step": 1571 }, { "epoch": 2.096, "grad_norm": 0.2957967221736908, "learning_rate": 6.026666666666668e-06, "loss": 0.004, "step": 1572 }, { "epoch": 2.0973333333333333, "grad_norm": 0.1813054084777832, "learning_rate": 6.017777777777778e-06, "loss": 0.0026, "step": 1573 }, { "epoch": 2.0986666666666665, "grad_norm": 1.8794900178909302, "learning_rate": 6.00888888888889e-06, "loss": 0.0047, "step": 1574 }, { "epoch": 2.1, "grad_norm": 1.6857905387878418, "learning_rate": 6e-06, "loss": 0.0079, "step": 1575 }, { "epoch": 2.1013333333333333, "grad_norm": 9.44128704071045, "learning_rate": 5.991111111111112e-06, "loss": 0.5189, "step": 1576 }, { "epoch": 2.1026666666666665, "grad_norm": 0.5649891495704651, "learning_rate": 5.982222222222223e-06, "loss": 0.0038, "step": 1577 }, { "epoch": 2.104, "grad_norm": 299.8373107910156, "learning_rate": 5.973333333333334e-06, "loss": 0.6322, "step": 1578 }, { "epoch": 2.1053333333333333, "grad_norm": 0.1775604635477066, "learning_rate": 5.964444444444445e-06, "loss": 0.0022, "step": 1579 }, { "epoch": 2.1066666666666665, "grad_norm": 0.1013912484049797, "learning_rate": 5.955555555555555e-06, "loss": 0.0024, "step": 1580 }, { "epoch": 2.108, "grad_norm": 0.07410731166601181, "learning_rate": 5.946666666666668e-06, "loss": 0.0017, "step": 1581 }, { "epoch": 2.1093333333333333, "grad_norm": 0.06870289146900177, "learning_rate": 5.937777777777778e-06, "loss": 0.0018, "step": 1582 }, { "epoch": 2.1106666666666665, "grad_norm": 0.10864316672086716, "learning_rate": 5.9288888888888895e-06, "loss": 0.002, "step": 1583 }, { "epoch": 2.112, "grad_norm": 0.05801411718130112, "learning_rate": 5.92e-06, "loss": 0.0016, "step": 1584 }, { "epoch": 2.1133333333333333, "grad_norm": 0.05670991167426109, "learning_rate": 5.911111111111112e-06, "loss": 0.0015, "step": 1585 }, { "epoch": 2.1146666666666665, "grad_norm": 4.518853187561035, "learning_rate": 5.902222222222223e-06, "loss": 0.0071, "step": 1586 }, { "epoch": 2.116, "grad_norm": 0.0609397366642952, "learning_rate": 5.893333333333334e-06, "loss": 0.0016, "step": 1587 }, { "epoch": 2.1173333333333333, "grad_norm": 11.934228897094727, "learning_rate": 5.884444444444445e-06, "loss": 0.3514, "step": 1588 }, { "epoch": 2.1186666666666665, "grad_norm": 16.60202407836914, "learning_rate": 5.875555555555556e-06, "loss": 0.4542, "step": 1589 }, { "epoch": 2.12, "grad_norm": 0.05296841636300087, "learning_rate": 5.8666666666666675e-06, "loss": 0.0015, "step": 1590 }, { "epoch": 2.1213333333333333, "grad_norm": 0.05932968109846115, "learning_rate": 5.857777777777778e-06, "loss": 0.0015, "step": 1591 }, { "epoch": 2.1226666666666665, "grad_norm": 0.0649983361363411, "learning_rate": 5.8488888888888895e-06, "loss": 0.0015, "step": 1592 }, { "epoch": 2.124, "grad_norm": 0.047748416662216187, "learning_rate": 5.84e-06, "loss": 0.0013, "step": 1593 }, { "epoch": 2.1253333333333333, "grad_norm": 1.1547473669052124, "learning_rate": 5.831111111111112e-06, "loss": 0.0057, "step": 1594 }, { "epoch": 2.1266666666666665, "grad_norm": 29.925230026245117, "learning_rate": 5.822222222222223e-06, "loss": 1.3757, "step": 1595 }, { "epoch": 2.128, "grad_norm": 0.08188990503549576, "learning_rate": 5.813333333333334e-06, "loss": 0.0016, "step": 1596 }, { "epoch": 2.1293333333333333, "grad_norm": 0.08349346369504929, "learning_rate": 5.804444444444445e-06, "loss": 0.0017, "step": 1597 }, { "epoch": 2.1306666666666665, "grad_norm": 0.8624444007873535, "learning_rate": 5.795555555555557e-06, "loss": 0.0047, "step": 1598 }, { "epoch": 2.132, "grad_norm": 0.41606566309928894, "learning_rate": 5.7866666666666674e-06, "loss": 0.0028, "step": 1599 }, { "epoch": 2.1333333333333333, "grad_norm": 0.4265827238559723, "learning_rate": 5.777777777777778e-06, "loss": 0.0027, "step": 1600 }, { "epoch": 2.1346666666666665, "grad_norm": 0.06573953479528427, "learning_rate": 5.768888888888889e-06, "loss": 0.0015, "step": 1601 }, { "epoch": 2.136, "grad_norm": 0.07957270741462708, "learning_rate": 5.76e-06, "loss": 0.0016, "step": 1602 }, { "epoch": 2.1373333333333333, "grad_norm": 7.761568069458008, "learning_rate": 5.751111111111112e-06, "loss": 0.4544, "step": 1603 }, { "epoch": 2.1386666666666665, "grad_norm": 1.8674613237380981, "learning_rate": 5.742222222222223e-06, "loss": 0.0039, "step": 1604 }, { "epoch": 2.14, "grad_norm": 11.371295928955078, "learning_rate": 5.733333333333334e-06, "loss": 0.5003, "step": 1605 }, { "epoch": 2.1413333333333333, "grad_norm": 0.13868264853954315, "learning_rate": 5.724444444444445e-06, "loss": 0.002, "step": 1606 }, { "epoch": 2.1426666666666665, "grad_norm": 5.816766738891602, "learning_rate": 5.715555555555557e-06, "loss": 0.5486, "step": 1607 }, { "epoch": 2.144, "grad_norm": 0.10245322436094284, "learning_rate": 5.706666666666667e-06, "loss": 0.0022, "step": 1608 }, { "epoch": 2.1453333333333333, "grad_norm": 0.06508094817399979, "learning_rate": 5.697777777777779e-06, "loss": 0.0014, "step": 1609 }, { "epoch": 2.1466666666666665, "grad_norm": 15.599520683288574, "learning_rate": 5.688888888888889e-06, "loss": 0.3903, "step": 1610 }, { "epoch": 2.148, "grad_norm": 0.15024839341640472, "learning_rate": 5.68e-06, "loss": 0.0018, "step": 1611 }, { "epoch": 2.1493333333333333, "grad_norm": 13.633800506591797, "learning_rate": 5.671111111111112e-06, "loss": 0.4102, "step": 1612 }, { "epoch": 2.1506666666666665, "grad_norm": 61.68378448486328, "learning_rate": 5.662222222222223e-06, "loss": 0.108, "step": 1613 }, { "epoch": 2.152, "grad_norm": 228.44752502441406, "learning_rate": 5.653333333333334e-06, "loss": 0.1209, "step": 1614 }, { "epoch": 2.1533333333333333, "grad_norm": 0.0836319550871849, "learning_rate": 5.6444444444444445e-06, "loss": 0.0017, "step": 1615 }, { "epoch": 2.1546666666666665, "grad_norm": 29.63946533203125, "learning_rate": 5.635555555555557e-06, "loss": 0.3362, "step": 1616 }, { "epoch": 2.156, "grad_norm": 0.1123754009604454, "learning_rate": 5.626666666666667e-06, "loss": 0.0018, "step": 1617 }, { "epoch": 2.1573333333333333, "grad_norm": 0.10049694031476974, "learning_rate": 5.617777777777779e-06, "loss": 0.0019, "step": 1618 }, { "epoch": 2.1586666666666665, "grad_norm": 0.16874143481254578, "learning_rate": 5.608888888888889e-06, "loss": 0.0024, "step": 1619 }, { "epoch": 2.16, "grad_norm": 13.435025215148926, "learning_rate": 5.600000000000001e-06, "loss": 0.3932, "step": 1620 }, { "epoch": 2.1613333333333333, "grad_norm": 8.362465858459473, "learning_rate": 5.591111111111112e-06, "loss": 0.3187, "step": 1621 }, { "epoch": 2.1626666666666665, "grad_norm": 342.1257629394531, "learning_rate": 5.5822222222222225e-06, "loss": 0.2412, "step": 1622 }, { "epoch": 2.164, "grad_norm": 30.117048263549805, "learning_rate": 5.573333333333334e-06, "loss": 0.2797, "step": 1623 }, { "epoch": 2.1653333333333333, "grad_norm": 0.3440002202987671, "learning_rate": 5.5644444444444444e-06, "loss": 0.0036, "step": 1624 }, { "epoch": 2.1666666666666665, "grad_norm": 38.900264739990234, "learning_rate": 5.555555555555557e-06, "loss": 0.2377, "step": 1625 }, { "epoch": 2.168, "grad_norm": 0.5021089911460876, "learning_rate": 5.546666666666667e-06, "loss": 0.0034, "step": 1626 }, { "epoch": 2.1693333333333333, "grad_norm": 0.24104700982570648, "learning_rate": 5.537777777777779e-06, "loss": 0.003, "step": 1627 }, { "epoch": 2.1706666666666665, "grad_norm": 730.4029541015625, "learning_rate": 5.528888888888889e-06, "loss": 0.3437, "step": 1628 }, { "epoch": 2.172, "grad_norm": 123.85137939453125, "learning_rate": 5.5200000000000005e-06, "loss": 0.0536, "step": 1629 }, { "epoch": 2.1733333333333333, "grad_norm": 0.2005406618118286, "learning_rate": 5.511111111111112e-06, "loss": 0.0024, "step": 1630 }, { "epoch": 2.1746666666666665, "grad_norm": 0.31959980726242065, "learning_rate": 5.5022222222222224e-06, "loss": 0.004, "step": 1631 }, { "epoch": 2.176, "grad_norm": 0.10697323828935623, "learning_rate": 5.493333333333334e-06, "loss": 0.0021, "step": 1632 }, { "epoch": 2.1773333333333333, "grad_norm": 15.825339317321777, "learning_rate": 5.484444444444444e-06, "loss": 0.4401, "step": 1633 }, { "epoch": 2.1786666666666665, "grad_norm": 0.25746503472328186, "learning_rate": 5.475555555555557e-06, "loss": 0.0033, "step": 1634 }, { "epoch": 2.18, "grad_norm": 0.15490980446338654, "learning_rate": 5.466666666666667e-06, "loss": 0.0019, "step": 1635 }, { "epoch": 2.1813333333333333, "grad_norm": 15.599236488342285, "learning_rate": 5.4577777777777785e-06, "loss": 0.2752, "step": 1636 }, { "epoch": 2.1826666666666665, "grad_norm": 7.1724724769592285, "learning_rate": 5.448888888888889e-06, "loss": 0.3344, "step": 1637 }, { "epoch": 2.184, "grad_norm": 2.8896727561950684, "learning_rate": 5.4400000000000004e-06, "loss": 0.0098, "step": 1638 }, { "epoch": 2.1853333333333333, "grad_norm": 0.18843406438827515, "learning_rate": 5.431111111111112e-06, "loss": 0.0023, "step": 1639 }, { "epoch": 2.1866666666666665, "grad_norm": 0.12094450742006302, "learning_rate": 5.422222222222223e-06, "loss": 0.0018, "step": 1640 }, { "epoch": 2.188, "grad_norm": 0.19044333696365356, "learning_rate": 5.413333333333334e-06, "loss": 0.002, "step": 1641 }, { "epoch": 2.1893333333333334, "grad_norm": 0.3448418080806732, "learning_rate": 5.404444444444444e-06, "loss": 0.0034, "step": 1642 }, { "epoch": 2.1906666666666665, "grad_norm": 1.011839747428894, "learning_rate": 5.3955555555555565e-06, "loss": 0.0042, "step": 1643 }, { "epoch": 2.192, "grad_norm": 0.05093805864453316, "learning_rate": 5.386666666666667e-06, "loss": 0.0012, "step": 1644 }, { "epoch": 2.1933333333333334, "grad_norm": 0.41953209042549133, "learning_rate": 5.3777777777777784e-06, "loss": 0.0028, "step": 1645 }, { "epoch": 2.1946666666666665, "grad_norm": 0.8369782567024231, "learning_rate": 5.368888888888889e-06, "loss": 0.0049, "step": 1646 }, { "epoch": 2.196, "grad_norm": 0.21820397675037384, "learning_rate": 5.36e-06, "loss": 0.0032, "step": 1647 }, { "epoch": 2.1973333333333334, "grad_norm": 0.15174554288387299, "learning_rate": 5.351111111111112e-06, "loss": 0.002, "step": 1648 }, { "epoch": 2.1986666666666665, "grad_norm": 0.22246962785720825, "learning_rate": 5.342222222222223e-06, "loss": 0.0032, "step": 1649 }, { "epoch": 2.2, "grad_norm": 339.20703125, "learning_rate": 5.333333333333334e-06, "loss": 0.2438, "step": 1650 }, { "epoch": 2.2013333333333334, "grad_norm": 18.049530029296875, "learning_rate": 5.324444444444445e-06, "loss": 0.6961, "step": 1651 }, { "epoch": 2.2026666666666666, "grad_norm": 0.14489011466503143, "learning_rate": 5.3155555555555564e-06, "loss": 0.0018, "step": 1652 }, { "epoch": 2.204, "grad_norm": 0.03397635743021965, "learning_rate": 5.306666666666667e-06, "loss": 0.001, "step": 1653 }, { "epoch": 2.2053333333333334, "grad_norm": 0.4996640086174011, "learning_rate": 5.297777777777778e-06, "loss": 0.0035, "step": 1654 }, { "epoch": 2.2066666666666666, "grad_norm": 0.051848676055669785, "learning_rate": 5.288888888888889e-06, "loss": 0.0012, "step": 1655 }, { "epoch": 2.208, "grad_norm": 3.009157180786133, "learning_rate": 5.28e-06, "loss": 0.0063, "step": 1656 }, { "epoch": 2.2093333333333334, "grad_norm": 7.5349202156066895, "learning_rate": 5.271111111111112e-06, "loss": 0.5397, "step": 1657 }, { "epoch": 2.2106666666666666, "grad_norm": 0.5651199221611023, "learning_rate": 5.262222222222223e-06, "loss": 0.0049, "step": 1658 }, { "epoch": 2.212, "grad_norm": 16.68968391418457, "learning_rate": 5.2533333333333336e-06, "loss": 0.3742, "step": 1659 }, { "epoch": 2.2133333333333334, "grad_norm": 22.532651901245117, "learning_rate": 5.244444444444445e-06, "loss": 0.7261, "step": 1660 }, { "epoch": 2.2146666666666666, "grad_norm": 0.134637713432312, "learning_rate": 5.235555555555556e-06, "loss": 0.0014, "step": 1661 }, { "epoch": 2.216, "grad_norm": 69.25880432128906, "learning_rate": 5.226666666666667e-06, "loss": 0.7457, "step": 1662 }, { "epoch": 2.2173333333333334, "grad_norm": 0.22859400510787964, "learning_rate": 5.217777777777778e-06, "loss": 0.0018, "step": 1663 }, { "epoch": 2.2186666666666666, "grad_norm": 31.05269432067871, "learning_rate": 5.208888888888889e-06, "loss": 0.5142, "step": 1664 }, { "epoch": 2.22, "grad_norm": 1.2620700597763062, "learning_rate": 5.2e-06, "loss": 0.0026, "step": 1665 }, { "epoch": 2.2213333333333334, "grad_norm": 0.18553467094898224, "learning_rate": 5.1911111111111116e-06, "loss": 0.0026, "step": 1666 }, { "epoch": 2.2226666666666666, "grad_norm": 0.04560009762644768, "learning_rate": 5.182222222222223e-06, "loss": 0.0012, "step": 1667 }, { "epoch": 2.224, "grad_norm": 24.43973731994629, "learning_rate": 5.1733333333333335e-06, "loss": 0.2279, "step": 1668 }, { "epoch": 2.2253333333333334, "grad_norm": 0.5458127856254578, "learning_rate": 5.164444444444445e-06, "loss": 0.0025, "step": 1669 }, { "epoch": 2.2266666666666666, "grad_norm": 0.19275888800621033, "learning_rate": 5.155555555555556e-06, "loss": 0.0021, "step": 1670 }, { "epoch": 2.228, "grad_norm": 28.773033142089844, "learning_rate": 5.146666666666668e-06, "loss": 0.3567, "step": 1671 }, { "epoch": 2.2293333333333334, "grad_norm": 1.615864634513855, "learning_rate": 5.137777777777778e-06, "loss": 0.0105, "step": 1672 }, { "epoch": 2.2306666666666666, "grad_norm": 0.6758133172988892, "learning_rate": 5.128888888888889e-06, "loss": 0.0058, "step": 1673 }, { "epoch": 2.232, "grad_norm": 22.74061393737793, "learning_rate": 5.12e-06, "loss": 0.4257, "step": 1674 }, { "epoch": 2.2333333333333334, "grad_norm": 2.602236032485962, "learning_rate": 5.1111111111111115e-06, "loss": 0.006, "step": 1675 }, { "epoch": 2.2346666666666666, "grad_norm": 2.0908195972442627, "learning_rate": 5.102222222222223e-06, "loss": 0.0045, "step": 1676 }, { "epoch": 2.2359999999999998, "grad_norm": 0.0903589203953743, "learning_rate": 5.093333333333333e-06, "loss": 0.0015, "step": 1677 }, { "epoch": 2.2373333333333334, "grad_norm": 0.04829704761505127, "learning_rate": 5.084444444444445e-06, "loss": 0.0012, "step": 1678 }, { "epoch": 2.2386666666666666, "grad_norm": 12.616703987121582, "learning_rate": 5.075555555555556e-06, "loss": 0.5249, "step": 1679 }, { "epoch": 2.24, "grad_norm": 22.452451705932617, "learning_rate": 5.0666666666666676e-06, "loss": 0.3887, "step": 1680 }, { "epoch": 2.2413333333333334, "grad_norm": 0.5504714250564575, "learning_rate": 5.057777777777778e-06, "loss": 0.007, "step": 1681 }, { "epoch": 2.2426666666666666, "grad_norm": 0.2157517373561859, "learning_rate": 5.0488888888888895e-06, "loss": 0.0018, "step": 1682 }, { "epoch": 2.2439999999999998, "grad_norm": 159.4510040283203, "learning_rate": 5.04e-06, "loss": 0.4903, "step": 1683 }, { "epoch": 2.2453333333333334, "grad_norm": 0.34766536951065063, "learning_rate": 5.031111111111111e-06, "loss": 0.0026, "step": 1684 }, { "epoch": 2.2466666666666666, "grad_norm": 101.15868377685547, "learning_rate": 5.022222222222223e-06, "loss": 0.0136, "step": 1685 }, { "epoch": 2.248, "grad_norm": 4.594069004058838, "learning_rate": 5.013333333333333e-06, "loss": 0.0071, "step": 1686 }, { "epoch": 2.2493333333333334, "grad_norm": 1.7127089500427246, "learning_rate": 5.004444444444445e-06, "loss": 0.0035, "step": 1687 }, { "epoch": 2.2506666666666666, "grad_norm": 0.1862928569316864, "learning_rate": 4.995555555555556e-06, "loss": 0.0025, "step": 1688 }, { "epoch": 2.252, "grad_norm": 67.08817291259766, "learning_rate": 4.986666666666667e-06, "loss": 0.3142, "step": 1689 }, { "epoch": 2.2533333333333334, "grad_norm": 0.09066515415906906, "learning_rate": 4.977777777777778e-06, "loss": 0.0015, "step": 1690 }, { "epoch": 2.2546666666666666, "grad_norm": 0.13187453150749207, "learning_rate": 4.968888888888889e-06, "loss": 0.0018, "step": 1691 }, { "epoch": 2.2560000000000002, "grad_norm": 37.28289031982422, "learning_rate": 4.960000000000001e-06, "loss": 0.2738, "step": 1692 }, { "epoch": 2.2573333333333334, "grad_norm": 0.11055582761764526, "learning_rate": 4.951111111111111e-06, "loss": 0.0015, "step": 1693 }, { "epoch": 2.2586666666666666, "grad_norm": 6.355310440063477, "learning_rate": 4.942222222222223e-06, "loss": 0.5973, "step": 1694 }, { "epoch": 2.26, "grad_norm": 0.5286763906478882, "learning_rate": 4.933333333333334e-06, "loss": 0.0032, "step": 1695 }, { "epoch": 2.2613333333333334, "grad_norm": 13.273362159729004, "learning_rate": 4.924444444444445e-06, "loss": 0.4269, "step": 1696 }, { "epoch": 2.2626666666666666, "grad_norm": 0.24128419160842896, "learning_rate": 4.915555555555556e-06, "loss": 0.0028, "step": 1697 }, { "epoch": 2.2640000000000002, "grad_norm": 41.52327346801758, "learning_rate": 4.9066666666666666e-06, "loss": 0.749, "step": 1698 }, { "epoch": 2.2653333333333334, "grad_norm": 14.106904983520508, "learning_rate": 4.897777777777778e-06, "loss": 0.3858, "step": 1699 }, { "epoch": 2.2666666666666666, "grad_norm": 12.121460914611816, "learning_rate": 4.888888888888889e-06, "loss": 0.486, "step": 1700 }, { "epoch": 2.268, "grad_norm": 0.18594665825366974, "learning_rate": 4.880000000000001e-06, "loss": 0.0025, "step": 1701 }, { "epoch": 2.2693333333333334, "grad_norm": 0.08080189675092697, "learning_rate": 4.871111111111111e-06, "loss": 0.0014, "step": 1702 }, { "epoch": 2.2706666666666666, "grad_norm": 7.539499759674072, "learning_rate": 4.862222222222223e-06, "loss": 0.5767, "step": 1703 }, { "epoch": 2.2720000000000002, "grad_norm": 0.28246885538101196, "learning_rate": 4.853333333333334e-06, "loss": 0.0028, "step": 1704 }, { "epoch": 2.2733333333333334, "grad_norm": 33.0589485168457, "learning_rate": 4.8444444444444446e-06, "loss": 0.4023, "step": 1705 }, { "epoch": 2.2746666666666666, "grad_norm": 29.8232421875, "learning_rate": 4.835555555555556e-06, "loss": 0.4146, "step": 1706 }, { "epoch": 2.276, "grad_norm": 28.577316284179688, "learning_rate": 4.826666666666667e-06, "loss": 0.0256, "step": 1707 }, { "epoch": 2.2773333333333334, "grad_norm": 10.853880882263184, "learning_rate": 4.817777777777779e-06, "loss": 0.3386, "step": 1708 }, { "epoch": 2.2786666666666666, "grad_norm": 0.18438559770584106, "learning_rate": 4.808888888888889e-06, "loss": 0.0023, "step": 1709 }, { "epoch": 2.2800000000000002, "grad_norm": 53.60989761352539, "learning_rate": 4.800000000000001e-06, "loss": 0.2158, "step": 1710 }, { "epoch": 2.2813333333333334, "grad_norm": 0.07299846410751343, "learning_rate": 4.791111111111111e-06, "loss": 0.0014, "step": 1711 }, { "epoch": 2.2826666666666666, "grad_norm": 0.11320105195045471, "learning_rate": 4.7822222222222226e-06, "loss": 0.0018, "step": 1712 }, { "epoch": 2.284, "grad_norm": 0.11848258972167969, "learning_rate": 4.773333333333334e-06, "loss": 0.0016, "step": 1713 }, { "epoch": 2.2853333333333334, "grad_norm": 0.33108586072921753, "learning_rate": 4.7644444444444445e-06, "loss": 0.0033, "step": 1714 }, { "epoch": 2.2866666666666666, "grad_norm": 0.23218315839767456, "learning_rate": 4.755555555555556e-06, "loss": 0.0024, "step": 1715 }, { "epoch": 2.288, "grad_norm": 3.4157469272613525, "learning_rate": 4.746666666666667e-06, "loss": 0.0086, "step": 1716 }, { "epoch": 2.2893333333333334, "grad_norm": 1.0435882806777954, "learning_rate": 4.737777777777779e-06, "loss": 0.0065, "step": 1717 }, { "epoch": 2.2906666666666666, "grad_norm": 11.80017375946045, "learning_rate": 4.728888888888889e-06, "loss": 0.2871, "step": 1718 }, { "epoch": 2.292, "grad_norm": 0.2163102775812149, "learning_rate": 4.7200000000000005e-06, "loss": 0.0017, "step": 1719 }, { "epoch": 2.2933333333333334, "grad_norm": 0.4003317654132843, "learning_rate": 4.711111111111111e-06, "loss": 0.003, "step": 1720 }, { "epoch": 2.2946666666666666, "grad_norm": 9.362318992614746, "learning_rate": 4.7022222222222225e-06, "loss": 0.3445, "step": 1721 }, { "epoch": 2.296, "grad_norm": 29.54764175415039, "learning_rate": 4.693333333333334e-06, "loss": 0.3207, "step": 1722 }, { "epoch": 2.2973333333333334, "grad_norm": 0.30408626794815063, "learning_rate": 4.684444444444444e-06, "loss": 0.0033, "step": 1723 }, { "epoch": 2.2986666666666666, "grad_norm": 231.69515991210938, "learning_rate": 4.675555555555556e-06, "loss": 0.0391, "step": 1724 }, { "epoch": 2.3, "grad_norm": 12.075058937072754, "learning_rate": 4.666666666666667e-06, "loss": 0.5321, "step": 1725 }, { "epoch": 2.3013333333333335, "grad_norm": 0.7314155101776123, "learning_rate": 4.6577777777777785e-06, "loss": 0.0041, "step": 1726 }, { "epoch": 2.3026666666666666, "grad_norm": 0.5341492295265198, "learning_rate": 4.648888888888889e-06, "loss": 0.0045, "step": 1727 }, { "epoch": 2.304, "grad_norm": 0.27484020590782166, "learning_rate": 4.6400000000000005e-06, "loss": 0.0027, "step": 1728 }, { "epoch": 2.3053333333333335, "grad_norm": 34.2140998840332, "learning_rate": 4.631111111111111e-06, "loss": 0.3438, "step": 1729 }, { "epoch": 2.3066666666666666, "grad_norm": 181.17352294921875, "learning_rate": 4.622222222222222e-06, "loss": 0.2581, "step": 1730 }, { "epoch": 2.308, "grad_norm": 0.4199052155017853, "learning_rate": 4.613333333333334e-06, "loss": 0.0031, "step": 1731 }, { "epoch": 2.3093333333333335, "grad_norm": 121.26686096191406, "learning_rate": 4.604444444444444e-06, "loss": 0.0207, "step": 1732 }, { "epoch": 2.3106666666666666, "grad_norm": 0.080340176820755, "learning_rate": 4.595555555555556e-06, "loss": 0.0014, "step": 1733 }, { "epoch": 2.312, "grad_norm": 0.18266764283180237, "learning_rate": 4.586666666666667e-06, "loss": 0.0021, "step": 1734 }, { "epoch": 2.3133333333333335, "grad_norm": 4.553865432739258, "learning_rate": 4.5777777777777785e-06, "loss": 0.5756, "step": 1735 }, { "epoch": 2.3146666666666667, "grad_norm": 0.06629786640405655, "learning_rate": 4.568888888888889e-06, "loss": 0.0014, "step": 1736 }, { "epoch": 2.316, "grad_norm": 0.10123459994792938, "learning_rate": 4.56e-06, "loss": 0.0015, "step": 1737 }, { "epoch": 2.3173333333333335, "grad_norm": 0.08096358925104141, "learning_rate": 4.551111111111112e-06, "loss": 0.0015, "step": 1738 }, { "epoch": 2.3186666666666667, "grad_norm": 0.10289773344993591, "learning_rate": 4.542222222222223e-06, "loss": 0.0016, "step": 1739 }, { "epoch": 2.32, "grad_norm": 0.11124365031719208, "learning_rate": 4.533333333333334e-06, "loss": 0.0018, "step": 1740 }, { "epoch": 2.3213333333333335, "grad_norm": 0.06092594191431999, "learning_rate": 4.524444444444444e-06, "loss": 0.0015, "step": 1741 }, { "epoch": 2.3226666666666667, "grad_norm": 0.4326545298099518, "learning_rate": 4.515555555555556e-06, "loss": 0.0031, "step": 1742 }, { "epoch": 2.324, "grad_norm": 1.2617580890655518, "learning_rate": 4.506666666666667e-06, "loss": 0.0098, "step": 1743 }, { "epoch": 2.3253333333333335, "grad_norm": 20.635581970214844, "learning_rate": 4.497777777777778e-06, "loss": 0.4414, "step": 1744 }, { "epoch": 2.3266666666666667, "grad_norm": 0.6578171253204346, "learning_rate": 4.488888888888889e-06, "loss": 0.0034, "step": 1745 }, { "epoch": 2.328, "grad_norm": 0.8883523344993591, "learning_rate": 4.48e-06, "loss": 0.0025, "step": 1746 }, { "epoch": 2.3293333333333335, "grad_norm": 0.5177288055419922, "learning_rate": 4.471111111111112e-06, "loss": 0.0042, "step": 1747 }, { "epoch": 2.3306666666666667, "grad_norm": 25.682659149169922, "learning_rate": 4.462222222222223e-06, "loss": 0.6785, "step": 1748 }, { "epoch": 2.332, "grad_norm": 0.10977496951818466, "learning_rate": 4.453333333333334e-06, "loss": 0.0019, "step": 1749 }, { "epoch": 2.3333333333333335, "grad_norm": 63.43288040161133, "learning_rate": 4.444444444444444e-06, "loss": 0.4076, "step": 1750 }, { "epoch": 2.3346666666666667, "grad_norm": 0.05115994065999985, "learning_rate": 4.4355555555555555e-06, "loss": 0.0012, "step": 1751 }, { "epoch": 2.336, "grad_norm": 0.28178471326828003, "learning_rate": 4.426666666666667e-06, "loss": 0.0023, "step": 1752 }, { "epoch": 2.3373333333333335, "grad_norm": 18.69634246826172, "learning_rate": 4.417777777777778e-06, "loss": 0.3372, "step": 1753 }, { "epoch": 2.3386666666666667, "grad_norm": 0.0775478407740593, "learning_rate": 4.408888888888889e-06, "loss": 0.0016, "step": 1754 }, { "epoch": 2.34, "grad_norm": 10.243675231933594, "learning_rate": 4.4e-06, "loss": 0.4466, "step": 1755 }, { "epoch": 2.3413333333333335, "grad_norm": 11.649356842041016, "learning_rate": 4.391111111111112e-06, "loss": 0.322, "step": 1756 }, { "epoch": 2.3426666666666667, "grad_norm": 19.690580368041992, "learning_rate": 4.382222222222223e-06, "loss": 0.5084, "step": 1757 }, { "epoch": 2.344, "grad_norm": 0.15616509318351746, "learning_rate": 4.3733333333333335e-06, "loss": 0.0015, "step": 1758 }, { "epoch": 2.3453333333333335, "grad_norm": 1.23778235912323, "learning_rate": 4.364444444444445e-06, "loss": 0.0068, "step": 1759 }, { "epoch": 2.3466666666666667, "grad_norm": 159.92967224121094, "learning_rate": 4.3555555555555555e-06, "loss": 0.0226, "step": 1760 }, { "epoch": 2.348, "grad_norm": 31.636642456054688, "learning_rate": 4.346666666666667e-06, "loss": 0.0182, "step": 1761 }, { "epoch": 2.3493333333333335, "grad_norm": 109.91374206542969, "learning_rate": 4.337777777777778e-06, "loss": 0.1709, "step": 1762 }, { "epoch": 2.3506666666666667, "grad_norm": 0.7117184996604919, "learning_rate": 4.328888888888889e-06, "loss": 0.0025, "step": 1763 }, { "epoch": 2.352, "grad_norm": 0.14026616513729095, "learning_rate": 4.32e-06, "loss": 0.0017, "step": 1764 }, { "epoch": 2.3533333333333335, "grad_norm": 0.18739712238311768, "learning_rate": 4.3111111111111115e-06, "loss": 0.0027, "step": 1765 }, { "epoch": 2.3546666666666667, "grad_norm": 0.27799907326698303, "learning_rate": 4.302222222222223e-06, "loss": 0.003, "step": 1766 }, { "epoch": 2.356, "grad_norm": 0.287457674741745, "learning_rate": 4.2933333333333334e-06, "loss": 0.0025, "step": 1767 }, { "epoch": 2.3573333333333335, "grad_norm": 13.04664134979248, "learning_rate": 4.284444444444445e-06, "loss": 0.5108, "step": 1768 }, { "epoch": 2.3586666666666667, "grad_norm": 0.41075754165649414, "learning_rate": 4.275555555555556e-06, "loss": 0.0043, "step": 1769 }, { "epoch": 2.36, "grad_norm": 54.30905532836914, "learning_rate": 4.266666666666668e-06, "loss": 0.5805, "step": 1770 }, { "epoch": 2.3613333333333335, "grad_norm": 4.4534196853637695, "learning_rate": 4.257777777777778e-06, "loss": 0.5629, "step": 1771 }, { "epoch": 2.3626666666666667, "grad_norm": 0.19657792150974274, "learning_rate": 4.248888888888889e-06, "loss": 0.0023, "step": 1772 }, { "epoch": 2.364, "grad_norm": 359.84320068359375, "learning_rate": 4.24e-06, "loss": 0.1621, "step": 1773 }, { "epoch": 2.3653333333333335, "grad_norm": 21.846397399902344, "learning_rate": 4.2311111111111114e-06, "loss": 0.2721, "step": 1774 }, { "epoch": 2.3666666666666667, "grad_norm": 0.44062069058418274, "learning_rate": 4.222222222222223e-06, "loss": 0.0021, "step": 1775 }, { "epoch": 2.368, "grad_norm": 13.766083717346191, "learning_rate": 4.213333333333333e-06, "loss": 0.2807, "step": 1776 }, { "epoch": 2.3693333333333335, "grad_norm": 2.8081023693084717, "learning_rate": 4.204444444444445e-06, "loss": 0.006, "step": 1777 }, { "epoch": 2.3706666666666667, "grad_norm": 0.07881367951631546, "learning_rate": 4.195555555555556e-06, "loss": 0.0017, "step": 1778 }, { "epoch": 2.372, "grad_norm": 25.84630012512207, "learning_rate": 4.1866666666666675e-06, "loss": 0.3106, "step": 1779 }, { "epoch": 2.3733333333333335, "grad_norm": 0.6771817803382874, "learning_rate": 4.177777777777778e-06, "loss": 0.0047, "step": 1780 }, { "epoch": 2.3746666666666667, "grad_norm": 0.3041621148586273, "learning_rate": 4.168888888888889e-06, "loss": 0.0037, "step": 1781 }, { "epoch": 2.376, "grad_norm": 0.6001505255699158, "learning_rate": 4.16e-06, "loss": 0.004, "step": 1782 }, { "epoch": 2.3773333333333335, "grad_norm": 15.100465774536133, "learning_rate": 4.151111111111111e-06, "loss": 0.2807, "step": 1783 }, { "epoch": 2.3786666666666667, "grad_norm": 35.132083892822266, "learning_rate": 4.142222222222223e-06, "loss": 0.0207, "step": 1784 }, { "epoch": 2.38, "grad_norm": 14.706690788269043, "learning_rate": 4.133333333333333e-06, "loss": 0.4633, "step": 1785 }, { "epoch": 2.3813333333333335, "grad_norm": 1.0115078687667847, "learning_rate": 4.124444444444445e-06, "loss": 0.0037, "step": 1786 }, { "epoch": 2.3826666666666667, "grad_norm": 79.00011444091797, "learning_rate": 4.115555555555556e-06, "loss": 1.3766, "step": 1787 }, { "epoch": 2.384, "grad_norm": 0.26745185256004333, "learning_rate": 4.1066666666666674e-06, "loss": 0.002, "step": 1788 }, { "epoch": 2.3853333333333335, "grad_norm": 0.13350717723369598, "learning_rate": 4.097777777777778e-06, "loss": 0.0017, "step": 1789 }, { "epoch": 2.3866666666666667, "grad_norm": 0.27764496207237244, "learning_rate": 4.088888888888889e-06, "loss": 0.0023, "step": 1790 }, { "epoch": 2.388, "grad_norm": 1.4851418733596802, "learning_rate": 4.08e-06, "loss": 0.0088, "step": 1791 }, { "epoch": 2.389333333333333, "grad_norm": 20.063617706298828, "learning_rate": 4.071111111111111e-06, "loss": 0.3042, "step": 1792 }, { "epoch": 2.3906666666666667, "grad_norm": 0.1378372609615326, "learning_rate": 4.062222222222223e-06, "loss": 0.0016, "step": 1793 }, { "epoch": 2.392, "grad_norm": 1.1105914115905762, "learning_rate": 4.053333333333333e-06, "loss": 0.0062, "step": 1794 }, { "epoch": 2.3933333333333335, "grad_norm": 0.14371660351753235, "learning_rate": 4.044444444444445e-06, "loss": 0.0018, "step": 1795 }, { "epoch": 2.3946666666666667, "grad_norm": 0.24174454808235168, "learning_rate": 4.035555555555556e-06, "loss": 0.0017, "step": 1796 }, { "epoch": 2.396, "grad_norm": 11.915238380432129, "learning_rate": 4.026666666666667e-06, "loss": 0.4528, "step": 1797 }, { "epoch": 2.397333333333333, "grad_norm": 0.3283282518386841, "learning_rate": 4.017777777777778e-06, "loss": 0.0028, "step": 1798 }, { "epoch": 2.3986666666666667, "grad_norm": 7.035996437072754, "learning_rate": 4.008888888888889e-06, "loss": 0.005, "step": 1799 }, { "epoch": 2.4, "grad_norm": 0.4672723710536957, "learning_rate": 4.000000000000001e-06, "loss": 0.0039, "step": 1800 }, { "epoch": 2.4013333333333335, "grad_norm": 2.087583065032959, "learning_rate": 3.991111111111112e-06, "loss": 0.007, "step": 1801 }, { "epoch": 2.4026666666666667, "grad_norm": 261.5857849121094, "learning_rate": 3.982222222222223e-06, "loss": 0.6829, "step": 1802 }, { "epoch": 2.404, "grad_norm": 23.626340866088867, "learning_rate": 3.973333333333333e-06, "loss": 0.3477, "step": 1803 }, { "epoch": 2.405333333333333, "grad_norm": 0.16109661757946014, "learning_rate": 3.9644444444444445e-06, "loss": 0.0019, "step": 1804 }, { "epoch": 2.4066666666666667, "grad_norm": 0.4556334316730499, "learning_rate": 3.955555555555556e-06, "loss": 0.0045, "step": 1805 }, { "epoch": 2.408, "grad_norm": 14.570972442626953, "learning_rate": 3.946666666666667e-06, "loss": 0.2835, "step": 1806 }, { "epoch": 2.4093333333333335, "grad_norm": 0.09773216396570206, "learning_rate": 3.937777777777778e-06, "loss": 0.0019, "step": 1807 }, { "epoch": 2.4106666666666667, "grad_norm": 0.24031034111976624, "learning_rate": 3.928888888888889e-06, "loss": 0.0033, "step": 1808 }, { "epoch": 2.412, "grad_norm": 0.22704632580280304, "learning_rate": 3.920000000000001e-06, "loss": 0.0023, "step": 1809 }, { "epoch": 2.413333333333333, "grad_norm": 0.1666945219039917, "learning_rate": 3.911111111111112e-06, "loss": 0.0024, "step": 1810 }, { "epoch": 2.4146666666666667, "grad_norm": 0.1021055057644844, "learning_rate": 3.9022222222222225e-06, "loss": 0.0016, "step": 1811 }, { "epoch": 2.416, "grad_norm": 0.9148178100585938, "learning_rate": 3.893333333333333e-06, "loss": 0.0025, "step": 1812 }, { "epoch": 2.4173333333333336, "grad_norm": 16.268497467041016, "learning_rate": 3.8844444444444444e-06, "loss": 0.3959, "step": 1813 }, { "epoch": 2.4186666666666667, "grad_norm": 0.13017144799232483, "learning_rate": 3.875555555555556e-06, "loss": 0.0018, "step": 1814 }, { "epoch": 2.42, "grad_norm": 0.5480591058731079, "learning_rate": 3.866666666666667e-06, "loss": 0.0036, "step": 1815 }, { "epoch": 2.421333333333333, "grad_norm": 0.5999335050582886, "learning_rate": 3.857777777777778e-06, "loss": 0.0025, "step": 1816 }, { "epoch": 2.4226666666666667, "grad_norm": 0.21566931903362274, "learning_rate": 3.848888888888889e-06, "loss": 0.0022, "step": 1817 }, { "epoch": 2.424, "grad_norm": 0.079446941614151, "learning_rate": 3.8400000000000005e-06, "loss": 0.0016, "step": 1818 }, { "epoch": 2.4253333333333336, "grad_norm": 1.1842093467712402, "learning_rate": 3.831111111111112e-06, "loss": 0.0071, "step": 1819 }, { "epoch": 2.4266666666666667, "grad_norm": 8.918035507202148, "learning_rate": 3.8222222222222224e-06, "loss": 0.2463, "step": 1820 }, { "epoch": 2.428, "grad_norm": 0.16520477831363678, "learning_rate": 3.813333333333334e-06, "loss": 0.0018, "step": 1821 }, { "epoch": 2.429333333333333, "grad_norm": 0.135543555021286, "learning_rate": 3.8044444444444443e-06, "loss": 0.0019, "step": 1822 }, { "epoch": 2.4306666666666668, "grad_norm": 0.11920886486768723, "learning_rate": 3.7955555555555557e-06, "loss": 0.0014, "step": 1823 }, { "epoch": 2.432, "grad_norm": 0.500735342502594, "learning_rate": 3.7866666666666667e-06, "loss": 0.0024, "step": 1824 }, { "epoch": 2.4333333333333336, "grad_norm": 38.58439254760742, "learning_rate": 3.777777777777778e-06, "loss": 0.5065, "step": 1825 }, { "epoch": 2.4346666666666668, "grad_norm": 11.654443740844727, "learning_rate": 3.768888888888889e-06, "loss": 0.5902, "step": 1826 }, { "epoch": 2.436, "grad_norm": 0.2909482419490814, "learning_rate": 3.7600000000000004e-06, "loss": 0.0022, "step": 1827 }, { "epoch": 2.437333333333333, "grad_norm": 0.6268947124481201, "learning_rate": 3.7511111111111114e-06, "loss": 0.0026, "step": 1828 }, { "epoch": 2.4386666666666668, "grad_norm": 61.73165512084961, "learning_rate": 3.7422222222222228e-06, "loss": 0.4119, "step": 1829 }, { "epoch": 2.44, "grad_norm": 34.5088005065918, "learning_rate": 3.7333333333333337e-06, "loss": 0.7792, "step": 1830 }, { "epoch": 2.4413333333333336, "grad_norm": 118.99336242675781, "learning_rate": 3.724444444444445e-06, "loss": 0.2102, "step": 1831 }, { "epoch": 2.4426666666666668, "grad_norm": 281.47149658203125, "learning_rate": 3.7155555555555557e-06, "loss": 0.1893, "step": 1832 }, { "epoch": 2.444, "grad_norm": 0.1345098465681076, "learning_rate": 3.7066666666666666e-06, "loss": 0.0016, "step": 1833 }, { "epoch": 2.445333333333333, "grad_norm": 0.05043111369013786, "learning_rate": 3.697777777777778e-06, "loss": 0.0012, "step": 1834 }, { "epoch": 2.4466666666666668, "grad_norm": 0.11246661841869354, "learning_rate": 3.688888888888889e-06, "loss": 0.0014, "step": 1835 }, { "epoch": 2.448, "grad_norm": 0.2934724986553192, "learning_rate": 3.6800000000000003e-06, "loss": 0.002, "step": 1836 }, { "epoch": 2.449333333333333, "grad_norm": 0.12061769515275955, "learning_rate": 3.6711111111111113e-06, "loss": 0.0015, "step": 1837 }, { "epoch": 2.4506666666666668, "grad_norm": 0.7441300749778748, "learning_rate": 3.6622222222222227e-06, "loss": 0.0038, "step": 1838 }, { "epoch": 2.452, "grad_norm": 0.05050649121403694, "learning_rate": 3.6533333333333336e-06, "loss": 0.0012, "step": 1839 }, { "epoch": 2.453333333333333, "grad_norm": 15.747929573059082, "learning_rate": 3.644444444444445e-06, "loss": 0.2922, "step": 1840 }, { "epoch": 2.4546666666666668, "grad_norm": 0.06085015833377838, "learning_rate": 3.635555555555556e-06, "loss": 0.0012, "step": 1841 }, { "epoch": 2.456, "grad_norm": 0.07116006314754486, "learning_rate": 3.6266666666666674e-06, "loss": 0.0012, "step": 1842 }, { "epoch": 2.457333333333333, "grad_norm": 0.28556379675865173, "learning_rate": 3.617777777777778e-06, "loss": 0.002, "step": 1843 }, { "epoch": 2.458666666666667, "grad_norm": 0.07031106948852539, "learning_rate": 3.608888888888889e-06, "loss": 0.0013, "step": 1844 }, { "epoch": 2.46, "grad_norm": 0.06889360398054123, "learning_rate": 3.6000000000000003e-06, "loss": 0.001, "step": 1845 }, { "epoch": 2.461333333333333, "grad_norm": 18.1779842376709, "learning_rate": 3.5911111111111112e-06, "loss": 0.5432, "step": 1846 }, { "epoch": 2.462666666666667, "grad_norm": 0.1210639700293541, "learning_rate": 3.5822222222222226e-06, "loss": 0.0016, "step": 1847 }, { "epoch": 2.464, "grad_norm": 0.27117788791656494, "learning_rate": 3.5733333333333336e-06, "loss": 0.002, "step": 1848 }, { "epoch": 2.465333333333333, "grad_norm": 0.3998074233531952, "learning_rate": 3.564444444444445e-06, "loss": 0.0025, "step": 1849 }, { "epoch": 2.466666666666667, "grad_norm": 1.1676098108291626, "learning_rate": 3.555555555555556e-06, "loss": 0.0037, "step": 1850 }, { "epoch": 2.468, "grad_norm": 3.256704330444336, "learning_rate": 3.5466666666666673e-06, "loss": 0.011, "step": 1851 }, { "epoch": 2.469333333333333, "grad_norm": 0.16429099440574646, "learning_rate": 3.5377777777777783e-06, "loss": 0.0012, "step": 1852 }, { "epoch": 2.470666666666667, "grad_norm": 0.046634260565042496, "learning_rate": 3.528888888888889e-06, "loss": 0.0011, "step": 1853 }, { "epoch": 2.472, "grad_norm": 0.04154046252369881, "learning_rate": 3.52e-06, "loss": 0.001, "step": 1854 }, { "epoch": 2.473333333333333, "grad_norm": 0.18796555697917938, "learning_rate": 3.511111111111111e-06, "loss": 0.0018, "step": 1855 }, { "epoch": 2.474666666666667, "grad_norm": 71.94242095947266, "learning_rate": 3.5022222222222225e-06, "loss": 1.006, "step": 1856 }, { "epoch": 2.476, "grad_norm": 0.05480223894119263, "learning_rate": 3.4933333333333335e-06, "loss": 0.001, "step": 1857 }, { "epoch": 2.477333333333333, "grad_norm": 0.0844646766781807, "learning_rate": 3.484444444444445e-06, "loss": 0.0012, "step": 1858 }, { "epoch": 2.478666666666667, "grad_norm": 0.030540289357304573, "learning_rate": 3.475555555555556e-06, "loss": 0.0008, "step": 1859 }, { "epoch": 2.48, "grad_norm": 27.8427677154541, "learning_rate": 3.4666666666666672e-06, "loss": 0.4181, "step": 1860 }, { "epoch": 2.481333333333333, "grad_norm": 0.09119343012571335, "learning_rate": 3.457777777777778e-06, "loss": 0.0012, "step": 1861 }, { "epoch": 2.482666666666667, "grad_norm": 0.8133105039596558, "learning_rate": 3.4488888888888896e-06, "loss": 0.0031, "step": 1862 }, { "epoch": 2.484, "grad_norm": 1.240777850151062, "learning_rate": 3.44e-06, "loss": 0.0027, "step": 1863 }, { "epoch": 2.485333333333333, "grad_norm": 0.08648381382226944, "learning_rate": 3.431111111111111e-06, "loss": 0.0012, "step": 1864 }, { "epoch": 2.486666666666667, "grad_norm": 0.06137321516871452, "learning_rate": 3.4222222222222224e-06, "loss": 0.0011, "step": 1865 }, { "epoch": 2.488, "grad_norm": 0.06851860135793686, "learning_rate": 3.4133333333333334e-06, "loss": 0.0009, "step": 1866 }, { "epoch": 2.489333333333333, "grad_norm": 0.032066989690065384, "learning_rate": 3.404444444444445e-06, "loss": 0.0009, "step": 1867 }, { "epoch": 2.490666666666667, "grad_norm": 0.05578630417585373, "learning_rate": 3.3955555555555558e-06, "loss": 0.0009, "step": 1868 }, { "epoch": 2.492, "grad_norm": 1.1876713037490845, "learning_rate": 3.386666666666667e-06, "loss": 0.0031, "step": 1869 }, { "epoch": 2.493333333333333, "grad_norm": 0.4410512149333954, "learning_rate": 3.377777777777778e-06, "loss": 0.0019, "step": 1870 }, { "epoch": 2.494666666666667, "grad_norm": 0.14445507526397705, "learning_rate": 3.3688888888888895e-06, "loss": 0.0013, "step": 1871 }, { "epoch": 2.496, "grad_norm": 0.04805548116564751, "learning_rate": 3.3600000000000004e-06, "loss": 0.001, "step": 1872 }, { "epoch": 2.497333333333333, "grad_norm": 12.59831714630127, "learning_rate": 3.351111111111112e-06, "loss": 0.4106, "step": 1873 }, { "epoch": 2.498666666666667, "grad_norm": 0.07521210610866547, "learning_rate": 3.3422222222222224e-06, "loss": 0.0011, "step": 1874 }, { "epoch": 2.5, "grad_norm": 0.07571124285459518, "learning_rate": 3.3333333333333333e-06, "loss": 0.0012, "step": 1875 }, { "epoch": 2.501333333333333, "grad_norm": 20.84877586364746, "learning_rate": 3.3244444444444447e-06, "loss": 0.3988, "step": 1876 }, { "epoch": 2.502666666666667, "grad_norm": 0.1732233613729477, "learning_rate": 3.3155555555555557e-06, "loss": 0.0015, "step": 1877 }, { "epoch": 2.504, "grad_norm": 26.7326717376709, "learning_rate": 3.306666666666667e-06, "loss": 0.3458, "step": 1878 }, { "epoch": 2.505333333333333, "grad_norm": 0.3162992596626282, "learning_rate": 3.297777777777778e-06, "loss": 0.0018, "step": 1879 }, { "epoch": 2.506666666666667, "grad_norm": 0.341617614030838, "learning_rate": 3.2888888888888894e-06, "loss": 0.0013, "step": 1880 }, { "epoch": 2.508, "grad_norm": 19.426013946533203, "learning_rate": 3.2800000000000004e-06, "loss": 0.4564, "step": 1881 }, { "epoch": 2.509333333333333, "grad_norm": 57.20158386230469, "learning_rate": 3.2711111111111117e-06, "loss": 0.4263, "step": 1882 }, { "epoch": 2.510666666666667, "grad_norm": 0.05310586467385292, "learning_rate": 3.2622222222222227e-06, "loss": 0.001, "step": 1883 }, { "epoch": 2.512, "grad_norm": 0.028105348348617554, "learning_rate": 3.2533333333333332e-06, "loss": 0.0008, "step": 1884 }, { "epoch": 2.513333333333333, "grad_norm": 0.24613632261753082, "learning_rate": 3.2444444444444446e-06, "loss": 0.001, "step": 1885 }, { "epoch": 2.514666666666667, "grad_norm": 0.34241244196891785, "learning_rate": 3.2355555555555556e-06, "loss": 0.0017, "step": 1886 }, { "epoch": 2.516, "grad_norm": 0.481516033411026, "learning_rate": 3.226666666666667e-06, "loss": 0.0026, "step": 1887 }, { "epoch": 2.517333333333333, "grad_norm": 35.64033889770508, "learning_rate": 3.217777777777778e-06, "loss": 0.0072, "step": 1888 }, { "epoch": 2.518666666666667, "grad_norm": 32.972904205322266, "learning_rate": 3.2088888888888893e-06, "loss": 0.29, "step": 1889 }, { "epoch": 2.52, "grad_norm": 0.2047206610441208, "learning_rate": 3.2000000000000003e-06, "loss": 0.0012, "step": 1890 }, { "epoch": 2.521333333333333, "grad_norm": 11.660191535949707, "learning_rate": 3.1911111111111117e-06, "loss": 0.5633, "step": 1891 }, { "epoch": 2.522666666666667, "grad_norm": 0.08394560217857361, "learning_rate": 3.1822222222222226e-06, "loss": 0.001, "step": 1892 }, { "epoch": 2.524, "grad_norm": 188.54885864257812, "learning_rate": 3.173333333333334e-06, "loss": 0.0795, "step": 1893 }, { "epoch": 2.525333333333333, "grad_norm": 69.96046447753906, "learning_rate": 3.1644444444444445e-06, "loss": 0.8155, "step": 1894 }, { "epoch": 2.5266666666666664, "grad_norm": 0.04257004335522652, "learning_rate": 3.1555555555555555e-06, "loss": 0.0009, "step": 1895 }, { "epoch": 2.528, "grad_norm": 0.10323705524206161, "learning_rate": 3.146666666666667e-06, "loss": 0.0013, "step": 1896 }, { "epoch": 2.529333333333333, "grad_norm": 0.05758040025830269, "learning_rate": 3.137777777777778e-06, "loss": 0.0009, "step": 1897 }, { "epoch": 2.530666666666667, "grad_norm": 0.21205760538578033, "learning_rate": 3.1288888888888892e-06, "loss": 0.0014, "step": 1898 }, { "epoch": 2.532, "grad_norm": 0.19255536794662476, "learning_rate": 3.12e-06, "loss": 0.001, "step": 1899 }, { "epoch": 2.533333333333333, "grad_norm": 20.38950538635254, "learning_rate": 3.1111111111111116e-06, "loss": 0.3408, "step": 1900 }, { "epoch": 2.5346666666666664, "grad_norm": 34.56321334838867, "learning_rate": 3.1022222222222225e-06, "loss": 0.4352, "step": 1901 }, { "epoch": 2.536, "grad_norm": 39.32768249511719, "learning_rate": 3.093333333333334e-06, "loss": 0.0123, "step": 1902 }, { "epoch": 2.537333333333333, "grad_norm": 0.059501923620700836, "learning_rate": 3.084444444444445e-06, "loss": 0.0009, "step": 1903 }, { "epoch": 2.538666666666667, "grad_norm": 0.10156462341547012, "learning_rate": 3.0755555555555563e-06, "loss": 0.001, "step": 1904 }, { "epoch": 2.54, "grad_norm": 1.8126550912857056, "learning_rate": 3.066666666666667e-06, "loss": 0.005, "step": 1905 }, { "epoch": 2.541333333333333, "grad_norm": 0.12126785516738892, "learning_rate": 3.0577777777777778e-06, "loss": 0.0014, "step": 1906 }, { "epoch": 2.5426666666666664, "grad_norm": 0.04743368178606033, "learning_rate": 3.048888888888889e-06, "loss": 0.0009, "step": 1907 }, { "epoch": 2.544, "grad_norm": 75.5179443359375, "learning_rate": 3.04e-06, "loss": 0.772, "step": 1908 }, { "epoch": 2.5453333333333332, "grad_norm": 0.034393638372421265, "learning_rate": 3.0311111111111115e-06, "loss": 0.0008, "step": 1909 }, { "epoch": 2.546666666666667, "grad_norm": 21.89259910583496, "learning_rate": 3.0222222222222225e-06, "loss": 0.3417, "step": 1910 }, { "epoch": 2.548, "grad_norm": 0.153248131275177, "learning_rate": 3.013333333333334e-06, "loss": 0.0012, "step": 1911 }, { "epoch": 2.5493333333333332, "grad_norm": 2.940093517303467, "learning_rate": 3.004444444444445e-06, "loss": 0.0084, "step": 1912 }, { "epoch": 2.5506666666666664, "grad_norm": 0.28845974802970886, "learning_rate": 2.995555555555556e-06, "loss": 0.0016, "step": 1913 }, { "epoch": 2.552, "grad_norm": 0.04893907904624939, "learning_rate": 2.986666666666667e-06, "loss": 0.0009, "step": 1914 }, { "epoch": 2.5533333333333332, "grad_norm": 3.474252223968506, "learning_rate": 2.9777777777777777e-06, "loss": 0.0075, "step": 1915 }, { "epoch": 2.554666666666667, "grad_norm": 0.025650450959801674, "learning_rate": 2.968888888888889e-06, "loss": 0.0007, "step": 1916 }, { "epoch": 2.556, "grad_norm": 0.2150852233171463, "learning_rate": 2.96e-06, "loss": 0.0016, "step": 1917 }, { "epoch": 2.5573333333333332, "grad_norm": 1.3638215065002441, "learning_rate": 2.9511111111111114e-06, "loss": 0.002, "step": 1918 }, { "epoch": 2.5586666666666664, "grad_norm": 31.07931900024414, "learning_rate": 2.9422222222222224e-06, "loss": 0.2902, "step": 1919 }, { "epoch": 2.56, "grad_norm": 16.93108367919922, "learning_rate": 2.9333333333333338e-06, "loss": 0.3169, "step": 1920 }, { "epoch": 2.5613333333333332, "grad_norm": 0.02582014538347721, "learning_rate": 2.9244444444444447e-06, "loss": 0.0007, "step": 1921 }, { "epoch": 2.562666666666667, "grad_norm": 0.07840945571660995, "learning_rate": 2.915555555555556e-06, "loss": 0.0015, "step": 1922 }, { "epoch": 2.564, "grad_norm": 112.54307556152344, "learning_rate": 2.906666666666667e-06, "loss": 0.2615, "step": 1923 }, { "epoch": 2.5653333333333332, "grad_norm": 34.196533203125, "learning_rate": 2.8977777777777785e-06, "loss": 0.271, "step": 1924 }, { "epoch": 2.5666666666666664, "grad_norm": 10.024101257324219, "learning_rate": 2.888888888888889e-06, "loss": 0.3461, "step": 1925 }, { "epoch": 2.568, "grad_norm": 0.3223095238208771, "learning_rate": 2.88e-06, "loss": 0.0023, "step": 1926 }, { "epoch": 2.5693333333333332, "grad_norm": 0.104983851313591, "learning_rate": 2.8711111111111113e-06, "loss": 0.0011, "step": 1927 }, { "epoch": 2.570666666666667, "grad_norm": 0.4875829517841339, "learning_rate": 2.8622222222222223e-06, "loss": 0.0027, "step": 1928 }, { "epoch": 2.572, "grad_norm": 0.09309233725070953, "learning_rate": 2.8533333333333337e-06, "loss": 0.0013, "step": 1929 }, { "epoch": 2.5733333333333333, "grad_norm": 32.31616973876953, "learning_rate": 2.8444444444444446e-06, "loss": 0.0096, "step": 1930 }, { "epoch": 2.5746666666666664, "grad_norm": 67.84366607666016, "learning_rate": 2.835555555555556e-06, "loss": 0.3107, "step": 1931 }, { "epoch": 2.576, "grad_norm": 25.00774574279785, "learning_rate": 2.826666666666667e-06, "loss": 0.0171, "step": 1932 }, { "epoch": 2.5773333333333333, "grad_norm": 0.0333235040307045, "learning_rate": 2.8177777777777784e-06, "loss": 0.0007, "step": 1933 }, { "epoch": 2.578666666666667, "grad_norm": 34.50929641723633, "learning_rate": 2.8088888888888893e-06, "loss": 0.5174, "step": 1934 }, { "epoch": 2.58, "grad_norm": 0.022948896512389183, "learning_rate": 2.8000000000000003e-06, "loss": 0.0007, "step": 1935 }, { "epoch": 2.5813333333333333, "grad_norm": 136.189697265625, "learning_rate": 2.7911111111111113e-06, "loss": 0.0782, "step": 1936 }, { "epoch": 2.5826666666666664, "grad_norm": 41.08842468261719, "learning_rate": 2.7822222222222222e-06, "loss": 0.5703, "step": 1937 }, { "epoch": 2.584, "grad_norm": 0.22432826459407806, "learning_rate": 2.7733333333333336e-06, "loss": 0.0011, "step": 1938 }, { "epoch": 2.5853333333333333, "grad_norm": 0.09551971405744553, "learning_rate": 2.7644444444444446e-06, "loss": 0.0008, "step": 1939 }, { "epoch": 2.586666666666667, "grad_norm": 0.15356896817684174, "learning_rate": 2.755555555555556e-06, "loss": 0.0013, "step": 1940 }, { "epoch": 2.588, "grad_norm": 26.599992752075195, "learning_rate": 2.746666666666667e-06, "loss": 0.5158, "step": 1941 }, { "epoch": 2.5893333333333333, "grad_norm": 0.5443595051765442, "learning_rate": 2.7377777777777783e-06, "loss": 0.0029, "step": 1942 }, { "epoch": 2.5906666666666665, "grad_norm": 0.18643257021903992, "learning_rate": 2.7288888888888893e-06, "loss": 0.0011, "step": 1943 }, { "epoch": 2.592, "grad_norm": 0.9232782125473022, "learning_rate": 2.7200000000000002e-06, "loss": 0.0054, "step": 1944 }, { "epoch": 2.5933333333333333, "grad_norm": 0.04381855949759483, "learning_rate": 2.7111111111111116e-06, "loss": 0.0008, "step": 1945 }, { "epoch": 2.594666666666667, "grad_norm": 0.5463845729827881, "learning_rate": 2.702222222222222e-06, "loss": 0.0023, "step": 1946 }, { "epoch": 2.596, "grad_norm": 0.9881284832954407, "learning_rate": 2.6933333333333335e-06, "loss": 0.0034, "step": 1947 }, { "epoch": 2.5973333333333333, "grad_norm": 0.9847744703292847, "learning_rate": 2.6844444444444445e-06, "loss": 0.0077, "step": 1948 }, { "epoch": 2.5986666666666665, "grad_norm": 0.5903966426849365, "learning_rate": 2.675555555555556e-06, "loss": 0.0027, "step": 1949 }, { "epoch": 2.6, "grad_norm": 0.7382383942604065, "learning_rate": 2.666666666666667e-06, "loss": 0.0033, "step": 1950 }, { "epoch": 2.6013333333333333, "grad_norm": 0.36228543519973755, "learning_rate": 2.6577777777777782e-06, "loss": 0.0018, "step": 1951 }, { "epoch": 2.602666666666667, "grad_norm": 0.060839567333459854, "learning_rate": 2.648888888888889e-06, "loss": 0.0009, "step": 1952 }, { "epoch": 2.604, "grad_norm": 0.6796699166297913, "learning_rate": 2.64e-06, "loss": 0.0035, "step": 1953 }, { "epoch": 2.6053333333333333, "grad_norm": 424.1743469238281, "learning_rate": 2.6311111111111115e-06, "loss": 0.3576, "step": 1954 }, { "epoch": 2.6066666666666665, "grad_norm": 0.02400687150657177, "learning_rate": 2.6222222222222225e-06, "loss": 0.0007, "step": 1955 }, { "epoch": 2.608, "grad_norm": 0.6305756568908691, "learning_rate": 2.6133333333333334e-06, "loss": 0.0023, "step": 1956 }, { "epoch": 2.6093333333333333, "grad_norm": 0.025760751217603683, "learning_rate": 2.6044444444444444e-06, "loss": 0.0006, "step": 1957 }, { "epoch": 2.610666666666667, "grad_norm": 17.88193702697754, "learning_rate": 2.5955555555555558e-06, "loss": 0.4505, "step": 1958 }, { "epoch": 2.612, "grad_norm": 0.09291265159845352, "learning_rate": 2.5866666666666667e-06, "loss": 0.0008, "step": 1959 }, { "epoch": 2.6133333333333333, "grad_norm": 31.135175704956055, "learning_rate": 2.577777777777778e-06, "loss": 0.3335, "step": 1960 }, { "epoch": 2.6146666666666665, "grad_norm": 0.06482958048582077, "learning_rate": 2.568888888888889e-06, "loss": 0.0008, "step": 1961 }, { "epoch": 2.616, "grad_norm": 0.053908973932266235, "learning_rate": 2.56e-06, "loss": 0.0007, "step": 1962 }, { "epoch": 2.6173333333333333, "grad_norm": 0.02258874848484993, "learning_rate": 2.5511111111111114e-06, "loss": 0.0006, "step": 1963 }, { "epoch": 2.618666666666667, "grad_norm": 0.027003491297364235, "learning_rate": 2.5422222222222224e-06, "loss": 0.0007, "step": 1964 }, { "epoch": 2.62, "grad_norm": 0.039257701486349106, "learning_rate": 2.5333333333333338e-06, "loss": 0.0008, "step": 1965 }, { "epoch": 2.6213333333333333, "grad_norm": 14.575213432312012, "learning_rate": 2.5244444444444447e-06, "loss": 0.2691, "step": 1966 }, { "epoch": 2.6226666666666665, "grad_norm": 0.18351159989833832, "learning_rate": 2.5155555555555557e-06, "loss": 0.0012, "step": 1967 }, { "epoch": 2.624, "grad_norm": 1.0482378005981445, "learning_rate": 2.5066666666666667e-06, "loss": 0.0019, "step": 1968 }, { "epoch": 2.6253333333333333, "grad_norm": 29.334129333496094, "learning_rate": 2.497777777777778e-06, "loss": 0.8346, "step": 1969 }, { "epoch": 2.626666666666667, "grad_norm": 20.156723022460938, "learning_rate": 2.488888888888889e-06, "loss": 0.4492, "step": 1970 }, { "epoch": 2.628, "grad_norm": 15.501256942749023, "learning_rate": 2.4800000000000004e-06, "loss": 0.5558, "step": 1971 }, { "epoch": 2.6293333333333333, "grad_norm": 0.10395969450473785, "learning_rate": 2.4711111111111114e-06, "loss": 0.0014, "step": 1972 }, { "epoch": 2.6306666666666665, "grad_norm": 0.13458843529224396, "learning_rate": 2.4622222222222223e-06, "loss": 0.0015, "step": 1973 }, { "epoch": 2.632, "grad_norm": 0.06129691004753113, "learning_rate": 2.4533333333333333e-06, "loss": 0.0009, "step": 1974 }, { "epoch": 2.6333333333333333, "grad_norm": 5.975092887878418, "learning_rate": 2.4444444444444447e-06, "loss": 0.5752, "step": 1975 }, { "epoch": 2.634666666666667, "grad_norm": 0.09973961114883423, "learning_rate": 2.4355555555555556e-06, "loss": 0.0011, "step": 1976 }, { "epoch": 2.636, "grad_norm": 18.45016098022461, "learning_rate": 2.426666666666667e-06, "loss": 0.2972, "step": 1977 }, { "epoch": 2.6373333333333333, "grad_norm": 26.60733413696289, "learning_rate": 2.417777777777778e-06, "loss": 0.2778, "step": 1978 }, { "epoch": 2.6386666666666665, "grad_norm": 19.36882209777832, "learning_rate": 2.4088888888888894e-06, "loss": 0.3741, "step": 1979 }, { "epoch": 2.64, "grad_norm": 0.9165293574333191, "learning_rate": 2.4000000000000003e-06, "loss": 0.0032, "step": 1980 }, { "epoch": 2.6413333333333333, "grad_norm": 5.486056327819824, "learning_rate": 2.3911111111111113e-06, "loss": 0.0042, "step": 1981 }, { "epoch": 2.642666666666667, "grad_norm": 0.09699372202157974, "learning_rate": 2.3822222222222222e-06, "loss": 0.0011, "step": 1982 }, { "epoch": 2.644, "grad_norm": 28.31745147705078, "learning_rate": 2.3733333333333336e-06, "loss": 0.473, "step": 1983 }, { "epoch": 2.6453333333333333, "grad_norm": 0.6403010487556458, "learning_rate": 2.3644444444444446e-06, "loss": 0.0033, "step": 1984 }, { "epoch": 2.6466666666666665, "grad_norm": 1.6117019653320312, "learning_rate": 2.3555555555555555e-06, "loss": 0.0025, "step": 1985 }, { "epoch": 2.648, "grad_norm": 0.029221735894680023, "learning_rate": 2.346666666666667e-06, "loss": 0.0007, "step": 1986 }, { "epoch": 2.6493333333333333, "grad_norm": 0.4620104730129242, "learning_rate": 2.337777777777778e-06, "loss": 0.0023, "step": 1987 }, { "epoch": 2.6506666666666665, "grad_norm": 0.0566440112888813, "learning_rate": 2.3288888888888893e-06, "loss": 0.0009, "step": 1988 }, { "epoch": 2.652, "grad_norm": 1.1022495031356812, "learning_rate": 2.3200000000000002e-06, "loss": 0.0068, "step": 1989 }, { "epoch": 2.6533333333333333, "grad_norm": 0.04288827255368233, "learning_rate": 2.311111111111111e-06, "loss": 0.0009, "step": 1990 }, { "epoch": 2.6546666666666665, "grad_norm": 0.46654799580574036, "learning_rate": 2.302222222222222e-06, "loss": 0.0036, "step": 1991 }, { "epoch": 2.656, "grad_norm": 0.02351350523531437, "learning_rate": 2.2933333333333335e-06, "loss": 0.0007, "step": 1992 }, { "epoch": 2.6573333333333333, "grad_norm": 46.04145431518555, "learning_rate": 2.2844444444444445e-06, "loss": 0.6385, "step": 1993 }, { "epoch": 2.6586666666666665, "grad_norm": 0.12542672455310822, "learning_rate": 2.275555555555556e-06, "loss": 0.0013, "step": 1994 }, { "epoch": 2.66, "grad_norm": 25.120500564575195, "learning_rate": 2.266666666666667e-06, "loss": 0.4634, "step": 1995 }, { "epoch": 2.6613333333333333, "grad_norm": 55.31260681152344, "learning_rate": 2.257777777777778e-06, "loss": 0.9945, "step": 1996 }, { "epoch": 2.6626666666666665, "grad_norm": 0.03322829306125641, "learning_rate": 2.248888888888889e-06, "loss": 0.0007, "step": 1997 }, { "epoch": 2.664, "grad_norm": 0.0417759083211422, "learning_rate": 2.24e-06, "loss": 0.0008, "step": 1998 }, { "epoch": 2.6653333333333333, "grad_norm": 22.63526153564453, "learning_rate": 2.2311111111111115e-06, "loss": 0.2392, "step": 1999 }, { "epoch": 2.6666666666666665, "grad_norm": 0.2919301390647888, "learning_rate": 2.222222222222222e-06, "loss": 0.0017, "step": 2000 }, { "epoch": 2.668, "grad_norm": 0.13257953524589539, "learning_rate": 2.2133333333333335e-06, "loss": 0.001, "step": 2001 }, { "epoch": 2.6693333333333333, "grad_norm": 38.166900634765625, "learning_rate": 2.2044444444444444e-06, "loss": 0.354, "step": 2002 }, { "epoch": 2.6706666666666665, "grad_norm": 11.797659873962402, "learning_rate": 2.195555555555556e-06, "loss": 0.389, "step": 2003 }, { "epoch": 2.672, "grad_norm": 0.4397049844264984, "learning_rate": 2.1866666666666668e-06, "loss": 0.001, "step": 2004 }, { "epoch": 2.6733333333333333, "grad_norm": 0.030015433207154274, "learning_rate": 2.1777777777777777e-06, "loss": 0.0007, "step": 2005 }, { "epoch": 2.6746666666666665, "grad_norm": 0.13738328218460083, "learning_rate": 2.168888888888889e-06, "loss": 0.0012, "step": 2006 }, { "epoch": 2.676, "grad_norm": 4.352254867553711, "learning_rate": 2.16e-06, "loss": 0.0021, "step": 2007 }, { "epoch": 2.6773333333333333, "grad_norm": 0.12398606538772583, "learning_rate": 2.1511111111111115e-06, "loss": 0.0018, "step": 2008 }, { "epoch": 2.6786666666666665, "grad_norm": 40.99763488769531, "learning_rate": 2.1422222222222224e-06, "loss": 0.2503, "step": 2009 }, { "epoch": 2.68, "grad_norm": 0.03639939799904823, "learning_rate": 2.133333333333334e-06, "loss": 0.0007, "step": 2010 }, { "epoch": 2.6813333333333333, "grad_norm": 25.015949249267578, "learning_rate": 2.1244444444444443e-06, "loss": 0.2445, "step": 2011 }, { "epoch": 2.6826666666666665, "grad_norm": 0.7161546945571899, "learning_rate": 2.1155555555555557e-06, "loss": 0.0077, "step": 2012 }, { "epoch": 2.684, "grad_norm": 0.27509018778800964, "learning_rate": 2.1066666666666667e-06, "loss": 0.0023, "step": 2013 }, { "epoch": 2.6853333333333333, "grad_norm": 0.14953340590000153, "learning_rate": 2.097777777777778e-06, "loss": 0.0015, "step": 2014 }, { "epoch": 2.6866666666666665, "grad_norm": 0.28206920623779297, "learning_rate": 2.088888888888889e-06, "loss": 0.0016, "step": 2015 }, { "epoch": 2.6879999999999997, "grad_norm": 382.7881164550781, "learning_rate": 2.08e-06, "loss": 0.1096, "step": 2016 }, { "epoch": 2.6893333333333334, "grad_norm": 30.90070915222168, "learning_rate": 2.0711111111111114e-06, "loss": 0.5831, "step": 2017 }, { "epoch": 2.6906666666666665, "grad_norm": 0.022061694413423538, "learning_rate": 2.0622222222222223e-06, "loss": 0.0006, "step": 2018 }, { "epoch": 2.692, "grad_norm": 1.0313507318496704, "learning_rate": 2.0533333333333337e-06, "loss": 0.0037, "step": 2019 }, { "epoch": 2.6933333333333334, "grad_norm": 43.44009780883789, "learning_rate": 2.0444444444444447e-06, "loss": 0.9753, "step": 2020 }, { "epoch": 2.6946666666666665, "grad_norm": 0.4641821086406708, "learning_rate": 2.0355555555555556e-06, "loss": 0.0021, "step": 2021 }, { "epoch": 2.6959999999999997, "grad_norm": 16.9248046875, "learning_rate": 2.0266666666666666e-06, "loss": 0.5568, "step": 2022 }, { "epoch": 2.6973333333333334, "grad_norm": 8.426371574401855, "learning_rate": 2.017777777777778e-06, "loss": 0.3587, "step": 2023 }, { "epoch": 2.6986666666666665, "grad_norm": 0.26970112323760986, "learning_rate": 2.008888888888889e-06, "loss": 0.0018, "step": 2024 }, { "epoch": 2.7, "grad_norm": 0.5243261456489563, "learning_rate": 2.0000000000000003e-06, "loss": 0.0022, "step": 2025 }, { "epoch": 2.7013333333333334, "grad_norm": 1.0222141742706299, "learning_rate": 1.9911111111111113e-06, "loss": 0.005, "step": 2026 }, { "epoch": 2.7026666666666666, "grad_norm": 19.83625602722168, "learning_rate": 1.9822222222222223e-06, "loss": 0.3928, "step": 2027 }, { "epoch": 2.7039999999999997, "grad_norm": 0.1495722085237503, "learning_rate": 1.9733333333333336e-06, "loss": 0.0012, "step": 2028 }, { "epoch": 2.7053333333333334, "grad_norm": 33.6377067565918, "learning_rate": 1.9644444444444446e-06, "loss": 0.4652, "step": 2029 }, { "epoch": 2.7066666666666666, "grad_norm": 0.46278393268585205, "learning_rate": 1.955555555555556e-06, "loss": 0.0031, "step": 2030 }, { "epoch": 2.708, "grad_norm": 337.54052734375, "learning_rate": 1.9466666666666665e-06, "loss": 0.1336, "step": 2031 }, { "epoch": 2.7093333333333334, "grad_norm": 212.52066040039062, "learning_rate": 1.937777777777778e-06, "loss": 0.5964, "step": 2032 }, { "epoch": 2.7106666666666666, "grad_norm": 0.7604288458824158, "learning_rate": 1.928888888888889e-06, "loss": 0.0047, "step": 2033 }, { "epoch": 2.7119999999999997, "grad_norm": 15.303359031677246, "learning_rate": 1.9200000000000003e-06, "loss": 0.3389, "step": 2034 }, { "epoch": 2.7133333333333334, "grad_norm": 0.8628003001213074, "learning_rate": 1.9111111111111112e-06, "loss": 0.0044, "step": 2035 }, { "epoch": 2.7146666666666666, "grad_norm": 8.059155464172363, "learning_rate": 1.9022222222222222e-06, "loss": 0.0042, "step": 2036 }, { "epoch": 2.716, "grad_norm": 44.99285125732422, "learning_rate": 1.8933333333333333e-06, "loss": 0.261, "step": 2037 }, { "epoch": 2.7173333333333334, "grad_norm": 0.7078947424888611, "learning_rate": 1.8844444444444445e-06, "loss": 0.0032, "step": 2038 }, { "epoch": 2.7186666666666666, "grad_norm": 24.928817749023438, "learning_rate": 1.8755555555555557e-06, "loss": 0.3936, "step": 2039 }, { "epoch": 2.7199999999999998, "grad_norm": 0.06500247865915298, "learning_rate": 1.8666666666666669e-06, "loss": 0.0009, "step": 2040 }, { "epoch": 2.7213333333333334, "grad_norm": 30.945497512817383, "learning_rate": 1.8577777777777778e-06, "loss": 0.0239, "step": 2041 }, { "epoch": 2.7226666666666666, "grad_norm": 13.842698097229004, "learning_rate": 1.848888888888889e-06, "loss": 0.2697, "step": 2042 }, { "epoch": 2.724, "grad_norm": 2.669248104095459, "learning_rate": 1.8400000000000002e-06, "loss": 0.0027, "step": 2043 }, { "epoch": 2.7253333333333334, "grad_norm": 25.85951805114746, "learning_rate": 1.8311111111111113e-06, "loss": 0.5146, "step": 2044 }, { "epoch": 2.7266666666666666, "grad_norm": 0.33808717131614685, "learning_rate": 1.8222222222222225e-06, "loss": 0.0027, "step": 2045 }, { "epoch": 2.7279999999999998, "grad_norm": 0.3662378787994385, "learning_rate": 1.8133333333333337e-06, "loss": 0.0016, "step": 2046 }, { "epoch": 2.7293333333333334, "grad_norm": 0.07196581363677979, "learning_rate": 1.8044444444444444e-06, "loss": 0.001, "step": 2047 }, { "epoch": 2.7306666666666666, "grad_norm": 1.0028414726257324, "learning_rate": 1.7955555555555556e-06, "loss": 0.0044, "step": 2048 }, { "epoch": 2.732, "grad_norm": 0.15908192098140717, "learning_rate": 1.7866666666666668e-06, "loss": 0.0012, "step": 2049 }, { "epoch": 2.7333333333333334, "grad_norm": 0.23340588808059692, "learning_rate": 1.777777777777778e-06, "loss": 0.0017, "step": 2050 }, { "epoch": 2.7346666666666666, "grad_norm": 0.8030081391334534, "learning_rate": 1.7688888888888891e-06, "loss": 0.0033, "step": 2051 }, { "epoch": 2.7359999999999998, "grad_norm": 0.3873994052410126, "learning_rate": 1.76e-06, "loss": 0.0023, "step": 2052 }, { "epoch": 2.7373333333333334, "grad_norm": 0.17475509643554688, "learning_rate": 1.7511111111111113e-06, "loss": 0.0016, "step": 2053 }, { "epoch": 2.7386666666666666, "grad_norm": 0.053396038711071014, "learning_rate": 1.7422222222222224e-06, "loss": 0.0008, "step": 2054 }, { "epoch": 2.74, "grad_norm": 0.1630074381828308, "learning_rate": 1.7333333333333336e-06, "loss": 0.0009, "step": 2055 }, { "epoch": 2.7413333333333334, "grad_norm": 41.56733322143555, "learning_rate": 1.7244444444444448e-06, "loss": 0.5675, "step": 2056 }, { "epoch": 2.7426666666666666, "grad_norm": 22.95735740661621, "learning_rate": 1.7155555555555555e-06, "loss": 0.3755, "step": 2057 }, { "epoch": 2.7439999999999998, "grad_norm": 3.5093774795532227, "learning_rate": 1.7066666666666667e-06, "loss": 0.0068, "step": 2058 }, { "epoch": 2.7453333333333334, "grad_norm": 0.34735268354415894, "learning_rate": 1.6977777777777779e-06, "loss": 0.0022, "step": 2059 }, { "epoch": 2.7466666666666666, "grad_norm": 113.37321472167969, "learning_rate": 1.688888888888889e-06, "loss": 0.2077, "step": 2060 }, { "epoch": 2.748, "grad_norm": 0.028336720541119576, "learning_rate": 1.6800000000000002e-06, "loss": 0.0007, "step": 2061 }, { "epoch": 2.7493333333333334, "grad_norm": 85.07552337646484, "learning_rate": 1.6711111111111112e-06, "loss": 0.3908, "step": 2062 }, { "epoch": 2.7506666666666666, "grad_norm": 0.08188354969024658, "learning_rate": 1.6622222222222224e-06, "loss": 0.0012, "step": 2063 }, { "epoch": 2.752, "grad_norm": 0.9490393996238708, "learning_rate": 1.6533333333333335e-06, "loss": 0.0017, "step": 2064 }, { "epoch": 2.7533333333333334, "grad_norm": 1.0169777870178223, "learning_rate": 1.6444444444444447e-06, "loss": 0.0042, "step": 2065 }, { "epoch": 2.7546666666666666, "grad_norm": 1.3147773742675781, "learning_rate": 1.6355555555555559e-06, "loss": 0.0033, "step": 2066 }, { "epoch": 2.7560000000000002, "grad_norm": 23.130739212036133, "learning_rate": 1.6266666666666666e-06, "loss": 0.4163, "step": 2067 }, { "epoch": 2.7573333333333334, "grad_norm": 17.670108795166016, "learning_rate": 1.6177777777777778e-06, "loss": 0.0126, "step": 2068 }, { "epoch": 2.7586666666666666, "grad_norm": 0.2815313935279846, "learning_rate": 1.608888888888889e-06, "loss": 0.0015, "step": 2069 }, { "epoch": 2.76, "grad_norm": 1.9536477327346802, "learning_rate": 1.6000000000000001e-06, "loss": 0.012, "step": 2070 }, { "epoch": 2.7613333333333334, "grad_norm": 0.17436973750591278, "learning_rate": 1.5911111111111113e-06, "loss": 0.0022, "step": 2071 }, { "epoch": 2.7626666666666666, "grad_norm": 38.20689010620117, "learning_rate": 1.5822222222222223e-06, "loss": 0.3902, "step": 2072 }, { "epoch": 2.7640000000000002, "grad_norm": 0.03305307775735855, "learning_rate": 1.5733333333333334e-06, "loss": 0.0008, "step": 2073 }, { "epoch": 2.7653333333333334, "grad_norm": 0.05918196216225624, "learning_rate": 1.5644444444444446e-06, "loss": 0.0008, "step": 2074 }, { "epoch": 2.7666666666666666, "grad_norm": 0.11656118184328079, "learning_rate": 1.5555555555555558e-06, "loss": 0.0016, "step": 2075 }, { "epoch": 2.768, "grad_norm": 22.899450302124023, "learning_rate": 1.546666666666667e-06, "loss": 0.4474, "step": 2076 }, { "epoch": 2.7693333333333334, "grad_norm": 0.5219902992248535, "learning_rate": 1.5377777777777781e-06, "loss": 0.003, "step": 2077 }, { "epoch": 2.7706666666666666, "grad_norm": 0.053949929773807526, "learning_rate": 1.5288888888888889e-06, "loss": 0.0009, "step": 2078 }, { "epoch": 2.7720000000000002, "grad_norm": 384.06494140625, "learning_rate": 1.52e-06, "loss": 0.0242, "step": 2079 }, { "epoch": 2.7733333333333334, "grad_norm": 0.3771679997444153, "learning_rate": 1.5111111111111112e-06, "loss": 0.002, "step": 2080 }, { "epoch": 2.7746666666666666, "grad_norm": 0.023047901690006256, "learning_rate": 1.5022222222222224e-06, "loss": 0.0006, "step": 2081 }, { "epoch": 2.776, "grad_norm": 12.377241134643555, "learning_rate": 1.4933333333333336e-06, "loss": 0.0169, "step": 2082 }, { "epoch": 2.7773333333333334, "grad_norm": 0.03259071707725525, "learning_rate": 1.4844444444444445e-06, "loss": 0.0007, "step": 2083 }, { "epoch": 2.7786666666666666, "grad_norm": 0.21481068432331085, "learning_rate": 1.4755555555555557e-06, "loss": 0.0014, "step": 2084 }, { "epoch": 2.7800000000000002, "grad_norm": 0.12168584018945694, "learning_rate": 1.4666666666666669e-06, "loss": 0.0012, "step": 2085 }, { "epoch": 2.7813333333333334, "grad_norm": 0.6099428534507751, "learning_rate": 1.457777777777778e-06, "loss": 0.0026, "step": 2086 }, { "epoch": 2.7826666666666666, "grad_norm": 29.80950927734375, "learning_rate": 1.4488888888888892e-06, "loss": 0.4409, "step": 2087 }, { "epoch": 2.784, "grad_norm": 722.3591918945312, "learning_rate": 1.44e-06, "loss": 0.0822, "step": 2088 }, { "epoch": 2.7853333333333334, "grad_norm": 0.06675869971513748, "learning_rate": 1.4311111111111111e-06, "loss": 0.001, "step": 2089 }, { "epoch": 2.7866666666666666, "grad_norm": 0.1636940985918045, "learning_rate": 1.4222222222222223e-06, "loss": 0.0013, "step": 2090 }, { "epoch": 2.7880000000000003, "grad_norm": 0.40025386214256287, "learning_rate": 1.4133333333333335e-06, "loss": 0.0025, "step": 2091 }, { "epoch": 2.7893333333333334, "grad_norm": 0.25141677260398865, "learning_rate": 1.4044444444444447e-06, "loss": 0.0013, "step": 2092 }, { "epoch": 2.7906666666666666, "grad_norm": 0.02663254365324974, "learning_rate": 1.3955555555555556e-06, "loss": 0.0007, "step": 2093 }, { "epoch": 2.792, "grad_norm": 0.396782785654068, "learning_rate": 1.3866666666666668e-06, "loss": 0.0021, "step": 2094 }, { "epoch": 2.7933333333333334, "grad_norm": 0.022959934547543526, "learning_rate": 1.377777777777778e-06, "loss": 0.0006, "step": 2095 }, { "epoch": 2.7946666666666666, "grad_norm": 0.8238509893417358, "learning_rate": 1.3688888888888891e-06, "loss": 0.0036, "step": 2096 }, { "epoch": 2.7960000000000003, "grad_norm": 0.03277985379099846, "learning_rate": 1.3600000000000001e-06, "loss": 0.0007, "step": 2097 }, { "epoch": 2.7973333333333334, "grad_norm": 0.6971368193626404, "learning_rate": 1.351111111111111e-06, "loss": 0.0027, "step": 2098 }, { "epoch": 2.7986666666666666, "grad_norm": 0.02126278728246689, "learning_rate": 1.3422222222222222e-06, "loss": 0.0006, "step": 2099 }, { "epoch": 2.8, "grad_norm": 0.07773832976818085, "learning_rate": 1.3333333333333334e-06, "loss": 0.0009, "step": 2100 }, { "epoch": 2.8013333333333335, "grad_norm": 0.13598698377609253, "learning_rate": 1.3244444444444446e-06, "loss": 0.0011, "step": 2101 }, { "epoch": 2.8026666666666666, "grad_norm": 0.4797694981098175, "learning_rate": 1.3155555555555558e-06, "loss": 0.0026, "step": 2102 }, { "epoch": 2.8040000000000003, "grad_norm": 0.03757019713521004, "learning_rate": 1.3066666666666667e-06, "loss": 0.0007, "step": 2103 }, { "epoch": 2.8053333333333335, "grad_norm": 0.3387465476989746, "learning_rate": 1.2977777777777779e-06, "loss": 0.0017, "step": 2104 }, { "epoch": 2.8066666666666666, "grad_norm": 12.846646308898926, "learning_rate": 1.288888888888889e-06, "loss": 0.2385, "step": 2105 }, { "epoch": 2.808, "grad_norm": 0.2199900597333908, "learning_rate": 1.28e-06, "loss": 0.0017, "step": 2106 }, { "epoch": 2.8093333333333335, "grad_norm": 4.730019569396973, "learning_rate": 1.2711111111111112e-06, "loss": 0.5719, "step": 2107 }, { "epoch": 2.8106666666666666, "grad_norm": 0.038831375539302826, "learning_rate": 1.2622222222222224e-06, "loss": 0.0007, "step": 2108 }, { "epoch": 2.8120000000000003, "grad_norm": 0.044549163430929184, "learning_rate": 1.2533333333333333e-06, "loss": 0.0007, "step": 2109 }, { "epoch": 2.8133333333333335, "grad_norm": 37.69612121582031, "learning_rate": 1.2444444444444445e-06, "loss": 0.6162, "step": 2110 }, { "epoch": 2.8146666666666667, "grad_norm": 0.1389227658510208, "learning_rate": 1.2355555555555557e-06, "loss": 0.0012, "step": 2111 }, { "epoch": 2.816, "grad_norm": 0.09962499141693115, "learning_rate": 1.2266666666666666e-06, "loss": 0.001, "step": 2112 }, { "epoch": 2.8173333333333335, "grad_norm": 2.726072072982788, "learning_rate": 1.2177777777777778e-06, "loss": 0.0054, "step": 2113 }, { "epoch": 2.8186666666666667, "grad_norm": 0.024596665054559708, "learning_rate": 1.208888888888889e-06, "loss": 0.0006, "step": 2114 }, { "epoch": 2.82, "grad_norm": 0.1523442566394806, "learning_rate": 1.2000000000000002e-06, "loss": 0.0011, "step": 2115 }, { "epoch": 2.8213333333333335, "grad_norm": 35.23870086669922, "learning_rate": 1.1911111111111111e-06, "loss": 0.0163, "step": 2116 }, { "epoch": 2.8226666666666667, "grad_norm": 116.1108169555664, "learning_rate": 1.1822222222222223e-06, "loss": 0.1494, "step": 2117 }, { "epoch": 2.824, "grad_norm": 0.024406803771853447, "learning_rate": 1.1733333333333335e-06, "loss": 0.0006, "step": 2118 }, { "epoch": 2.8253333333333335, "grad_norm": 0.04381592944264412, "learning_rate": 1.1644444444444446e-06, "loss": 0.0006, "step": 2119 }, { "epoch": 2.8266666666666667, "grad_norm": 22.823959350585938, "learning_rate": 1.1555555555555556e-06, "loss": 0.5204, "step": 2120 }, { "epoch": 2.828, "grad_norm": 0.3412293791770935, "learning_rate": 1.1466666666666668e-06, "loss": 0.0022, "step": 2121 }, { "epoch": 2.8293333333333335, "grad_norm": 1.0937108993530273, "learning_rate": 1.137777777777778e-06, "loss": 0.0062, "step": 2122 }, { "epoch": 2.8306666666666667, "grad_norm": 1.015861988067627, "learning_rate": 1.128888888888889e-06, "loss": 0.0046, "step": 2123 }, { "epoch": 2.832, "grad_norm": 15.769082069396973, "learning_rate": 1.12e-06, "loss": 0.5534, "step": 2124 }, { "epoch": 2.8333333333333335, "grad_norm": 9.191170692443848, "learning_rate": 1.111111111111111e-06, "loss": 0.2764, "step": 2125 }, { "epoch": 2.8346666666666667, "grad_norm": 0.021012067794799805, "learning_rate": 1.1022222222222222e-06, "loss": 0.0006, "step": 2126 }, { "epoch": 2.836, "grad_norm": 124.56463623046875, "learning_rate": 1.0933333333333334e-06, "loss": 0.3569, "step": 2127 }, { "epoch": 2.8373333333333335, "grad_norm": 0.0869767963886261, "learning_rate": 1.0844444444444446e-06, "loss": 0.0008, "step": 2128 }, { "epoch": 2.8386666666666667, "grad_norm": 18.921253204345703, "learning_rate": 1.0755555555555557e-06, "loss": 0.5046, "step": 2129 }, { "epoch": 2.84, "grad_norm": 1.431925654411316, "learning_rate": 1.066666666666667e-06, "loss": 0.0044, "step": 2130 }, { "epoch": 2.8413333333333335, "grad_norm": 0.035911139100790024, "learning_rate": 1.0577777777777779e-06, "loss": 0.0007, "step": 2131 }, { "epoch": 2.8426666666666667, "grad_norm": 20.6807918548584, "learning_rate": 1.048888888888889e-06, "loss": 0.0064, "step": 2132 }, { "epoch": 2.844, "grad_norm": 27.524892807006836, "learning_rate": 1.04e-06, "loss": 0.5169, "step": 2133 }, { "epoch": 2.8453333333333335, "grad_norm": 0.32670605182647705, "learning_rate": 1.0311111111111112e-06, "loss": 0.0012, "step": 2134 }, { "epoch": 2.8466666666666667, "grad_norm": 0.07982155680656433, "learning_rate": 1.0222222222222223e-06, "loss": 0.0008, "step": 2135 }, { "epoch": 2.848, "grad_norm": 250.01687622070312, "learning_rate": 1.0133333333333333e-06, "loss": 0.2596, "step": 2136 }, { "epoch": 2.8493333333333335, "grad_norm": 73.56905364990234, "learning_rate": 1.0044444444444445e-06, "loss": 0.2852, "step": 2137 }, { "epoch": 2.8506666666666667, "grad_norm": 1.5123237371444702, "learning_rate": 9.955555555555556e-07, "loss": 0.0017, "step": 2138 }, { "epoch": 2.852, "grad_norm": 7.594943046569824, "learning_rate": 9.866666666666668e-07, "loss": 0.0091, "step": 2139 }, { "epoch": 2.8533333333333335, "grad_norm": 0.031820524483919144, "learning_rate": 9.77777777777778e-07, "loss": 0.0007, "step": 2140 }, { "epoch": 2.8546666666666667, "grad_norm": 0.02381485141813755, "learning_rate": 9.68888888888889e-07, "loss": 0.0007, "step": 2141 }, { "epoch": 2.856, "grad_norm": 0.09739511460065842, "learning_rate": 9.600000000000001e-07, "loss": 0.001, "step": 2142 }, { "epoch": 2.857333333333333, "grad_norm": 40.19291687011719, "learning_rate": 9.511111111111111e-07, "loss": 0.0049, "step": 2143 }, { "epoch": 2.8586666666666667, "grad_norm": 0.07001561671495438, "learning_rate": 9.422222222222223e-07, "loss": 0.0008, "step": 2144 }, { "epoch": 2.86, "grad_norm": 82.92972564697266, "learning_rate": 9.333333333333334e-07, "loss": 0.1644, "step": 2145 }, { "epoch": 2.8613333333333335, "grad_norm": 149.378662109375, "learning_rate": 9.244444444444445e-07, "loss": 0.5898, "step": 2146 }, { "epoch": 2.8626666666666667, "grad_norm": 21.25759506225586, "learning_rate": 9.155555555555557e-07, "loss": 0.3802, "step": 2147 }, { "epoch": 2.864, "grad_norm": 0.08110994845628738, "learning_rate": 9.066666666666668e-07, "loss": 0.0009, "step": 2148 }, { "epoch": 2.865333333333333, "grad_norm": 0.05316106975078583, "learning_rate": 8.977777777777778e-07, "loss": 0.0009, "step": 2149 }, { "epoch": 2.8666666666666667, "grad_norm": 1.2713360786437988, "learning_rate": 8.88888888888889e-07, "loss": 0.0023, "step": 2150 }, { "epoch": 2.868, "grad_norm": 13.548941612243652, "learning_rate": 8.8e-07, "loss": 0.2544, "step": 2151 }, { "epoch": 2.8693333333333335, "grad_norm": 170.5789031982422, "learning_rate": 8.711111111111112e-07, "loss": 0.2688, "step": 2152 }, { "epoch": 2.8706666666666667, "grad_norm": 1.475039005279541, "learning_rate": 8.622222222222224e-07, "loss": 0.0066, "step": 2153 }, { "epoch": 2.872, "grad_norm": 0.09990980476140976, "learning_rate": 8.533333333333334e-07, "loss": 0.0008, "step": 2154 }, { "epoch": 2.873333333333333, "grad_norm": 36.615928649902344, "learning_rate": 8.444444444444445e-07, "loss": 0.5639, "step": 2155 }, { "epoch": 2.8746666666666667, "grad_norm": 0.18951250612735748, "learning_rate": 8.355555555555556e-07, "loss": 0.0012, "step": 2156 }, { "epoch": 2.876, "grad_norm": 35.52928161621094, "learning_rate": 8.266666666666668e-07, "loss": 0.0083, "step": 2157 }, { "epoch": 2.8773333333333335, "grad_norm": 0.4665152132511139, "learning_rate": 8.177777777777779e-07, "loss": 0.0013, "step": 2158 }, { "epoch": 2.8786666666666667, "grad_norm": 1.9059052467346191, "learning_rate": 8.088888888888889e-07, "loss": 0.0032, "step": 2159 }, { "epoch": 2.88, "grad_norm": 0.1530025452375412, "learning_rate": 8.000000000000001e-07, "loss": 0.0013, "step": 2160 }, { "epoch": 2.881333333333333, "grad_norm": 0.04257744550704956, "learning_rate": 7.911111111111111e-07, "loss": 0.0008, "step": 2161 }, { "epoch": 2.8826666666666667, "grad_norm": 0.0197782963514328, "learning_rate": 7.822222222222223e-07, "loss": 0.0006, "step": 2162 }, { "epoch": 2.884, "grad_norm": 1.764649510383606, "learning_rate": 7.733333333333335e-07, "loss": 0.007, "step": 2163 }, { "epoch": 2.8853333333333335, "grad_norm": 0.5775858163833618, "learning_rate": 7.644444444444444e-07, "loss": 0.0027, "step": 2164 }, { "epoch": 2.8866666666666667, "grad_norm": 26.35997772216797, "learning_rate": 7.555555555555556e-07, "loss": 0.4607, "step": 2165 }, { "epoch": 2.888, "grad_norm": 0.039850570261478424, "learning_rate": 7.466666666666668e-07, "loss": 0.0008, "step": 2166 }, { "epoch": 2.889333333333333, "grad_norm": 13.519153594970703, "learning_rate": 7.377777777777779e-07, "loss": 0.5924, "step": 2167 }, { "epoch": 2.8906666666666667, "grad_norm": 33.57373046875, "learning_rate": 7.28888888888889e-07, "loss": 1.0497, "step": 2168 }, { "epoch": 2.892, "grad_norm": 0.570203423500061, "learning_rate": 7.2e-07, "loss": 0.004, "step": 2169 }, { "epoch": 2.8933333333333335, "grad_norm": 0.06398206204175949, "learning_rate": 7.111111111111112e-07, "loss": 0.0007, "step": 2170 }, { "epoch": 2.8946666666666667, "grad_norm": 33.42972183227539, "learning_rate": 7.022222222222223e-07, "loss": 0.3406, "step": 2171 }, { "epoch": 2.896, "grad_norm": 34.91133117675781, "learning_rate": 6.933333333333334e-07, "loss": 0.4055, "step": 2172 }, { "epoch": 2.897333333333333, "grad_norm": 0.1328393965959549, "learning_rate": 6.844444444444446e-07, "loss": 0.0012, "step": 2173 }, { "epoch": 2.8986666666666667, "grad_norm": 57.781864166259766, "learning_rate": 6.755555555555555e-07, "loss": 0.0159, "step": 2174 }, { "epoch": 2.9, "grad_norm": 1.4687128067016602, "learning_rate": 6.666666666666667e-07, "loss": 0.0062, "step": 2175 }, { "epoch": 2.9013333333333335, "grad_norm": 3.3643527030944824, "learning_rate": 6.577777777777779e-07, "loss": 0.0074, "step": 2176 }, { "epoch": 2.9026666666666667, "grad_norm": 0.02527746744453907, "learning_rate": 6.488888888888889e-07, "loss": 0.0006, "step": 2177 }, { "epoch": 2.904, "grad_norm": 0.26895707845687866, "learning_rate": 6.4e-07, "loss": 0.0016, "step": 2178 }, { "epoch": 2.905333333333333, "grad_norm": 0.10070569813251495, "learning_rate": 6.311111111111112e-07, "loss": 0.0009, "step": 2179 }, { "epoch": 2.9066666666666667, "grad_norm": 2.560640811920166, "learning_rate": 6.222222222222223e-07, "loss": 0.0034, "step": 2180 }, { "epoch": 2.908, "grad_norm": 87.53323364257812, "learning_rate": 6.133333333333333e-07, "loss": 0.0176, "step": 2181 }, { "epoch": 2.9093333333333335, "grad_norm": 99.69659423828125, "learning_rate": 6.044444444444445e-07, "loss": 0.1454, "step": 2182 }, { "epoch": 2.9106666666666667, "grad_norm": 0.0971820279955864, "learning_rate": 5.955555555555556e-07, "loss": 0.0011, "step": 2183 }, { "epoch": 2.912, "grad_norm": 16.610445022583008, "learning_rate": 5.866666666666667e-07, "loss": 0.6011, "step": 2184 }, { "epoch": 2.913333333333333, "grad_norm": 0.057896483689546585, "learning_rate": 5.777777777777778e-07, "loss": 0.0007, "step": 2185 }, { "epoch": 2.9146666666666667, "grad_norm": 1.4723398685455322, "learning_rate": 5.68888888888889e-07, "loss": 0.007, "step": 2186 }, { "epoch": 2.916, "grad_norm": 0.03660687804222107, "learning_rate": 5.6e-07, "loss": 0.0006, "step": 2187 }, { "epoch": 2.9173333333333336, "grad_norm": 0.025584707036614418, "learning_rate": 5.511111111111111e-07, "loss": 0.0007, "step": 2188 }, { "epoch": 2.9186666666666667, "grad_norm": 0.06897561252117157, "learning_rate": 5.422222222222223e-07, "loss": 0.0007, "step": 2189 }, { "epoch": 2.92, "grad_norm": 0.05708562582731247, "learning_rate": 5.333333333333335e-07, "loss": 0.0009, "step": 2190 }, { "epoch": 2.921333333333333, "grad_norm": 0.4871264100074768, "learning_rate": 5.244444444444445e-07, "loss": 0.0026, "step": 2191 }, { "epoch": 2.9226666666666667, "grad_norm": 0.47532951831817627, "learning_rate": 5.155555555555556e-07, "loss": 0.0013, "step": 2192 }, { "epoch": 2.924, "grad_norm": 0.17150188982486725, "learning_rate": 5.066666666666667e-07, "loss": 0.0013, "step": 2193 }, { "epoch": 2.9253333333333336, "grad_norm": 0.019875993952155113, "learning_rate": 4.977777777777778e-07, "loss": 0.0006, "step": 2194 }, { "epoch": 2.9266666666666667, "grad_norm": 0.23413217067718506, "learning_rate": 4.88888888888889e-07, "loss": 0.0026, "step": 2195 }, { "epoch": 2.928, "grad_norm": 0.6156684756278992, "learning_rate": 4.800000000000001e-07, "loss": 0.0022, "step": 2196 }, { "epoch": 2.929333333333333, "grad_norm": 0.18328867852687836, "learning_rate": 4.7111111111111113e-07, "loss": 0.0012, "step": 2197 }, { "epoch": 2.9306666666666668, "grad_norm": 0.06719297170639038, "learning_rate": 4.6222222222222225e-07, "loss": 0.0008, "step": 2198 }, { "epoch": 2.932, "grad_norm": 0.02382493205368519, "learning_rate": 4.533333333333334e-07, "loss": 0.0006, "step": 2199 }, { "epoch": 2.9333333333333336, "grad_norm": 755.5382690429688, "learning_rate": 4.444444444444445e-07, "loss": 0.2595, "step": 2200 }, { "epoch": 2.9346666666666668, "grad_norm": 0.8425825834274292, "learning_rate": 4.355555555555556e-07, "loss": 0.0045, "step": 2201 }, { "epoch": 2.936, "grad_norm": 39.40986633300781, "learning_rate": 4.266666666666667e-07, "loss": 0.5392, "step": 2202 }, { "epoch": 2.937333333333333, "grad_norm": 50.41126251220703, "learning_rate": 4.177777777777778e-07, "loss": 0.6843, "step": 2203 }, { "epoch": 2.9386666666666668, "grad_norm": 0.47921520471572876, "learning_rate": 4.0888888888888897e-07, "loss": 0.0061, "step": 2204 }, { "epoch": 2.94, "grad_norm": 17.618616104125977, "learning_rate": 4.0000000000000003e-07, "loss": 0.3886, "step": 2205 }, { "epoch": 2.9413333333333336, "grad_norm": 0.8892105221748352, "learning_rate": 3.9111111111111115e-07, "loss": 0.0024, "step": 2206 }, { "epoch": 2.9426666666666668, "grad_norm": 0.14184188842773438, "learning_rate": 3.822222222222222e-07, "loss": 0.001, "step": 2207 }, { "epoch": 2.944, "grad_norm": 18.498905181884766, "learning_rate": 3.733333333333334e-07, "loss": 0.2474, "step": 2208 }, { "epoch": 2.945333333333333, "grad_norm": 38.840057373046875, "learning_rate": 3.644444444444445e-07, "loss": 0.3286, "step": 2209 }, { "epoch": 2.9466666666666668, "grad_norm": 151.0657501220703, "learning_rate": 3.555555555555556e-07, "loss": 0.2603, "step": 2210 }, { "epoch": 2.948, "grad_norm": 0.5361657738685608, "learning_rate": 3.466666666666667e-07, "loss": 0.0025, "step": 2211 }, { "epoch": 2.9493333333333336, "grad_norm": 0.02858174592256546, "learning_rate": 3.3777777777777777e-07, "loss": 0.0007, "step": 2212 }, { "epoch": 2.9506666666666668, "grad_norm": 0.2960554361343384, "learning_rate": 3.2888888888888894e-07, "loss": 0.0021, "step": 2213 }, { "epoch": 2.952, "grad_norm": 0.15168897807598114, "learning_rate": 3.2e-07, "loss": 0.0008, "step": 2214 }, { "epoch": 2.953333333333333, "grad_norm": 54.33277130126953, "learning_rate": 3.111111111111111e-07, "loss": 0.4166, "step": 2215 }, { "epoch": 2.9546666666666668, "grad_norm": 0.09533650428056717, "learning_rate": 3.0222222222222225e-07, "loss": 0.001, "step": 2216 }, { "epoch": 2.956, "grad_norm": 0.45193353295326233, "learning_rate": 2.9333333333333337e-07, "loss": 0.0025, "step": 2217 }, { "epoch": 2.9573333333333336, "grad_norm": 0.023185839876532555, "learning_rate": 2.844444444444445e-07, "loss": 0.0006, "step": 2218 }, { "epoch": 2.958666666666667, "grad_norm": 0.3143797814846039, "learning_rate": 2.7555555555555555e-07, "loss": 0.0016, "step": 2219 }, { "epoch": 2.96, "grad_norm": 0.25473251938819885, "learning_rate": 2.666666666666667e-07, "loss": 0.0014, "step": 2220 }, { "epoch": 2.961333333333333, "grad_norm": 0.02141093835234642, "learning_rate": 2.577777777777778e-07, "loss": 0.0006, "step": 2221 }, { "epoch": 2.962666666666667, "grad_norm": 527.39013671875, "learning_rate": 2.488888888888889e-07, "loss": 0.2638, "step": 2222 }, { "epoch": 2.964, "grad_norm": 0.08343927562236786, "learning_rate": 2.4000000000000003e-07, "loss": 0.0009, "step": 2223 }, { "epoch": 2.9653333333333336, "grad_norm": 0.8825082778930664, "learning_rate": 2.3111111111111112e-07, "loss": 0.0071, "step": 2224 }, { "epoch": 2.966666666666667, "grad_norm": 38.85169219970703, "learning_rate": 2.2222222222222224e-07, "loss": 0.798, "step": 2225 }, { "epoch": 2.968, "grad_norm": 0.7748185396194458, "learning_rate": 2.1333333333333334e-07, "loss": 0.0024, "step": 2226 }, { "epoch": 2.969333333333333, "grad_norm": 29.882898330688477, "learning_rate": 2.0444444444444448e-07, "loss": 0.3474, "step": 2227 }, { "epoch": 2.970666666666667, "grad_norm": 70.68009948730469, "learning_rate": 1.9555555555555558e-07, "loss": 0.3694, "step": 2228 }, { "epoch": 2.972, "grad_norm": 81.38697814941406, "learning_rate": 1.866666666666667e-07, "loss": 0.459, "step": 2229 }, { "epoch": 2.9733333333333336, "grad_norm": 64.1339340209961, "learning_rate": 1.777777777777778e-07, "loss": 0.4648, "step": 2230 }, { "epoch": 2.974666666666667, "grad_norm": 0.1332729458808899, "learning_rate": 1.6888888888888888e-07, "loss": 0.0011, "step": 2231 }, { "epoch": 2.976, "grad_norm": 0.08293462544679642, "learning_rate": 1.6e-07, "loss": 0.001, "step": 2232 }, { "epoch": 2.977333333333333, "grad_norm": 1.4303702116012573, "learning_rate": 1.5111111111111112e-07, "loss": 0.007, "step": 2233 }, { "epoch": 2.978666666666667, "grad_norm": 0.1696573793888092, "learning_rate": 1.4222222222222224e-07, "loss": 0.0013, "step": 2234 }, { "epoch": 2.98, "grad_norm": 0.07845105230808258, "learning_rate": 1.3333333333333336e-07, "loss": 0.0009, "step": 2235 }, { "epoch": 2.981333333333333, "grad_norm": 0.1806916743516922, "learning_rate": 1.2444444444444446e-07, "loss": 0.0011, "step": 2236 }, { "epoch": 2.982666666666667, "grad_norm": 0.15809156000614166, "learning_rate": 1.1555555555555556e-07, "loss": 0.0011, "step": 2237 }, { "epoch": 2.984, "grad_norm": 0.7303739786148071, "learning_rate": 1.0666666666666667e-07, "loss": 0.003, "step": 2238 }, { "epoch": 2.985333333333333, "grad_norm": 5.324014186859131, "learning_rate": 9.777777777777779e-08, "loss": 0.0022, "step": 2239 }, { "epoch": 2.986666666666667, "grad_norm": 0.041307806968688965, "learning_rate": 8.88888888888889e-08, "loss": 0.0006, "step": 2240 }, { "epoch": 2.988, "grad_norm": 1.1886028051376343, "learning_rate": 8e-08, "loss": 0.0027, "step": 2241 }, { "epoch": 2.989333333333333, "grad_norm": 0.02952580526471138, "learning_rate": 7.111111111111112e-08, "loss": 0.0006, "step": 2242 }, { "epoch": 2.990666666666667, "grad_norm": 0.09329274296760559, "learning_rate": 6.222222222222223e-08, "loss": 0.0008, "step": 2243 }, { "epoch": 2.992, "grad_norm": 0.24295726418495178, "learning_rate": 5.3333333333333334e-08, "loss": 0.0029, "step": 2244 }, { "epoch": 2.993333333333333, "grad_norm": 42.08897018432617, "learning_rate": 4.444444444444445e-08, "loss": 1.295, "step": 2245 }, { "epoch": 2.994666666666667, "grad_norm": 0.02137308195233345, "learning_rate": 3.555555555555556e-08, "loss": 0.0006, "step": 2246 }, { "epoch": 2.996, "grad_norm": 0.14001862704753876, "learning_rate": 2.6666666666666667e-08, "loss": 0.0007, "step": 2247 }, { "epoch": 2.997333333333333, "grad_norm": 73.10365295410156, "learning_rate": 1.777777777777778e-08, "loss": 0.4545, "step": 2248 }, { "epoch": 2.998666666666667, "grad_norm": 0.06186581775546074, "learning_rate": 8.88888888888889e-09, "loss": 0.0009, "step": 2249 }, { "epoch": 3.0, "grad_norm": 0.07215374708175659, "learning_rate": 0.0, "loss": 0.0007, "step": 2250 }, { "epoch": 3.0, "eval_accuracy": 0.953757225433526, "eval_loss": 0.2263547033071518, "eval_runtime": 52.7718, "eval_samples_per_second": 42.617, "eval_steps_per_second": 1.345, "step": 2250 } ], "logging_steps": 1, "max_steps": 2250, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 644746887383040.0, "train_batch_size": 12, "trial_name": null, "trial_params": null }