checkpoint-9376/trainer_state.json

4.9 KB · 200 lines · json Raw

1	`{`
2	`"best_metric": 1.0019118785858154,`
3	`"best_model_checkpoint": "fairface_age_image_detection/checkpoint-9376",`
4	`"epoch": 4.0,`
5	`"eval_steps": 500,`
6	`"global_step": 9376,`
7	`"is_hyper_param_search": false,`
8	`"is_local_process_zero": true,`
9	`"is_world_process_zero": true,`
10	`"log_history": [`
11	`{`
12	`"epoch": 0.21331058020477817,`
13	`"grad_norm": 2.756800413131714,`
14	`"learning_rate": 5.710486811065838e-06,`
15	`"loss": 1.7206,`
16	`"step": 500`
17	`},`
18	`{`
19	`"epoch": 0.42662116040955633,`
20	`"grad_norm": 3.085395097732544,`
21	`"learning_rate": 5.3888054900278794e-06,`
22	`"loss": 1.3151,`
23	`"step": 1000`
24	`},`
25	`{`
26	`"epoch": 0.6399317406143344,`
27	`"grad_norm": 3.533961057662964,`
28	`"learning_rate": 5.067124168989921e-06,`
29	`"loss": 1.212,`
30	`"step": 1500`
31	`},`
32	`{`
33	`"epoch": 0.8532423208191127,`
34	`"grad_norm": 5.493643283843994,`
35	`"learning_rate": 4.745442847951962e-06,`
36	`"loss": 1.145,`
37	`"step": 2000`
38	`},`
39	`{`
40	`"epoch": 1.0,`
41	`"eval_accuracy": 0.5652,`
42	`"eval_loss": 1.115075707435608,`
43	`"eval_model_preparation_time": 0.0037,`
44	`"eval_runtime": 903.327,`
45	`"eval_samples_per_second": 11.07,`
46	`"eval_steps_per_second": 1.384,`
47	`"step": 2344`
48	`},`
49	`{`
50	`"epoch": 1.0665529010238908,`
51	`"grad_norm": 5.28899621963501,`
52	`"learning_rate": 4.423761526914004e-06,`
53	`"loss": 1.1006,`
54	`"step": 2500`
55	`},`
56	`{`
57	`"epoch": 1.2798634812286689,`
58	`"grad_norm": 6.52961540222168,`
59	`"learning_rate": 4.102080205876046e-06,`
60	`"loss": 1.0519,`
61	`"step": 3000`
62	`},`
63	`{`
64	`"epoch": 1.493174061433447,`
65	`"grad_norm": 10.652497291564941,`
66	`"learning_rate": 3.7803988848380875e-06,`
67	`"loss": 1.0292,`
68	`"step": 3500`
69	`},`
70	`{`
71	`"epoch": 1.7064846416382253,`
72	`"grad_norm": 5.245483875274658,`
73	`"learning_rate": 3.4587175638001284e-06,`
74	`"loss": 1.016,`
75	`"step": 4000`
76	`},`
77	`{`
78	`"epoch": 1.9197952218430034,`
79	`"grad_norm": 4.070522308349609,`
80	`"learning_rate": 3.1370362427621706e-06,`
81	`"loss": 1.0056,`
82	`"step": 4500`
83	`},`
84	`{`
85	`"epoch": 2.0,`
86	`"eval_accuracy": 0.5831,`
87	`"eval_loss": 1.030907392501831,`
88	`"eval_model_preparation_time": 0.0037,`
89	`"eval_runtime": 917.4025,`
90	`"eval_samples_per_second": 10.9,`
91	`"eval_steps_per_second": 1.363,`
92	`"step": 4688`
93	`},`
94	`{`
95	`"epoch": 2.1331058020477816,`
96	`"grad_norm": 6.568565845489502,`
97	`"learning_rate": 2.815354921724212e-06,`
98	`"loss": 0.9796,`
99	`"step": 5000`
100	`},`
101	`{`
102	`"epoch": 2.34641638225256,`
103	`"grad_norm": 10.742039680480957,`
104	`"learning_rate": 2.4936736006862537e-06,`
105	`"loss": 0.9587,`
106	`"step": 5500`
107	`},`
108	`{`
109	`"epoch": 2.5597269624573378,`
110	`"grad_norm": 4.3592424392700195,`
111	`"learning_rate": 2.171992279648295e-06,`
112	`"loss": 0.9455,`
113	`"step": 6000`
114	`},`
115	`{`
116	`"epoch": 2.773037542662116,`
117	`"grad_norm": 5.696556091308594,`
118	`"learning_rate": 1.8503109586103366e-06,`
119	`"loss": 0.9363,`
120	`"step": 6500`
121	`},`
122	`{`
123	`"epoch": 2.986348122866894,`
124	`"grad_norm": 5.746116638183594,`
125	`"learning_rate": 1.5286296375723786e-06,`
126	`"loss": 0.9347,`
127	`"step": 7000`
128	`},`
129	`{`
130	`"epoch": 3.0,`
131	`"eval_accuracy": 0.5883,`
132	`"eval_loss": 1.0057746171951294,`
133	`"eval_model_preparation_time": 0.0037,`
134	`"eval_runtime": 926.1536,`
135	`"eval_samples_per_second": 10.797,`
136	`"eval_steps_per_second": 1.35,`
137	`"step": 7032`
138	`},`
139	`{`
140	`"epoch": 3.1996587030716723,`
141	`"grad_norm": 4.218583106994629,`
142	`"learning_rate": 1.20694831653442e-06,`
143	`"loss": 0.9035,`
144	`"step": 7500`
145	`},`
146	`{`
147	`"epoch": 3.4129692832764507,`
148	`"grad_norm": 6.724698543548584,`
149	`"learning_rate": 8.852669954964614e-07,`
150	`"loss": 0.9081,`
151	`"step": 8000`
152	`},`
153	`{`
154	`"epoch": 3.6262798634812285,`
155	`"grad_norm": 6.658480167388916,`
156	`"learning_rate": 5.635856744585031e-07,`
157	`"loss": 0.905,`
158	`"step": 8500`
159	`},`
160	`{`
161	`"epoch": 3.839590443686007,`
162	`"grad_norm": 4.382744789123535,`
163	`"learning_rate": 2.4190435342054474e-07,`
164	`"loss": 0.8969,`
165	`"step": 9000`
166	`},`
167	`{`
168	`"epoch": 4.0,`
169	`"eval_accuracy": 0.5892,`
170	`"eval_loss": 1.0019118785858154,`
171	`"eval_model_preparation_time": 0.0037,`
172	`"eval_runtime": 929.5968,`
173	`"eval_samples_per_second": 10.757,`
174	`"eval_steps_per_second": 1.345,`
175	`"step": 9376`
176	`}`
177	`],`
178	`"logging_steps": 500,`
179	`"max_steps": 9376,`
180	`"num_input_tokens_seen": 0,`
181	`"num_train_epochs": 4,`
182	`"save_steps": 500,`
183	`"stateful_callbacks": {`
184	`"TrainerControl": {`
185	`"args": {`
186	`"should_epoch_stop": false,`
187	`"should_evaluate": false,`
188	`"should_log": false,`
189	`"should_save": true,`
190	`"should_training_stop": true`
191	`},`
192	`"attributes": {}`
193	`}`
194	`},`
195	`"total_flos": 2.32490554103808e+19,`
196	`"train_batch_size": 32,`
197	`"trial_name": null,`
198	`"trial_params": null`
199	`}`
200