config.json

965 B · 40 lines · json Raw

1	`{`
2	`"_name_or_path": "../data/models/xlmr-3l-v3_lc0.1-mix2",`
3	`"architectures": [`
4	`"SubwordXLMForTokenClassification"`
5	`],`
6	`"attention_probs_dropout_prob": 0.1,`
7	`"base_model": "xlm-roberta-base",`
8	`"bos_token_id": 0,`
9	`"classifier_dropout": null,`
10	`"eos_token_id": 2,`
11	`"hidden_act": "gelu",`
12	`"hidden_dropout_prob": 0.1,`
13	`"hidden_size": 768,`
14	`"id2label": {`
15	`"0": "LABEL_0"`
16	`},`
17	`"initializer_range": 0.02,`
18	`"intermediate_size": 3072,`
19	`"label2id": {`
20	`"LABEL_0": 0`
21	`},`
22	`"layer_norm_eps": 1e-05,`
23	`"lookahead": null,`
24	`"lookahead_split_layers": null,`
25	`"max_position_embeddings": 514,`
26	`"mixture_name": "xlm-token",`
27	`"model_type": "xlm-token",`
28	`"num_attention_heads": 12,`
29	`"num_hidden_layers": 3,`
30	`"output_past": true,`
31	`"pad_token_id": 1,`
32	`"position_embedding_type": "absolute",`
33	`"torch_dtype": "float32",`
34	`"transformers_version": "4.39.1",`
35	`"type_vocab_size": 1,`
36	`"use_cache": true,`
37	`"vocab_size": 250002,`
38	`"wandb_run_id": "xhbvy7b0"`
39	`}`
40