tokenizer_config.json

1.1 KB · 51 lines · json Raw

1	`{`
2	`"add_bos_token": true,`
3	`"add_eos_token": false,`
4	`"added_tokens_decoder": {`
5	`"0": {`
6	`"content": "<unk>",`
7	`"lstrip": false,`
8	`"normalized": true,`
9	`"rstrip": false,`
10	`"single_word": false,`
11	`"special": true`
12	`},`
13	`"1": {`
14	`"content": "<s>",`
15	`"lstrip": false,`
16	`"normalized": true,`
17	`"rstrip": false,`
18	`"single_word": false,`
19	`"special": true`
20	`},`
21	`"2": {`
22	`"content": "</s>",`
23	`"lstrip": false,`
24	`"normalized": true,`
25	`"rstrip": false,`
26	`"single_word": false,`
27	`"special": true`
28	`},`
29	`"32000": {`
30	`"content": "<pad>",`
31	`"lstrip": false,`
32	`"normalized": false,`
33	`"rstrip": false,`
34	`"single_word": false,`
35	`"special": true`
36	`}`
37	`},`
38	`"bos_token": "<s>",`
39	`"clean_up_tokenization_spaces": false,`
40	`"eos_token": "</s>",`
41	`"legacy": true,`
42	`"model_max_length": 512,`
43	`"pad_token": "<pad>",`
44	`"padding_side": "right",`
45	`"sp_model_kwargs": {},`
46	`"spaces_between_special_tokens": false,`
47	`"tokenizer_class": "LlamaTokenizer",`
48	`"unk_token": "<unk>",`
49	`"use_default_system_prompt": false`
50	`}`
51