tokenizer_config.json

4.9 KB · 219 lines · json Raw

1	`{`
2	`"add_bos_token": true,`
3	`"add_eos_token": false,`
4	`"added_tokens_decoder": {`
5	`"0": {`
6	`"content": "<unk>",`
7	`"lstrip": false,`
8	`"normalized": false,`
9	`"rstrip": false,`
10	`"single_word": false,`
11	`"special": true`
12	`},`
13	`"1": {`
14	`"content": "<s>",`
15	`"lstrip": false,`
16	`"normalized": false,`
17	`"rstrip": false,`
18	`"single_word": false,`
19	`"special": true`
20	`},`
21	`"2": {`
22	`"content": "</s>",`
23	`"lstrip": false,`
24	`"normalized": false,`
25	`"rstrip": false,`
26	`"single_word": false,`
27	`"special": true`
28	`},`
29	`"101": {`
30	`"content": "<\|audio_start\|>",`
31	`"lstrip": false,`
32	`"normalized": false,`
33	`"rstrip": false,`
34	`"single_word": false,`
35	`"special": true`
36	`},`
37	`"102": {`
38	`"content": "<\|audio_end\|>",`
39	`"lstrip": false,`
40	`"normalized": false,`
41	`"rstrip": false,`
42	`"single_word": false,`
43	`"special": true`
44	`},`
45	`"103": {`
46	`"content": "<\|audio_prompt_start\|>",`
47	`"lstrip": false,`
48	`"normalized": false,`
49	`"rstrip": false,`
50	`"single_word": false,`
51	`"special": true`
52	`},`
53	`"104": {`
54	`"content": "<\|audio_prompt_end\|>",`
55	`"lstrip": false,`
56	`"normalized": false,`
57	`"rstrip": false,`
58	`"single_word": false,`
59	`"special": true`
60	`},`
61	`"105": {`
62	`"content": "<\|background\|>",`
63	`"lstrip": false,`
64	`"normalized": false,`
65	`"rstrip": false,`
66	`"single_word": false,`
67	`"special": true`
68	`},`
69	`"106": {`
70	`"content": "<\|/background\|>",`
71	`"lstrip": false,`
72	`"normalized": false,`
73	`"rstrip": false,`
74	`"single_word": false,`
75	`"special": true`
76	`},`
77	`"107": {`
78	`"content": "<\|characters\|>",`
79	`"lstrip": false,`
80	`"normalized": false,`
81	`"rstrip": false,`
82	`"single_word": false,`
83	`"special": true`
84	`},`
85	`"108": {`
86	`"content": "<\|/characters\|>",`
87	`"lstrip": false,`
88	`"normalized": false,`
89	`"rstrip": false,`
90	`"single_word": false,`
91	`"special": true`
92	`},`
93	`"109": {`
94	`"content": "<\|speaker_id\|>",`
95	`"lstrip": false,`
96	`"normalized": false,`
97	`"rstrip": false,`
98	`"single_word": false,`
99	`"special": true`
100	`},`
101	`"110": {`
102	`"content": "<\|/speaker_id\|>",`
103	`"lstrip": false,`
104	`"normalized": false,`
105	`"rstrip": false,`
106	`"single_word": false,`
107	`"special": true`
108	`},`
109	`"111": {`
110	`"content": "<\|span\|>",`
111	`"lstrip": false,`
112	`"normalized": false,`
113	`"rstrip": false,`
114	`"single_word": false,`
115	`"special": true`
116	`},`
117	`"112": {`
118	`"content": "<\|/span\|>",`
119	`"lstrip": false,`
120	`"normalized": false,`
121	`"rstrip": false,`
122	`"single_word": false,`
123	`"special": true`
124	`},`
125	`"73440": {`
126	`"content": "<\|im_end\|>",`
127	`"lstrip": false,`
128	`"normalized": false,`
129	`"rstrip": false,`
130	`"single_word": false,`
131	`"special": true`
132	`},`
133	`"73441": {`
134	`"content": "<\|im_start\|>",`
135	`"lstrip": false,`
136	`"normalized": false,`
137	`"rstrip": false,`
138	`"single_word": false,`
139	`"special": true`
140	`},`
141	`"73442": {`
142	`"content": "<\|tool_call\|>",`
143	`"lstrip": false,`
144	`"normalized": false,`
145	`"rstrip": false,`
146	`"single_word": false,`
147	`"special": true`
148	`},`
149	`"73443": {`
150	`"content": "<\|execute_start\|>",`
151	`"lstrip": false,`
152	`"normalized": false,`
153	`"rstrip": false,`
154	`"single_word": false,`
155	`"special": true`
156	`},`
157	`"73444": {`
158	`"content": "<\|execute_end\|>",`
159	`"lstrip": false,`
160	`"normalized": false,`
161	`"rstrip": false,`
162	`"single_word": false,`
163	`"special": true`
164	`},`
165	`"73445": {`
166	`"content": "<\|fim_prefix\|>",`
167	`"lstrip": false,`
168	`"normalized": false,`
169	`"rstrip": false,`
170	`"single_word": false,`
171	`"special": true`
172	`},`
173	`"73446": {`
174	`"content": "<\|fim_middle\|>",`
175	`"lstrip": false,`
176	`"normalized": false,`
177	`"rstrip": false,`
178	`"single_word": false,`
179	`"special": true`
180	`},`
181	`"73447": {`
182	`"content": "<\|fim_suffix\|>",`
183	`"lstrip": false,`
184	`"normalized": false,`
185	`"rstrip": false,`
186	`"single_word": false,`
187	`"special": true`
188	`}`
189	`},`
190	`"additional_special_tokens": [`
191	`"<\|im_end\|>",`
192	`"<\|im_start\|>",`
193	`"<\|tool_call\|>",`
194	`"<\|execute_start\|>",`
195	`"<\|execute_end\|>",`
196	`"<\|fim_prefix\|>",`
197	`"<\|fim_middle\|>",`
198	`"<\|fim_suffix\|>"`
199	`],`
200	`"bos_token": "<s>",`
201	`"clean_up_tokenization_spaces": false,`
202	`"eos_token": "<\|im_end\|>",`
203	`"legacy": true,`
204	`"model_max_length": 1000000000000000019884624838656,`
205	`"pad_token": null,`
206	`"sp_model_kwargs": {},`
207	`"spaces_between_special_tokens": false,`
208	`"tokenizer_class": "VoxCPM2Tokenizer",`
209	`"unk_token": "<unk>",`
210	`"use_default_system_prompt": false,`
211	`"chat_template": "{% for message in messages %}{{'<\|im_start\|>' + message['role'] + '\n' + message['content'] + '<\|im_end\|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<\|im_start\|>assistant\n' }}{% endif %}",`
212	`"auto_map": {`
213	`"AutoTokenizer": [`
214	`"tokenization_voxcpm2.VoxCPM2Tokenizer",`
215	`null`
216	`]`
217	`}`
218	`}`
219