config.json
3.4 KB · 294 lines · json Raw
1 {
2 "train": {
3 "segment_size": 16384
4 },
5 "data": {
6 "disable_bert": true,
7 "sampling_rate": 44100,
8 "filter_length": 2048,
9 "hop_length": 512,
10 "add_blank": true,
11 "n_speakers": 256,
12 "spk2id": {
13 "JP": 0
14 }
15 },
16 "model": {
17 "use_spk_conditioned_encoder": true,
18 "use_noise_scaled_mas": true,
19 "use_mel_posterior_encoder": false,
20 "use_duration_discriminator": true,
21 "inter_channels": 192,
22 "hidden_channels": 192,
23 "filter_channels": 768,
24 "n_heads": 2,
25 "n_layers": 6,
26 "n_layers_trans_flow": 3,
27 "kernel_size": 3,
28 "p_dropout": 0.1,
29 "resblock": "1",
30 "resblock_kernel_sizes": [
31 3,
32 7,
33 11
34 ],
35 "resblock_dilation_sizes": [
36 [
37 1,
38 3,
39 5
40 ],
41 [
42 1,
43 3,
44 5
45 ],
46 [
47 1,
48 3,
49 5
50 ]
51 ],
52 "upsample_rates": [
53 8,
54 8,
55 2,
56 2,
57 2
58 ],
59 "upsample_initial_channel": 512,
60 "upsample_kernel_sizes": [
61 16,
62 16,
63 8,
64 2,
65 2
66 ],
67 "n_layers_q": 3,
68 "use_spectral_norm": false,
69 "gin_channels": 256
70 },
71 "symbols": [
72 "_",
73 "\"",
74 "(",
75 ")",
76 "*",
77 "/",
78 ":",
79 "AA",
80 "E",
81 "EE",
82 "En",
83 "N",
84 "OO",
85 "Q",
86 "V",
87 "[",
88 "\\",
89 "]",
90 "^",
91 "a",
92 "a:",
93 "aa",
94 "ae",
95 "ah",
96 "ai",
97 "an",
98 "ang",
99 "ao",
100 "aw",
101 "ay",
102 "b",
103 "by",
104 "c",
105 "ch",
106 "d",
107 "dh",
108 "dy",
109 "e",
110 "e:",
111 "eh",
112 "ei",
113 "en",
114 "eng",
115 "er",
116 "ey",
117 "f",
118 "g",
119 "gy",
120 "h",
121 "hh",
122 "hy",
123 "i",
124 "i0",
125 "i:",
126 "ia",
127 "ian",
128 "iang",
129 "iao",
130 "ie",
131 "ih",
132 "in",
133 "ing",
134 "iong",
135 "ir",
136 "iu",
137 "iy",
138 "j",
139 "jh",
140 "k",
141 "ky",
142 "l",
143 "m",
144 "my",
145 "n",
146 "ng",
147 "ny",
148 "o",
149 "o:",
150 "ong",
151 "ou",
152 "ow",
153 "oy",
154 "p",
155 "py",
156 "q",
157 "r",
158 "ry",
159 "s",
160 "sh",
161 "t",
162 "th",
163 "ts",
164 "ty",
165 "u",
166 "u:",
167 "ua",
168 "uai",
169 "uan",
170 "uang",
171 "uh",
172 "ui",
173 "un",
174 "uo",
175 "uw",
176 "v",
177 "van",
178 "ve",
179 "vn",
180 "w",
181 "x",
182 "y",
183 "z",
184 "zh",
185 "zy",
186 "~",
187 "æ",
188 "ç",
189 "ð",
190 "ø",
191 "ŋ",
192 "œ",
193 "ɐ",
194 "ɑ",
195 "ɒ",
196 "ɔ",
197 "ɕ",
198 "ə",
199 "ɛ",
200 "ɜ",
201 "ɡ",
202 "ɣ",
203 "ɥ",
204 "ɦ",
205 "ɪ",
206 "ɫ",
207 "ɬ",
208 "ɭ",
209 "ɯ",
210 "ɲ",
211 "ɵ",
212 "ɸ",
213 "ɹ",
214 "ɾ",
215 "ʁ",
216 "ʃ",
217 "ʊ",
218 "ʌ",
219 "ʎ",
220 "ʏ",
221 "ʑ",
222 "ʒ",
223 "ʝ",
224 "ʲ",
225 "ˈ",
226 "ˌ",
227 "ː",
228 "̃",
229 "̩",
230 "β",
231 "θ",
232 "ᄀ",
233 "ᄁ",
234 "ᄂ",
235 "ᄃ",
236 "ᄄ",
237 "ᄅ",
238 "ᄆ",
239 "ᄇ",
240 "ᄈ",
241 "ᄉ",
242 "ᄊ",
243 "ᄋ",
244 "ᄌ",
245 "ᄍ",
246 "ᄎ",
247 "ᄏ",
248 "ᄐ",
249 "ᄑ",
250 "ᄒ",
251 "ᅡ",
252 "ᅢ",
253 "ᅣ",
254 "ᅤ",
255 "ᅥ",
256 "ᅦ",
257 "ᅧ",
258 "ᅨ",
259 "ᅩ",
260 "ᅪ",
261 "ᅫ",
262 "ᅬ",
263 "ᅭ",
264 "ᅮ",
265 "ᅯ",
266 "ᅰ",
267 "ᅱ",
268 "ᅲ",
269 "ᅳ",
270 "ᅴ",
271 "ᅵ",
272 "ᆨ",
273 "ᆫ",
274 "ᆮ",
275 "ᆯ",
276 "ᆷ",
277 "ᆸ",
278 "ᆼ",
279 "ㄸ",
280 "!",
281 "?",
282 "…",
283 ",",
284 ".",
285 "'",
286 "-",
287 "¿",
288 "¡",
289 "SP",
290 "UNK"
291 ],
292 "num_tones": 16,
293 "num_languages": 10
294 }