config.json
| 1 | { |
| 2 | "train": { |
| 3 | "segment_size": 16384 |
| 4 | }, |
| 5 | "data": { |
| 6 | "disable_bert": true, |
| 7 | "sampling_rate": 44100, |
| 8 | "filter_length": 2048, |
| 9 | "hop_length": 512, |
| 10 | "add_blank": true, |
| 11 | "n_speakers": 256, |
| 12 | "spk2id": { |
| 13 | "JP": 0 |
| 14 | } |
| 15 | }, |
| 16 | "model": { |
| 17 | "use_spk_conditioned_encoder": true, |
| 18 | "use_noise_scaled_mas": true, |
| 19 | "use_mel_posterior_encoder": false, |
| 20 | "use_duration_discriminator": true, |
| 21 | "inter_channels": 192, |
| 22 | "hidden_channels": 192, |
| 23 | "filter_channels": 768, |
| 24 | "n_heads": 2, |
| 25 | "n_layers": 6, |
| 26 | "n_layers_trans_flow": 3, |
| 27 | "kernel_size": 3, |
| 28 | "p_dropout": 0.1, |
| 29 | "resblock": "1", |
| 30 | "resblock_kernel_sizes": [ |
| 31 | 3, |
| 32 | 7, |
| 33 | 11 |
| 34 | ], |
| 35 | "resblock_dilation_sizes": [ |
| 36 | [ |
| 37 | 1, |
| 38 | 3, |
| 39 | 5 |
| 40 | ], |
| 41 | [ |
| 42 | 1, |
| 43 | 3, |
| 44 | 5 |
| 45 | ], |
| 46 | [ |
| 47 | 1, |
| 48 | 3, |
| 49 | 5 |
| 50 | ] |
| 51 | ], |
| 52 | "upsample_rates": [ |
| 53 | 8, |
| 54 | 8, |
| 55 | 2, |
| 56 | 2, |
| 57 | 2 |
| 58 | ], |
| 59 | "upsample_initial_channel": 512, |
| 60 | "upsample_kernel_sizes": [ |
| 61 | 16, |
| 62 | 16, |
| 63 | 8, |
| 64 | 2, |
| 65 | 2 |
| 66 | ], |
| 67 | "n_layers_q": 3, |
| 68 | "use_spectral_norm": false, |
| 69 | "gin_channels": 256 |
| 70 | }, |
| 71 | "symbols": [ |
| 72 | "_", |
| 73 | "\"", |
| 74 | "(", |
| 75 | ")", |
| 76 | "*", |
| 77 | "/", |
| 78 | ":", |
| 79 | "AA", |
| 80 | "E", |
| 81 | "EE", |
| 82 | "En", |
| 83 | "N", |
| 84 | "OO", |
| 85 | "Q", |
| 86 | "V", |
| 87 | "[", |
| 88 | "\\", |
| 89 | "]", |
| 90 | "^", |
| 91 | "a", |
| 92 | "a:", |
| 93 | "aa", |
| 94 | "ae", |
| 95 | "ah", |
| 96 | "ai", |
| 97 | "an", |
| 98 | "ang", |
| 99 | "ao", |
| 100 | "aw", |
| 101 | "ay", |
| 102 | "b", |
| 103 | "by", |
| 104 | "c", |
| 105 | "ch", |
| 106 | "d", |
| 107 | "dh", |
| 108 | "dy", |
| 109 | "e", |
| 110 | "e:", |
| 111 | "eh", |
| 112 | "ei", |
| 113 | "en", |
| 114 | "eng", |
| 115 | "er", |
| 116 | "ey", |
| 117 | "f", |
| 118 | "g", |
| 119 | "gy", |
| 120 | "h", |
| 121 | "hh", |
| 122 | "hy", |
| 123 | "i", |
| 124 | "i0", |
| 125 | "i:", |
| 126 | "ia", |
| 127 | "ian", |
| 128 | "iang", |
| 129 | "iao", |
| 130 | "ie", |
| 131 | "ih", |
| 132 | "in", |
| 133 | "ing", |
| 134 | "iong", |
| 135 | "ir", |
| 136 | "iu", |
| 137 | "iy", |
| 138 | "j", |
| 139 | "jh", |
| 140 | "k", |
| 141 | "ky", |
| 142 | "l", |
| 143 | "m", |
| 144 | "my", |
| 145 | "n", |
| 146 | "ng", |
| 147 | "ny", |
| 148 | "o", |
| 149 | "o:", |
| 150 | "ong", |
| 151 | "ou", |
| 152 | "ow", |
| 153 | "oy", |
| 154 | "p", |
| 155 | "py", |
| 156 | "q", |
| 157 | "r", |
| 158 | "ry", |
| 159 | "s", |
| 160 | "sh", |
| 161 | "t", |
| 162 | "th", |
| 163 | "ts", |
| 164 | "ty", |
| 165 | "u", |
| 166 | "u:", |
| 167 | "ua", |
| 168 | "uai", |
| 169 | "uan", |
| 170 | "uang", |
| 171 | "uh", |
| 172 | "ui", |
| 173 | "un", |
| 174 | "uo", |
| 175 | "uw", |
| 176 | "v", |
| 177 | "van", |
| 178 | "ve", |
| 179 | "vn", |
| 180 | "w", |
| 181 | "x", |
| 182 | "y", |
| 183 | "z", |
| 184 | "zh", |
| 185 | "zy", |
| 186 | "~", |
| 187 | "æ", |
| 188 | "ç", |
| 189 | "ð", |
| 190 | "ø", |
| 191 | "ŋ", |
| 192 | "œ", |
| 193 | "ɐ", |
| 194 | "ɑ", |
| 195 | "ɒ", |
| 196 | "ɔ", |
| 197 | "ɕ", |
| 198 | "ə", |
| 199 | "ɛ", |
| 200 | "ɜ", |
| 201 | "ɡ", |
| 202 | "ɣ", |
| 203 | "ɥ", |
| 204 | "ɦ", |
| 205 | "ɪ", |
| 206 | "ɫ", |
| 207 | "ɬ", |
| 208 | "ɭ", |
| 209 | "ɯ", |
| 210 | "ɲ", |
| 211 | "ɵ", |
| 212 | "ɸ", |
| 213 | "ɹ", |
| 214 | "ɾ", |
| 215 | "ʁ", |
| 216 | "ʃ", |
| 217 | "ʊ", |
| 218 | "ʌ", |
| 219 | "ʎ", |
| 220 | "ʏ", |
| 221 | "ʑ", |
| 222 | "ʒ", |
| 223 | "ʝ", |
| 224 | "ʲ", |
| 225 | "ˈ", |
| 226 | "ˌ", |
| 227 | "ː", |
| 228 | "̃", |
| 229 | "̩", |
| 230 | "β", |
| 231 | "θ", |
| 232 | "ᄀ", |
| 233 | "ᄁ", |
| 234 | "ᄂ", |
| 235 | "ᄃ", |
| 236 | "ᄄ", |
| 237 | "ᄅ", |
| 238 | "ᄆ", |
| 239 | "ᄇ", |
| 240 | "ᄈ", |
| 241 | "ᄉ", |
| 242 | "ᄊ", |
| 243 | "ᄋ", |
| 244 | "ᄌ", |
| 245 | "ᄍ", |
| 246 | "ᄎ", |
| 247 | "ᄏ", |
| 248 | "ᄐ", |
| 249 | "ᄑ", |
| 250 | "ᄒ", |
| 251 | "ᅡ", |
| 252 | "ᅢ", |
| 253 | "ᅣ", |
| 254 | "ᅤ", |
| 255 | "ᅥ", |
| 256 | "ᅦ", |
| 257 | "ᅧ", |
| 258 | "ᅨ", |
| 259 | "ᅩ", |
| 260 | "ᅪ", |
| 261 | "ᅫ", |
| 262 | "ᅬ", |
| 263 | "ᅭ", |
| 264 | "ᅮ", |
| 265 | "ᅯ", |
| 266 | "ᅰ", |
| 267 | "ᅱ", |
| 268 | "ᅲ", |
| 269 | "ᅳ", |
| 270 | "ᅴ", |
| 271 | "ᅵ", |
| 272 | "ᆨ", |
| 273 | "ᆫ", |
| 274 | "ᆮ", |
| 275 | "ᆯ", |
| 276 | "ᆷ", |
| 277 | "ᆸ", |
| 278 | "ᆼ", |
| 279 | "ㄸ", |
| 280 | "!", |
| 281 | "?", |
| 282 | "…", |
| 283 | ",", |
| 284 | ".", |
| 285 | "'", |
| 286 | "-", |
| 287 | "¿", |
| 288 | "¡", |
| 289 | "SP", |
| 290 | "UNK" |
| 291 | ], |
| 292 | "num_tones": 16, |
| 293 | "num_languages": 10 |
| 294 | } |