config.json · DeepSeek-R1-Distill-Llama-8B

config.json

826 B · 35 lines · json Raw

1	`{`
2	`"architectures": [`
3	`"LlamaForCausalLM"`
4	`],`
5	`"attention_bias": false,`
6	`"attention_dropout": 0.0,`
7	`"bos_token_id": 128000,`
8	`"eos_token_id": 128001,`
9	`"hidden_act": "silu",`
10	`"hidden_size": 4096,`
11	`"initializer_range": 0.02,`
12	`"intermediate_size": 14336,`
13	`"max_position_embeddings": 131072,`
14	`"mlp_bias": false,`
15	`"model_type": "llama",`
16	`"num_attention_heads": 32,`
17	`"num_hidden_layers": 32,`
18	`"num_key_value_heads": 8,`
19	`"pretraining_tp": 1,`
20	`"rms_norm_eps": 1e-05,`
21	`"rope_scaling": {`
22	`"factor": 8.0,`
23	`"low_freq_factor": 1.0,`
24	`"high_freq_factor": 4.0,`
25	`"original_max_position_embeddings": 8192,`
26	`"rope_type": "llama3"`
27	`},`
28	`"rope_theta": 500000.0,`
29	`"tie_word_embeddings": false,`
30	`"torch_dtype": "bfloat16",`
31	`"transformers_version": "4.43.0.dev0",`
32	`"use_cache": true,`
33	`"vocab_size": 128256`
34	`}`
35