config.json · Qwen2-VL-7B-Instruct

config.json

1.2 KB · 52 lines · json Raw

1	`{`
2	`"architectures": [`
3	`"Qwen2VLForConditionalGeneration"`
4	`],`
5	`"attention_dropout": 0.0,`
6	`"bos_token_id": 151643,`
7	`"eos_token_id": 151645,`
8	`"vision_start_token_id": 151652,`
9	`"vision_end_token_id": 151653,`
10	`"vision_token_id": 151654,`
11	`"image_token_id": 151655,`
12	`"video_token_id": 151656,`
13	`"hidden_act": "silu",`
14	`"hidden_size": 3584,`
15	`"initializer_range": 0.02,`
16	`"intermediate_size": 18944,`
17	`"max_position_embeddings": 32768,`
18	`"max_window_layers": 28,`
19	`"model_type": "qwen2_vl",`
20	`"num_attention_heads": 28,`
21	`"num_hidden_layers": 28,`
22	`"num_key_value_heads": 4,`
23	`"rms_norm_eps": 1e-06,`
24	`"rope_theta": 1000000.0,`
25	`"sliding_window": 32768,`
26	`"tie_word_embeddings": false,`
27	`"torch_dtype": "bfloat16",`
28	`"transformers_version": "4.41.2",`
29	`"use_cache": true,`
30	`"use_sliding_window": false,`
31	`"vision_config": {`
32	`"depth": 32,`
33	`"embed_dim": 1280,`
34	`"mlp_ratio": 4,`
35	`"num_heads": 16,`
36	`"in_chans": 3,`
37	`"hidden_size": 3584,`
38	`"patch_size": 14,`
39	`"spatial_merge_size": 2,`
40	`"spatial_patch_size": 14,`
41	`"temporal_patch_size": 2`
42	`},`
43	`"rope_scaling": {`
44	`"type": "mrope",`
45	`"mrope_section": [`
46	`16,`
47	`24,`
48	`24`
49	`]`
50	`},`
51	`"vocab_size": 152064`
52	`}`