config.json

725 B · 30 lines · json Raw

1	`{`
2	`"architectures": [`
3	`"VideoMAEForPreTraining"`
4	`],`
5	`"attention_probs_dropout_prob": 0.0,`
6	`"decoder_hidden_size": 384,`
7	`"decoder_intermediate_size": 1536,`
8	`"decoder_num_attention_heads": 6,`
9	`"decoder_num_hidden_layers": 4,`
10	`"hidden_act": "gelu",`
11	`"hidden_dropout_prob": 0.0,`
12	`"hidden_size": 768,`
13	`"image_size": 224,`
14	`"initializer_range": 0.02,`
15	`"intermediate_size": 3072,`
16	`"layer_norm_eps": 1e-12,`
17	`"model_type": "videomae",`
18	`"norm_pix_loss": true,`
19	`"num_attention_heads": 12,`
20	`"num_channels": 3,`
21	`"num_frames": 16,`
22	`"num_hidden_layers": 12,`
23	`"patch_size": 16,`
24	`"qkv_bias": true,`
25	`"torch_dtype": "float32",`
26	`"transformers_version": "4.22.0.dev0",`
27	`"tubelet_size": 2,`
28	`"use_mean_pooling": false`
29	`}`
30