every_eval_ever/aime25.json
3.7 KB · 125 lines · json Raw
1 {
2 "schema_version": "0.2.2",
3 "evaluation_id": "aime25|0/RedHatAI/gemma-4-31B-it-FP8-block/1781646636.920813",
4 "evaluation_timestamp": "343589",
5 "retrieved_timestamp": "1781646636.920813",
6 "source_metadata": {
7 "source_name": "lighteval",
8 "source_type": "evaluation_run",
9 "source_organization_name": "RedHatAI",
10 "evaluator_relationship": "third_party"
11 },
12 "eval_library": {
13 "name": "lighteval",
14 "version": "v0.13.0"
15 },
16 "model_info": {
17 "name": "RedHatAI/gemma-4-31B-it-FP8-block",
18 "id": "RedHatAI/gemma-4-31B-it-FP8-block",
19 "developer": "RedHatAI",
20 "inference_engine": {
21 "name": "vllm"
22 },
23 "additional_details": {
24 "provider": "hosted_vllm",
25 "base_url": "http://127.0.0.1:8000/v1",
26 "concurrent_requests": "32",
27 "verbose": "False",
28 "api_max_retry": "8",
29 "api_retry_sleep": "1.0",
30 "api_retry_multiplier": "2.0",
31 "timeout": "3600.0",
32 "num_seeds_merged": "8"
33 }
34 },
35 "evaluation_results": [
36 {
37 "evaluation_name": "aime25",
38 "source_data": {
39 "dataset_name": "aime25",
40 "source_type": "hf_dataset",
41 "hf_repo": "yentinglin/aime_2025",
42 "hf_split": "train"
43 },
44 "metric_config": {
45 "evaluation_description": "pass@k:k=1&n=1",
46 "lower_is_better": false,
47 "score_type": "continuous",
48 "min_score": 0.0,
49 "max_score": 1.0
50 },
51 "score_details": {
52 "score": 0.6833333333333333,
53 "details": {
54 "seed_scores": "[0.7333333333333333, 0.6666666666666666, 0.7, 0.6333333333333333, 0.7666666666666667, 0.7, 0.6333333333333333, 0.6333333333333333]",
55 "evaluation_timestamps": "[343589, 343728, 343976, 344201, 344375, 344475, 344701, 344946]",
56 "seed_values": "[1234, 2345, 3456, 4567, 5678, 6789, 7890, 8901]"
57 },
58 "uncertainty": {
59 "standard_error": {
60 "value": 0.01781741612749496,
61 "method": "across_seeds"
62 },
63 "num_samples": 8
64 }
65 },
66 "generation_config": {
67 "generation_args": {
68 "temperature": 1.0,
69 "top_p": 0.95,
70 "top_k": 64.0,
71 "max_tokens": 65536,
72 "max_attempts": 1
73 },
74 "additional_details": {
75 "seed": "1234",
76 "num_fewshot": "0"
77 }
78 }
79 },
80 {
81 "evaluation_name": "aime25",
82 "source_data": {
83 "dataset_name": "aime25",
84 "source_type": "hf_dataset",
85 "hf_repo": "yentinglin/aime_2025",
86 "hf_split": "train"
87 },
88 "metric_config": {
89 "evaluation_description": "avg@n:n=1",
90 "lower_is_better": false,
91 "score_type": "continuous",
92 "min_score": 0.0,
93 "max_score": 1.0
94 },
95 "score_details": {
96 "score": 0.6833333333333333,
97 "details": {
98 "seed_scores": "[0.7333333333333333, 0.6666666666666666, 0.7, 0.6333333333333333, 0.7666666666666667, 0.7, 0.6333333333333333, 0.6333333333333333]",
99 "evaluation_timestamps": "[343589, 343728, 343976, 344201, 344375, 344475, 344701, 344946]",
100 "seed_values": "[1234, 2345, 3456, 4567, 5678, 6789, 7890, 8901]"
101 },
102 "uncertainty": {
103 "standard_error": {
104 "value": 0.01781741612749496,
105 "method": "across_seeds"
106 },
107 "num_samples": 8
108 }
109 },
110 "generation_config": {
111 "generation_args": {
112 "temperature": 1.0,
113 "top_p": 0.95,
114 "top_k": 64.0,
115 "max_tokens": 65536,
116 "max_attempts": 1
117 },
118 "additional_details": {
119 "seed": "1234",
120 "num_fewshot": "0"
121 }
122 }
123 }
124 ]
125 }