Control, Ownership, and Performance—No Compromises

General LLMs are big, expensive, and insecure. Ultrasafe delivers domain-specific performance at a fraction of the size—with full control and zero data leakage.

General LLMs are big, expensive, and insecure. Ultrasafe delivers domain-specific performance at a fraction of the size—with full control and zero data leakage.

Why Choose UltraSafe

See how our specialized expert model approach compares to traditional generative AI solutions.

UltraSafe Expert Models Traditional AI
Specialized Knowledge Domain-specific expertise Generalized knowledge
Accuracy 99%+ in specialized domains Varies widely by task
Computational Resources Optimized & efficient High resource requirements
Regulatory Compliance Built-in for each domain Requires additional oversight
Deployment Flexibility Edge, cloud, or on-premises Primarily cloud-based
Decorative

Model Performance

View model performance and system benchmarks

Overall Average MMLU Scores

Model
US Inc
USF-1 Mini
90%
Model
Gemini 2.0 Flash
87%
Model
DeepSeek V3
86%
Model
GPT 4o (Nov-24)
86%
Model
US Inc
USF Alpha
85%
Model
LLAMA 3.1 405B
85%
Model
O1 Mini
85%
Model
LLAMA 3.3 70B
84%
Model
GPT 4o Mini
82%
Model performance comparison chart
657483100MMLU Score (%)USF-1 MiniGemini 2.0 FlashDeepSeek V3GPT 4o(Nov-24)USF AlphaLLAMA 3.1405BO1 MiniLLAMA 3.3 70BGPT 4o Mini90%87%86%86%85%85%85%84%82%
#Taskstar
USF-1 Mini
star
Gemini 2.0 FlashLLAMA 3.1 405BDeepSeek V3GPT 4o (Nov-24)star
USF Alpha
star
O1 MiniLLAMA 3.3 70BGPT 4o Mini
#Average90%87%86%86%85%85%85%84%84%
1High School European History888987918886858585
2Business Ethics887778858683828175
3Clinical Knowledge898891898988858787
4Medical Genetics989696979094969592
5High School US History959596959294909490
6High School Physics918980897777887877
7High School World History929193939294859389
8Virology555560556057595754
9High School Microeconomics979595979895949593
10Econometrics858173737574777066
11College Computer Science988979858385937975
12High School Biology959594959593949491
13Abstract Algebra958280658175907267
14Professional Accounting887680927877858278
15Philosophy868990878687778379
16Professional Medicine949094949191949490
17Nutrition908791888992868984
18Global Facts615869625569636851
19Machine Learning908280767977837667
20Security Studies818082808584818376
21Public Relations757876818078727675
22Professional Psychology868888878687828583
23Prehistory919392919091848884
24Anatomy838386888582838381
25Human Sexuality919392928289828988
26College Medicine868484838478848281
27High School Government and Politics969998979996959895
28College Chemistry747362616768736660
29Logical Fallacies919090888790868586
30High School Geography929495959395909494
31Elementary Mathematics989596979693978994
32Human Aging808084828784778381
33College Mathematics978878706465927671
34High School Psychology969596969595949693
35Formal Logic988372787574936661
36High School Statistics948985868587908480
37International Law928694939094858890
38High School Mathematics999575896476977684
39High School Computer Science959195929193979491
40Conceptual Physics939295919488918582
41Miscellaneous959595959595919591
42High School Chemistry939185868181928179
43Marketing939594929595939494
44Professional Law736669736969566554
45Management909192929190848987
46College Physics959586908275948484
47Jurisprudence909089919091798784
48World Religions928891878990858987
49Sociology899094929295899291
50US Foreign Policy939593969394879290
51High School Macroeconomics939291889192928989
52Computer Security928682778982848785
53Moral Scenarios766679828188707861
54Moral Disputes838686878686748582
55Electrical Engineering908686838781808179
56Astronomy979394959294939293
57College Biology979595969695959494

USF-1 Mini

Best performance in 28 tasks

High School Mathematics
99
%
Medical Genetics
98
%
College Computer Science
98
%
Elementary Mathematics
98
%
Formal Logic
98
%
College Mathematics
97
%
Astronomy
97
%
College Biology
97
%
High School Psychology
96
%
High School Biology
95
%
Abstract Algebra
95
%
Miscellaneous
95
%
College Physics
95
%
Professional Medicine
94
%
High School Statistics
94
%
High School Chemistry
93
%
High School Macroeconomics
93
%
World Religions
92
%
Computer Security
92
%
High School Physics
91
%
Logical Fallacies
91
%
Machine Learning
90
%
Electrical Engineering
90
%
Business Ethics
88
%
College Medicine
86
%
Econometrics
85
%
College Chemistry
74
%
Professional Law
73
%
High School Mathematics
99%
Medical Genetics
98%
College Computer Science
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%
High School Mathematics
99%

USF Alpha

Best performance in 8 tasks

High School Government And Politics
99
%
High School Microeconomics
98
%
High School Biology
95
%
Miscellaneous
95
%
Marketing
95
%
Human Aging
87
%
Security Studies
85
%
Virology
60
%

USF-1 Mini

Model 1 of 9
Swipe left/right to change models
Average
90%
#
TASK
SCORE
1
High School European History
88
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
88
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
89
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
98
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
95
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
91
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
92
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
55
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
97
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
85
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
98
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
95
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
95
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
88
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
86
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
94
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
90
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
61
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
90
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
81
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
75
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
86
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
91
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
83
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
91
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
86
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
96
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
74
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
91
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
92
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
98
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
80
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
97
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
96
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
98
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
94
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
92
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
99
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
95
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
93
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
93
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
93
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
73
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
90
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
95
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
90
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
92
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
89
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
93
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
93
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
92
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
76
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
83
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
90
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
97
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
97
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

Gemini 2.0 Flash

Model 2 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
89
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
77
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
88
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
96
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
95
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
89
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
91
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
55
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
95
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
81
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
89
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
95
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
82
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
76
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
89
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
90
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
87
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
58
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
82
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
80
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
78
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
88
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
93
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
83
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
93
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
84
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
99
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
73
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
90
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
94
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
95
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
80
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
88
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
95
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
83
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
89
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
86
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
95
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
91
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
92
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
91
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
95
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
66
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
91
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
95
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
90
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
88
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
90
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
95
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
92
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
86
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
66
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
86
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
86
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
93
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
95
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

DeepSeek V3

Model 3 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
87
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
78
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
91
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
96
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
96
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
80
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
93
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
60
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
95
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
73
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
79
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
94
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
80
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
80
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
90
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
94
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
91
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
69
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
80
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
82
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
76
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
88
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
92
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
86
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
92
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
84
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
98
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
62
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
90
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
95
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
96
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
84
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
78
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
96
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
72
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
85
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
94
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
75
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
95
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
95
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
85
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
94
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
69
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
92
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
86
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
89
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
91
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
94
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
93
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
91
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
82
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
79
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
86
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
86
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
94
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
95
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

GPT 4o (Nov-24)

Model 4 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
91
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
85
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
89
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
97
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
95
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
89
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
93
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
55
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
97
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
73
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
85
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
95
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
65
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
92
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
87
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
94
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
88
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
62
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
76
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
80
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
81
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
87
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
91
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
88
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
92
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
83
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
97
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
61
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
88
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
95
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
97
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
82
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
70
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
96
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
78
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
86
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
93
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
89
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
92
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
91
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
86
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
92
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
73
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
92
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
90
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
91
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
87
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
92
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
96
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
88
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
77
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
82
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
87
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
83
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
95
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
96
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

USF Alpha

Model 5 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
88
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
86
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
89
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
90
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
92
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
77
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
92
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
60
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
98
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
75
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
83
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
95
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
81
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
78
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
86
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
91
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
89
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
55
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
79
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
85
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
80
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
86
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
90
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
85
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
82
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
84
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
99
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
67
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
87
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
93
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
96
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
87
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
64
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
95
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
75
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
85
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
90
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
64
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
91
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
94
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
81
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
95
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
69
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
91
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
82
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
90
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
89
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
92
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
93
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
91
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
89
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
81
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
86
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
87
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
92
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
96
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

LLAMA 3.1 405B

Model 6 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
86
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
83
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
88
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
94
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
94
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
77
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
94
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
57
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
95
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
74
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
85
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
93
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
75
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
77
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
87
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
91
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
92
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
69
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
77
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
84
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
78
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
87
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
91
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
82
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
89
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
78
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
96
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
68
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
90
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
95
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
93
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
84
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
65
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
95
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
74
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
87
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
94
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
76
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
93
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
88
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
81
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
95
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
69
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
90
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
75
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
91
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
90
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
95
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
94
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
92
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
82
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
88
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
86
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
81
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
94
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
95
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

O1 Mini

Model 7 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
85
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
82
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
85
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
96
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
90
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
88
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
85
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
59
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
94
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
77
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
93
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
94
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
90
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
85
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
77
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
94
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
86
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
63
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
83
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
81
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
72
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
82
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
84
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
83
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
82
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
84
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
95
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
73
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
86
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
90
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
97
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
77
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
92
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
94
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
93
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
90
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
85
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
97
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
97
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
91
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
91
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
92
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
93
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
56
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
84
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
94
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
79
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
85
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
89
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
87
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
92
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
84
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
70
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
74
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
80
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
93
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
95
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

LLAMA 3.3 70B

Model 8 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
85
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
81
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
87
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
95
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
94
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
78
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
93
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
57
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
95
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
70
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
79
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
94
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
72
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
82
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
83
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
94
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
89
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
68
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
76
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
83
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
76
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
85
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
88
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
83
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
89
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
82
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
98
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
66
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
85
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
94
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
89
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
83
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
76
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
96
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
66
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
84
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
88
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
76
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
94
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
85
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
95
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
81
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
94
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
65
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
89
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
84
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
87
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
89
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
92
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
92
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
89
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
87
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
78
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
85
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
81
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
92
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
94
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

GPT 4o Mini

Model 9 of 9
Swipe left/right to change models
Average
87%
#
TASK
SCORE
1
High School European History
85
Open modal
Tooltip
High School European History
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
89
%
DeepSeek V3
87
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
88
%
LLAMA 3.1 405B
86
%
O1 Mini
85
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
85
%
2
Business Ethics
75
Open modal
Tooltip
Business Ethics
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
77
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
83
%
O1 Mini
82
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
75
%
3
Clinical Knowledge
87
Open modal
Tooltip
Clinical Knowledge
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
88
%
O1 Mini
85
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
87
%
4
Medical Genetics
92
Open modal
Tooltip
Medical Genetics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
96
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
96
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
92
%
5
High School US History
90
Open modal
Tooltip
High School US History
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
6
High School Physics
77
Open modal
Tooltip
High School Physics
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
89
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
77
%
LLAMA 3.1 405B
77
%
O1 Mini
88
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
77
%
7
High School World History
89
Open modal
Tooltip
High School World History
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
91
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
93
%
GPT 4o Mini
89
%
8
Virology
54
Open modal
Tooltip
Virology
Model Scores
Star
USF-1 Mini
Star
55
%
Gemini 2.0 Flash
55
%
DeepSeek V3
60
%
GPT 4o (Nov-24)
55
%
Star
USF Alpha
Star
60
%
LLAMA 3.1 405B
57
%
O1 Mini
59
%
LLAMA 3.3 70B
57
%
GPT 4o Mini
54
%
9
High School Microeconomics
93
Open modal
Tooltip
High School Microeconomics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
98
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
93
%
10
Econometrics
66
Open modal
Tooltip
Econometrics
Model Scores
Star
USF-1 Mini
Star
85
%
Gemini 2.0 Flash
81
%
DeepSeek V3
73
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
77
%
LLAMA 3.3 70B
70
%
GPT 4o Mini
66
%
11
College Computer Science
75
Open modal
Tooltip
College Computer Science
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
89
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
85
%
Star
USF Alpha
Star
83
%
LLAMA 3.1 405B
85
%
O1 Mini
93
%
LLAMA 3.3 70B
79
%
GPT 4o Mini
75
%
12
High School Biology
91
Open modal
Tooltip
High School Biology
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
93
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
13
Abstract Algebra
67
Open modal
Tooltip
Abstract Algebra
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
65
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
75
%
O1 Mini
90
%
LLAMA 3.3 70B
72
%
GPT 4o Mini
67
%
14
Professional Accounting
78
Open modal
Tooltip
Professional Accounting
Model Scores
Star
USF-1 Mini
Star
88
%
Gemini 2.0 Flash
76
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
78
%
LLAMA 3.1 405B
77
%
O1 Mini
85
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
78
%
15
Philosophy
79
Open modal
Tooltip
Philosophy
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
89
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
79
%
16
Professional Medicine
90
Open modal
Tooltip
Professional Medicine
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
94
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
91
%
O1 Mini
94
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
90
%
17
Nutrition
84
Open modal
Tooltip
Nutrition
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
87
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
92
%
O1 Mini
86
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
84
%
18
Global Facts
51
Open modal
Tooltip
Global Facts
Model Scores
Star
USF-1 Mini
Star
61
%
Gemini 2.0 Flash
58
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
62
%
Star
USF Alpha
Star
55
%
LLAMA 3.1 405B
69
%
O1 Mini
63
%
LLAMA 3.3 70B
68
%
GPT 4o Mini
51
%
19
Machine Learning
67
Open modal
Tooltip
Machine Learning
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
82
%
DeepSeek V3
80
%
GPT 4o (Nov-24)
76
%
Star
USF Alpha
Star
79
%
LLAMA 3.1 405B
77
%
O1 Mini
83
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
67
%
20
Security Studies
76
Open modal
Tooltip
Security Studies
Model Scores
Star
USF-1 Mini
Star
81
%
Gemini 2.0 Flash
80
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
80
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
84
%
O1 Mini
81
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
76
%
21
Public Relations
75
Open modal
Tooltip
Public Relations
Model Scores
Star
USF-1 Mini
Star
75
%
Gemini 2.0 Flash
78
%
DeepSeek V3
76
%
GPT 4o (Nov-24)
81
%
Star
USF Alpha
Star
80
%
LLAMA 3.1 405B
78
%
O1 Mini
72
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
75
%
22
Professional Psychology
83
Open modal
Tooltip
Professional Psychology
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
88
%
DeepSeek V3
88
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
87
%
O1 Mini
82
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
83
%
23
Prehistory
84
Open modal
Tooltip
Prehistory
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
84
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
84
%
24
Anatomy
81
Open modal
Tooltip
Anatomy
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
83
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
82
%
O1 Mini
83
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
25
Human Sexuality
88
Open modal
Tooltip
Human Sexuality
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
93
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
89
%
O1 Mini
82
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
88
%
26
College Medicine
81
Open modal
Tooltip
College Medicine
Model Scores
Star
USF-1 Mini
Star
86
%
Gemini 2.0 Flash
84
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
84
%
LLAMA 3.1 405B
78
%
O1 Mini
84
%
LLAMA 3.3 70B
82
%
GPT 4o Mini
81
%
27
High School Government and Politics
95
Open modal
Tooltip
High School Government and Politics
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
99
%
DeepSeek V3
98
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
99
%
LLAMA 3.1 405B
96
%
O1 Mini
95
%
LLAMA 3.3 70B
98
%
GPT 4o Mini
95
%
28
College Chemistry
60
Open modal
Tooltip
College Chemistry
Model Scores
Star
USF-1 Mini
Star
74
%
Gemini 2.0 Flash
73
%
DeepSeek V3
62
%
GPT 4o (Nov-24)
61
%
Star
USF Alpha
Star
67
%
LLAMA 3.1 405B
68
%
O1 Mini
73
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
60
%
29
Logical Fallacies
86
Open modal
Tooltip
Logical Fallacies
Model Scores
Star
USF-1 Mini
Star
91
%
Gemini 2.0 Flash
90
%
DeepSeek V3
90
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
90
%
O1 Mini
86
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
86
%
30
High School Geography
94
Open modal
Tooltip
High School Geography
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
94
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
95
%
O1 Mini
90
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
31
Elementary Mathematics
94
Open modal
Tooltip
Elementary Mathematics
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
97
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
94
%
32
Human Aging
81
Open modal
Tooltip
Human Aging
Model Scores
Star
USF-1 Mini
Star
80
%
Gemini 2.0 Flash
80
%
DeepSeek V3
84
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
84
%
O1 Mini
77
%
LLAMA 3.3 70B
83
%
GPT 4o Mini
81
%
33
College Mathematics
71
Open modal
Tooltip
College Mathematics
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
88
%
DeepSeek V3
78
%
GPT 4o (Nov-24)
70
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
65
%
O1 Mini
92
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
71
%
34
High School Psychology
93
Open modal
Tooltip
High School Psychology
Model Scores
Star
USF-1 Mini
Star
96
%
Gemini 2.0 Flash
95
%
DeepSeek V3
96
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
94
%
LLAMA 3.3 70B
96
%
GPT 4o Mini
93
%
35
Formal Logic
61
Open modal
Tooltip
Formal Logic
Model Scores
Star
USF-1 Mini
Star
98
%
Gemini 2.0 Flash
83
%
DeepSeek V3
72
%
GPT 4o (Nov-24)
78
%
Star
USF Alpha
Star
75
%
LLAMA 3.1 405B
74
%
O1 Mini
93
%
LLAMA 3.3 70B
66
%
GPT 4o Mini
61
%
36
High School Statistics
80
Open modal
Tooltip
High School Statistics
Model Scores
Star
USF-1 Mini
Star
94
%
Gemini 2.0 Flash
89
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
85
%
LLAMA 3.1 405B
87
%
O1 Mini
90
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
80
%
37
International Law
90
Open modal
Tooltip
International Law
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
93
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
94
%
O1 Mini
85
%
LLAMA 3.3 70B
88
%
GPT 4o Mini
90
%
38
High School Mathematics
84
Open modal
Tooltip
High School Mathematics
Model Scores
Star
USF-1 Mini
Star
99
%
Gemini 2.0 Flash
95
%
DeepSeek V3
75
%
GPT 4o (Nov-24)
89
%
Star
USF Alpha
Star
64
%
LLAMA 3.1 405B
76
%
O1 Mini
97
%
LLAMA 3.3 70B
76
%
GPT 4o Mini
84
%
39
High School Computer Science
91
Open modal
Tooltip
High School Computer Science
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
91
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
93
%
O1 Mini
97
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
91
%
40
Conceptual Physics
82
Open modal
Tooltip
Conceptual Physics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
94
%
LLAMA 3.1 405B
88
%
O1 Mini
91
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
41
Miscellaneous
91
Open modal
Tooltip
Miscellaneous
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
91
%
LLAMA 3.3 70B
95
%
GPT 4o Mini
91
%
42
High School Chemistry
79
Open modal
Tooltip
High School Chemistry
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
91
%
DeepSeek V3
85
%
GPT 4o (Nov-24)
86
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
81
%
O1 Mini
92
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
43
Marketing
94
Open modal
Tooltip
Marketing
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
95
%
LLAMA 3.1 405B
95
%
O1 Mini
93
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%
44
Professional Law
54
Open modal
Tooltip
Professional Law
Model Scores
Star
USF-1 Mini
Star
73
%
Gemini 2.0 Flash
66
%
DeepSeek V3
69
%
GPT 4o (Nov-24)
73
%
Star
USF Alpha
Star
69
%
LLAMA 3.1 405B
69
%
O1 Mini
56
%
LLAMA 3.3 70B
65
%
GPT 4o Mini
54
%
45
Management
87
Open modal
Tooltip
Management
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
91
%
DeepSeek V3
92
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
90
%
O1 Mini
84
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
46
College Physics
84
Open modal
Tooltip
College Physics
Model Scores
Star
USF-1 Mini
Star
95
%
Gemini 2.0 Flash
95
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
90
%
Star
USF Alpha
Star
82
%
LLAMA 3.1 405B
75
%
O1 Mini
94
%
LLAMA 3.3 70B
84
%
GPT 4o Mini
84
%
47
Jurisprudence
84
Open modal
Tooltip
Jurisprudence
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
90
%
DeepSeek V3
89
%
GPT 4o (Nov-24)
91
%
Star
USF Alpha
Star
90
%
LLAMA 3.1 405B
91
%
O1 Mini
79
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
84
%
48
World Religions
87
Open modal
Tooltip
World Religions
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
88
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
90
%
O1 Mini
85
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
87
%
49
Sociology
91
Open modal
Tooltip
Sociology
Model Scores
Star
USF-1 Mini
Star
89
%
Gemini 2.0 Flash
90
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
92
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
95
%
O1 Mini
89
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
91
%
50
US Foreign Policy
90
Open modal
Tooltip
US Foreign Policy
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
95
%
DeepSeek V3
93
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
93
%
LLAMA 3.1 405B
94
%
O1 Mini
87
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
90
%
51
High School Macroeconomics
89
Open modal
Tooltip
High School Macroeconomics
Model Scores
Star
USF-1 Mini
Star
93
%
Gemini 2.0 Flash
92
%
DeepSeek V3
91
%
GPT 4o (Nov-24)
88
%
Star
USF Alpha
Star
91
%
LLAMA 3.1 405B
92
%
O1 Mini
92
%
LLAMA 3.3 70B
89
%
GPT 4o Mini
89
%
52
Computer Security
85
Open modal
Tooltip
Computer Security
Model Scores
Star
USF-1 Mini
Star
92
%
Gemini 2.0 Flash
86
%
DeepSeek V3
82
%
GPT 4o (Nov-24)
77
%
Star
USF Alpha
Star
89
%
LLAMA 3.1 405B
82
%
O1 Mini
84
%
LLAMA 3.3 70B
87
%
GPT 4o Mini
85
%
53
Moral Scenarios
61
Open modal
Tooltip
Moral Scenarios
Model Scores
Star
USF-1 Mini
Star
76
%
Gemini 2.0 Flash
66
%
DeepSeek V3
79
%
GPT 4o (Nov-24)
82
%
Star
USF Alpha
Star
81
%
LLAMA 3.1 405B
88
%
O1 Mini
70
%
LLAMA 3.3 70B
78
%
GPT 4o Mini
61
%
54
Moral Disputes
82
Open modal
Tooltip
Moral Disputes
Model Scores
Star
USF-1 Mini
Star
83
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
87
%
Star
USF Alpha
Star
86
%
LLAMA 3.1 405B
86
%
O1 Mini
74
%
LLAMA 3.3 70B
85
%
GPT 4o Mini
82
%
55
Electrical Engineering
79
Open modal
Tooltip
Electrical Engineering
Model Scores
Star
USF-1 Mini
Star
90
%
Gemini 2.0 Flash
86
%
DeepSeek V3
86
%
GPT 4o (Nov-24)
83
%
Star
USF Alpha
Star
87
%
LLAMA 3.1 405B
81
%
O1 Mini
80
%
LLAMA 3.3 70B
81
%
GPT 4o Mini
79
%
56
Astronomy
93
Open modal
Tooltip
Astronomy
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
93
%
DeepSeek V3
94
%
GPT 4o (Nov-24)
95
%
Star
USF Alpha
Star
92
%
LLAMA 3.1 405B
94
%
O1 Mini
93
%
LLAMA 3.3 70B
92
%
GPT 4o Mini
93
%
57
College Biology
94
Open modal
Tooltip
College Biology
Model Scores
Star
USF-1 Mini
Star
97
%
Gemini 2.0 Flash
95
%
DeepSeek V3
95
%
GPT 4o (Nov-24)
96
%
Star
USF Alpha
Star
96
%
LLAMA 3.1 405B
95
%
O1 Mini
95
%
LLAMA 3.3 70B
94
%
GPT 4o Mini
94
%

* Data source: MMLU Benchmarks for AI model performance comparison

Color coding: Darker blue = higher scores (better performance), lighter blue = lower scores. This heatmap ranges from dark blue (≥95%) to light blue (below 60%).

Deploy AI You Own. Keep It Yours

Zero third-party dependencies. Purpose-built AI, deployed where it matters.
Get Started
Decorative