ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
НазваниеКраткое описаниеПримеры моделейОсновные метрикиСсылка
2
1LLM Leaderboard by Artificial AnalysisСравнивает более 30 больших языковых моделей (GPT-4o, Llama 3, Mistral, Gemini и др.) по качеству, цене, производительности, скорости и контекстному окну.GPT-4o, Llama 3, Mistral, GeminiКачество, цена, скорость, размер контекстного окнаhttps://artificialanalysis.ai/leaderboards/models?utm_source=chatgpt.com
3
2LLM Leaderboard 2025 by LLM StatsПредоставляет детальные метрики и результаты тестов для топовых LLM (GPT-4o, Llama, o1, Gemini, Claude) с интерактивным анализом контекстного окна, скорости и цены.GPT-4o, Llama, o1, Gemini, ClaudeКонтекстное окно, скорость, ценаhttps://llm-stats.com/?utm_source=chatgpt.com
4
3Open LLM Leaderboard by Hugging FaceЕжедневно обновляемый список с топовыми моделями, такими как Qwen2.5-7B и Mistral-Large-Instruct-2411, с детальными показателями производительности.Qwen2.5-7B, Mistral-Large-Instruct-2411Рейтинг по результатам тестов, обновление в реальном времениhttps://huggingface.co/collections/open-llm-leaderboard/open-llm-leaderboard-best-models-652d6c7965a4619fb5c27a03?utm_source=chatgpt.com
5
4LLM Leaderboard 2024 by VellumСравнивает функциональность, цены и размеры контекстного окна ведущих коммерческих и open-source LLM, основываясь на данных бенчмарков 2024 года.Различные коммерческие и открытые LLMЦена, возможности, контекстное окноhttps://www.vellum.ai/llm-leaderboard?utm_source=chatgpt.com
6
5Open LLM Leaderboard (вторая ссылка) by Hugging FaceОтслеживает, ранжирует и оценивает открытые LLM и чат-боты, предоставляя информацию об их производительности.Различные открытые LLM (дополнительно к моделям из пункта 3)Производительность, рейтинги, сравнение моделейhttps://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?utm_source=chatgpt.com
7
6LLM Leaderboard by Klu.aiСравнивает популярные модели (Anthropic Claude Haiku, OpenAI GPT-3.5 Turbo и др.) по качеству вывода, количеству токенов и производительности на конкретных бенчмарках.Anthropic Claude Haiku, OpenAI GPT-3.5 Turbo и др.Качество вывода, токены, производительность на бенчмаркахhttps://klu.ai/llm-leaderboard?utm_source=chatgpt.com
8
7LLM-Leaderboard by StreamlitСообщество, совместно создающее единый централизованный лидерборд LLM, где пользователи могут сравнивать различные модели и добавлять свои результаты.Различные LLM по вкладам сообществаРазнообразные метрики в зависимости от вкладов пользователейhttps://llm-leaderboard.streamlit.app/?utm_source=chatgpt.com
9
8The Big Benchmarks Collection by Hugging FaceНабор бенчмарков (Chatbot Arena, MT-Bench, MMLU и др.) для всесторонней оценки LLM по разным задачам.Различные LLM (GPT, Llama и др.)Оценка в разных дисциплинах и задачахhttps://huggingface.co/collections/open-llm-leaderboard/the-big-benchmarks-collection-64faca6335a7fc7d4ffe974a?utm_source=chatgpt.com
10
9AI Benchmarking Dashboard by Epoch AIПредоставляет данные о производительности более 200 моделей, с акцентом на размер модели, объем обучающих данных и другие метрики, связанные с крупномасштабным обучением.Более 200 крупных ML/LLM моделейРазмер модели, объем данных, производительностьhttps://epoch.ai/data/ai-benchmarking-dashboard?utm_source=chatgpt.com
11
10OlympicArena Medal RanksМногодисциплинарный бенчмарк «олимпийского уровня» для оценки суперинтеллектуальных систем, ранжирует модели по комплексным показателям в разных дисциплинах (multi-modal).Суперинтеллектуальные модели (открытые и коммерческие)Совокупная оценка по многим дисциплинам и задачамhttps://arxiv.org/abs/2406.16772?utm_source=chatgpt.com
12
11Lmarena.aiОнлайн-платформа, позволяющая сравнивать и тестировать различные LLM, предоставляя рейтинги, бенчмарки и статистику.GPT-4, Claude 2, Llama 2 и др.Качество вывода, скорость, цена/токенhttps://lmarena.ai
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100