| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1  | Model name | Total score (Metrics average) | SLOP (average) | Length (average) | Structure + Adherence (average) | Notes | ||||||||||||||||||||
2  | https://huggingface.co/invisietch/Nimbus-Miqu-v0.1-70B | 9.33 | 8 | 10 | 10 | Excellent overall | ||||||||||||||||||||
3  | https://huggingface.co/SicariusSicariiStuff/Dusk_Rainbow | 9.06 | 8.2 | 10 | 9 | - | ||||||||||||||||||||
4  | https://huggingface.co/TheDrummer/Theia-21B-v1 | 8.23 | 7.7 | 9 | 8 | Very good overall | ||||||||||||||||||||
5  | https://huggingface.co/arcee-ai/Arcee-Scribe | 8.2 | 4.6 | 10 | 10 | Very good overall, but sloppy | ||||||||||||||||||||
6  | https://huggingface.co/CohereForAI/c4ai-command-r-08-2024 | 7.96 | 5.9 | 9 | 9 | Good overall, but with too many affirmations | ||||||||||||||||||||
7  | https://huggingface.co/anthracite-org/magnum-v2-123b | 7.93 | 5.8 | 9 | 9 | Good overall | ||||||||||||||||||||
8  | https://huggingface.co/mistralai/Mistral-Large-Instruct-2407 | 7.8 | 6.4 | 8 | 9 | Good overall | ||||||||||||||||||||
9  | Sao10K/Llama-3.1-8B-Stheno-v3.4 | 7.53 | 7.6 | 8 | 7 | Short bias, Fails to execute somtimes | ||||||||||||||||||||
10  | https://huggingface.co/nbeerbower/mistral-nemo-gutenberg-12B-v2  | 7.23 | 4.7 | 9 | 8 | Good overall | ||||||||||||||||||||
11  | sophosympatheia/Midnight-Miqu-103B-v1.0 | 7.16 | 5.5 | 8 | 8 | Good overall, but with some formatting issues | ||||||||||||||||||||
12  | https://huggingface.co/OmnicromsBrain/NeuralStar_FusionWriter_4x7b  | 7.16 | 6.5 | 6 | 9 | Good overall | ||||||||||||||||||||
13  | https://huggingface.co/UCLA-AGI/Gemma-2-9B-It-SPPO-Iter3 | 4.36 | 7.1 | 4 | 2 | Many issues, Short bias, Fails to execute very often | ||||||||||||||||||||
14  | https://huggingface.co/FluffyKaeloky/Luminum-v0.1-123B | 5.13 | 5.4 | 6 | 4 | Many issues, Short bias, Fails to execute very often | ||||||||||||||||||||
15  | https://huggingface.co/lemon07r/Gemma-2-Ataraxy-9B | 3.53 | 6.6 | 2 | 2 | Short bias, Fails to execute very often | ||||||||||||||||||||
16  | ||||||||||||||||||||||||||
17  | API Models | |||||||||||||||||||||||||
18  | https://chatgpt.com/ | 8.9 | 6.7 | 10 | 10 | Superb and consistent, no refusals, GPTisms | ||||||||||||||||||||
19  | https://gemini.google.com/app | 7.9 | 5.7 | 9 | 9 | Good and consistant, Blatant refusal for #10, Big positivity bias | ||||||||||||||||||||
20  | https://claude.ai | 3.76 | 3.3 | 4 | 4 | Better than Phi-3.5 | ||||||||||||||||||||
21  | ||||||||||||||||||||||||||
22  | HF blog post: | |||||||||||||||||||||||||
23  | https://huggingface.co/SicariusSicariiStuff/Blog_And_Updates#september-7th-2024  | |||||||||||||||||||||||||
24  | ||||||||||||||||||||||||||
25  | Raw outputs from each model: | |||||||||||||||||||||||||
26  | https://huggingface.co/SicariusSicariiStuff/Blog_And_Updates/tree/main/ASS_Benchmark_Sept_9th_24/Answers_output_ALL  | |||||||||||||||||||||||||
27  | ||||||||||||||||||||||||||
28  | ||||||||||||||||||||||||||
29  | ||||||||||||||||||||||||||
30  | ||||||||||||||||||||||||||
31  | ||||||||||||||||||||||||||
32  | ||||||||||||||||||||||||||
33  | ||||||||||||||||||||||||||
34  | ||||||||||||||||||||||||||
35  | ||||||||||||||||||||||||||
36  | ||||||||||||||||||||||||||
37  | ||||||||||||||||||||||||||
38  | ||||||||||||||||||||||||||
39  | ||||||||||||||||||||||||||
40  | ||||||||||||||||||||||||||
41  | ||||||||||||||||||||||||||
42  | ||||||||||||||||||||||||||
43  | ||||||||||||||||||||||||||
44  | ||||||||||||||||||||||||||
45  | ||||||||||||||||||||||||||
46  | ||||||||||||||||||||||||||
47  | ||||||||||||||||||||||||||
48  | ||||||||||||||||||||||||||
49  | ||||||||||||||||||||||||||
50  | ||||||||||||||||||||||||||
51  | ||||||||||||||||||||||||||
52  | ||||||||||||||||||||||||||
53  | ||||||||||||||||||||||||||
54  | ||||||||||||||||||||||||||
55  | ||||||||||||||||||||||||||
56  | ||||||||||||||||||||||||||
57  | ||||||||||||||||||||||||||
58  | ||||||||||||||||||||||||||
59  | ||||||||||||||||||||||||||
60  | ||||||||||||||||||||||||||
61  | ||||||||||||||||||||||||||
62  | ||||||||||||||||||||||||||
63  | ||||||||||||||||||||||||||
64  | ||||||||||||||||||||||||||
65  | ||||||||||||||||||||||||||
66  | ||||||||||||||||||||||||||
67  | ||||||||||||||||||||||||||
68  | ||||||||||||||||||||||||||
69  | ||||||||||||||||||||||||||
70  | ||||||||||||||||||||||||||
71  | ||||||||||||||||||||||||||
72  | ||||||||||||||||||||||||||
73  | ||||||||||||||||||||||||||
74  | ||||||||||||||||||||||||||
75  | ||||||||||||||||||||||||||
76  | ||||||||||||||||||||||||||
77  | ||||||||||||||||||||||||||
78  | ||||||||||||||||||||||||||
79  | ||||||||||||||||||||||||||
80  | ||||||||||||||||||||||||||
81  | ||||||||||||||||||||||||||
82  | ||||||||||||||||||||||||||
83  | ||||||||||||||||||||||||||
84  | ||||||||||||||||||||||||||
85  | ||||||||||||||||||||||||||
86  | ||||||||||||||||||||||||||
87  | ||||||||||||||||||||||||||
88  | ||||||||||||||||||||||||||
89  | ||||||||||||||||||||||||||
90  | ||||||||||||||||||||||||||
91  | ||||||||||||||||||||||||||
92  | ||||||||||||||||||||||||||
93  | ||||||||||||||||||||||||||
94  | ||||||||||||||||||||||||||
95  | ||||||||||||||||||||||||||
96  | ||||||||||||||||||||||||||
97  | ||||||||||||||||||||||||||
98  | ||||||||||||||||||||||||||
99  | ||||||||||||||||||||||||||
100  | ||||||||||||||||||||||||||