| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Baseline (GPT-4o) | Explanation | GPT-4o with long output | Smaller model (e.g. 4o-mini) | Pessimistic (Larger model + worse utilization) | Pessimistic + long outputs | |||||||||||||||||||||
2 | Active parameters (billions) | 100 | Using 400 billion total, 100B active | 100 | 20 | 200 | 200 | ||||||||||||||||||||
3 | Output tokens per query | 500 | Chiang et al found an average response of 269 tokens in Chatbot Arena. Actual tokens generated can vary dramatically, in both directions, based on prompt and usage | 1500 | 500 | 500 | 1500 | ||||||||||||||||||||
4 | FLOP per query | 1.00E+14 | 2 * active params * tokens | 3.00E+14 | 2.00E+13 | 2.00E+14 | 6.00E+14 | ||||||||||||||||||||
5 | GPU peak FLOP/s | 9.89E+14 | H100 peak FLOP/s (bf16 without sparsity. but inference could use fp8 instead) | 9.89E+14 | 9.89E+14 | 9.89E+14 | 9.89E+14 | ||||||||||||||||||||
6 | GPU FLOP utilization | 0.1 | 0.1 | 0.1 | 0.05 | 0.05 | |||||||||||||||||||||
7 | GPU time in seconds required to process a query | 1.01 | 3.03 | 0.20 | 4.04 | 12.13 | |||||||||||||||||||||
8 | Data center power per GPU (W) | 1275 | DGX H100 server with 8 GPUs is rated at 10.2 kW, or 1275 W per GPU | 1275 | 1275 | 1275 | 1275 | ||||||||||||||||||||
9 | Data center power-use effectiveness (PUE) | 1.2 | Global multiplier at the data center level due to non-compute equipment. Ranges from 1.1 to 1.3 for AI data centers per SemiAnalysis | 1.2 | 1.2 | 1.3 | 1.3 | ||||||||||||||||||||
10 | Power adjustment for partial utilization | 0.7 | Average consumption found by Microsoft | 0.7 | 0.7 | 0.7 | 0.7 | ||||||||||||||||||||
11 | Average GPU power (W) | 1071 | Adjust GPU power by power adjustment, add node-level consumption, multiply by PUE | 1071 | 1071 | 1160.25 | 1160.25 | ||||||||||||||||||||
12 | Energy per query (Watt-hours) | 0.301 | 0.902 | 0.06 | 1.304 | 3.911 | |||||||||||||||||||||
13 | |||||||||||||||||||||||||||
14 | |||||||||||||||||||||||||||
15 | NOTE: cost of queries with long inputs are calculated separately in this notebook: Gradient Updates Chatgpt query flop cost.ipynb | ||||||||||||||||||||||||||
16 | |||||||||||||||||||||||||||
17 | |||||||||||||||||||||||||||
18 | |||||||||||||||||||||||||||
19 | |||||||||||||||||||||||||||
20 | |||||||||||||||||||||||||||
21 | |||||||||||||||||||||||||||
22 | |||||||||||||||||||||||||||
23 | |||||||||||||||||||||||||||
24 | |||||||||||||||||||||||||||
25 | |||||||||||||||||||||||||||
26 | |||||||||||||||||||||||||||
27 | |||||||||||||||||||||||||||
28 | |||||||||||||||||||||||||||
29 | |||||||||||||||||||||||||||
30 | |||||||||||||||||||||||||||
31 | |||||||||||||||||||||||||||
32 | |||||||||||||||||||||||||||
33 | |||||||||||||||||||||||||||
34 | |||||||||||||||||||||||||||
35 | |||||||||||||||||||||||||||
36 | |||||||||||||||||||||||||||
37 | |||||||||||||||||||||||||||
38 | |||||||||||||||||||||||||||
39 | |||||||||||||||||||||||||||
40 | |||||||||||||||||||||||||||
41 | |||||||||||||||||||||||||||
42 | |||||||||||||||||||||||||||
43 | |||||||||||||||||||||||||||
44 | |||||||||||||||||||||||||||
45 | |||||||||||||||||||||||||||
46 | |||||||||||||||||||||||||||
47 | |||||||||||||||||||||||||||
48 | |||||||||||||||||||||||||||
49 | |||||||||||||||||||||||||||
50 | |||||||||||||||||||||||||||
51 | |||||||||||||||||||||||||||
52 | |||||||||||||||||||||||||||
53 | |||||||||||||||||||||||||||
54 | |||||||||||||||||||||||||||
55 | |||||||||||||||||||||||||||
56 | |||||||||||||||||||||||||||
57 | |||||||||||||||||||||||||||
58 | |||||||||||||||||||||||||||
59 | |||||||||||||||||||||||||||
60 | |||||||||||||||||||||||||||
61 | |||||||||||||||||||||||||||
62 | |||||||||||||||||||||||||||
63 | |||||||||||||||||||||||||||
64 | |||||||||||||||||||||||||||
65 | |||||||||||||||||||||||||||
66 | |||||||||||||||||||||||||||
67 | |||||||||||||||||||||||||||
68 | |||||||||||||||||||||||||||
69 | |||||||||||||||||||||||||||
70 | |||||||||||||||||||||||||||
71 | |||||||||||||||||||||||||||
72 | |||||||||||||||||||||||||||
73 | |||||||||||||||||||||||||||
74 | |||||||||||||||||||||||||||
75 | |||||||||||||||||||||||||||
76 | |||||||||||||||||||||||||||
77 | |||||||||||||||||||||||||||
78 | |||||||||||||||||||||||||||
79 | |||||||||||||||||||||||||||
80 | |||||||||||||||||||||||||||
81 | |||||||||||||||||||||||||||
82 | |||||||||||||||||||||||||||
83 | |||||||||||||||||||||||||||
84 | |||||||||||||||||||||||||||
85 | |||||||||||||||||||||||||||
86 | |||||||||||||||||||||||||||
87 | |||||||||||||||||||||||||||
88 | |||||||||||||||||||||||||||
89 | |||||||||||||||||||||||||||
90 | |||||||||||||||||||||||||||
91 | |||||||||||||||||||||||||||
92 | |||||||||||||||||||||||||||
93 | |||||||||||||||||||||||||||
94 | |||||||||||||||||||||||||||
95 | |||||||||||||||||||||||||||
96 | |||||||||||||||||||||||||||
97 | |||||||||||||||||||||||||||
98 | |||||||||||||||||||||||||||
99 | |||||||||||||||||||||||||||
100 |