V posledních dvou letech se role velkých jazykových modelů (LLM) dramaticky proměnila. Staly se nejen nástrojem pro tvorbu textu, ale i univerzálními asistenty schopnými kódovat, řešit vědecké úlohy, analyzovat velká datová množství nebo vysvětlovat složité koncepty. Spolu s rostoucí dostupností těchto modelů však přichází i otázka nákladů a jejich efektivní optimalizace.

V tomto článku najdeš ucelený a prakticky zaměřený přehled toho, jak fungují tokeny, jak se počítají ceny u hlavních modelů (GPT, Gemini, Claude, Grok, Mistral, Qwen), jak velké mají kontextové okno, jaké jsou cenové pasti, jak se počítají konkrétní příklady a hlavně — jak si jednotlivé modely vedou v nezávislých benchmarcích. Vše je aktualizované k roku 2026 a podložené konkrétními citacemi.
1. Co je token a proč je důležitý
Token je základní stavební jednotka textu, s níž AI modely pracují. Nejde o slovo ani znak — token může být celé jednoduché slovo, část složeného slova nebo třeba interpunkční znak.
Obecně platí, že jeden token odpovídá přibližně 0,75 slova.
Méně běžná slova a komplikované tvary spotřebují více tokenů.
Praktické příklady:
- Krátká odpověď: ~60–120 tokenů
- Jeden odstavec: ~120–250 tokenů
- Stránka A4 textu: ~1200–1800 tokenů
Čím více tokenů, tím vyšší cena. Porozumění tokenům je proto základem optimalizace nákladů.
2. Druhy tokenů: input, output, cached
- Input tokeny – Vše, co pošleš modelu — instrukce, text, data, kontext.
- Output tokeny – To, co model vygeneruje. U všech velkých poskytovatelů jsou dražší než input (někde i více než 5×).
- Cached input tokeny – Opakující se části promptu (např. systémové instrukce) mohou být účtovány za výrazně nižší cenu — často cca 10 % původní ceny
3. Jak se určuje cena?
Všichni poskytovatelé účtují cenu za 1 milion tokenů.
Cena se vždy rozděluje na:
- cenu za input tokeny
- cenu za output tokeny
Některé služby účtují dynamicky — například Google Gemini zdražuje, pokud prompt překročí hranici ~200 000 tokenů. ● 21
4. Přehled cen hlavních modelových rodin
OpenAI — GPT‑5.2
- Input: $1.75 / 1M
- Output: $14 / 1M
Google — Gemini 3.1 Pro
- Input: $2 / 1M (≤200k), $4 / 1M (>200k)
- Output: $12 / 1M (≤200k), $18 / 1M (>200k)
Anthropic — Claude Opus 4.6
- Input: $5 / 1M
- Output: $25 / 1M
xAI — Grok 4.1
- Input: $0.20 / 1M
- Output: $0.50 / 1M
Mistral — řada 2026
- Mistral Large 3: $2.00 / $6.00
- Mistral Medium 3: $1.00 / $3.00
- Mistral Small 3.1: $0.20 / $0.60
Qwen — řada 2026
- Qwen Turbo: $0.033 / $0.130
- Qwen 3.5 Flash: $0.10 / $0.40
- Qwen 3.5 Plus: $0.40 / $2.40
- Qwen 3 Max Thinking: $1.20 / $6.00
- Qwen 2.5 Coder 7B: $0.030 / $0.090
5. Maximální kontextová okna
- GPT‑5.4 → až 1 050 000 tokenů
- Gemini 3.1 Pro → 2 000 000 tokenů
- Claude Opus 4.6 → 200 000 tokenů
- Grok 4.1 → 2 000 000 tokenů
- Mistral — typicky 128k
- Qwen — 33k až 1M dle modelu
6. Cenové pasti a jak se jim vyhnout
1) Dlouhé prompty u Gemini → zdražení po 200k tokenů
Toto je nejčastější skrytý problém — dlouhé dokumenty posílej po částech
2) Příliš dlouhé výstupy → vysoké účty
Výstupní tokeny jsou několikanásobně dražší — limituj generovanou délku
3) Nevyužití cache → zbytečné opakované účtování
System prompty patří do cached input
4) Špatná volba modelu pro danou úlohu
Vysoké modely používej jen tam, kde dávají výhodu (reasoning, složitost)
7. Srovnávací tabulka cen a kontextu
| Model | Input / 1M | Output / 1M | Kontext | Citace |
|---|---|---|---|---|
| GPT‑5.4 | $2.50 | $15 | 1 050k | |
| GPT‑5.2 | $1.75 | $14 | 400k | |
| Gemini 3.1 Pro | $2 / $4 | $12 / $18 | 2 000k | |
| Claude Opus 4.6 | $5 | $25 | 200k | |
| Grok 4.1 | $0.20 | $0.50 | 2 000k | |
| Mistral Large 3 | $2.00 | $6.00 | 128k | |
| Mistral Medium 3 | $1.00 | $3.00 | 128k | |
| Mistral Small 3.1 | $0.20 | $0.60 | 128k | |
| Qwen Turbo | $0.033 | $0.130 | 131k | |
| Qwen 3.5 Flash | $0.10 | $0.40 | 1 000k | |
| Qwen 3.5 Plus 2026 | $0.40 | $2.40 | 1 000k | |
| Qwen 3 Max Thinking | $1.20 | $6.00 | 262k |
8. Příklady výpočtů cen
a) GPT‑5.2 — krátký dotaz
Prompt: 500 tok., výstup: 800 tok.
→ Celkem $0.012
b) Gemini 3.1 Pro — dlouhý prompt (≤200k)
Prompt: 50k, výstup: 10k
→ Celkem $0.22
c) Gemini 3.1 Pro — překročení 200k
Prompt: 220k, výstup 20k
→ Celkem $1.24
d) Claude Opus 4.6 — analýza
→ Celkem $0.80
e) Grok 4.1 — extrémně nízká cena
→ Celkem $0.03
f) Mistral Large 3 — komplexní úloha
→ Celkem $0.36
g) Qwen Turbo — miniaturní dotaz
→ Celkem $0.00137
9. Porovnání výkonu modelových řad
a) Reasoning (HLE, GPQA, SimpleBench)
- Gemini 3.1 Pro Preview — HLE 37.52 %, GPQA 94.1 %, SimpleBench 79.6 %
- Claude Opus 4.6 — HLE 34.44 %, SimpleBench 67.6 %
- GPT‑5.2 — HLE 27.80 %, GPQA 91.4 %
→ Vítěz reasoning: Gemini 3.1 Pro
b) Coding (SWE‑bench, HumanEval)
- Swe‑bench: Opus 4.6 (78.7 %), GPT‑5.4 (76.9 %), Opus 4.5 (76.7 %), Gemini 3 Pro (75.6 %)
- HumanEval: Opus 4.5 (92.1 %), GPT‑5.2 (90.5 %), Gemini 3 Pro (88.4 %)
→ Vítěz coding: Claude Opus 4.6 / 4.5
c) Matematika (AIME, MATH‑500)
- AIME: GPT‑5.2 – 100 %, Gemini 3 Pro – 100 %, Opus 4.5 – 95 %
- MATH‑500: DeepSeek R1 – 97.3 % (open-source šampion)
d) Znalosti (MMLU / MMLU‑Pro)
- MMLU: Gemini 3 Pro ~91.8 %, GPT‑5.2 ~89.6 %
- MMLU‑Pro: Claude Opus 4.6 ~82.0 %
→ Vítěz znalostí: Gemini 3 Pro
e) Robustnost (SimpleBench)
- Gemini 3.1 Pro — 79.6 %
→ Vítěz robustnosti: Gemini 3.1 Pro
10. Doporučení pro praxi
Pokud pracuješ s dlouhými dokumenty, využij modely s rozsáhlým kontextem (Gemini 3.1 Pro nebo Grok 4.1).
Pro faktické úlohy, kódování a složité analýzy je Claude Opus nejspolehlivější.
Pro levný vysokokapacitní provoz je ideální Qwen nebo Mistral Small.
Pro extrémně nízké náklady je jasnou volbou Grok.
11. Závěr
Tokeny jsou srdcem ekonomiky práce s AI. Kdo rozumí jejich cenotvorbě, dokáže snížit náklady o desítky procent a zároveň zvolit správný model pro konkrétní úkol. Benchmarky ukazují, že žádný model není nejlepší ve všem — výběr proto vždy závisí na konkrétním použití.
Tento přehled nabízí ucelený pohled na stav AI modelů k roku 2026: jejich cenu, výkon, limity i praktické dopady. Správná strategie tokenizace a modelového routingu je v moderním světě klíčová — jak pro jednotlivce, tak pro firmy.

