AI Chatbot Fact-Checking: Analýza současných chatbotů
Tento projekt hodnotí odpovědi AI chatbotů. Soustředí se na identifikování silných a slabých stránek a jejich schopnosti ověřování faktů. Cílem projektu je získat přehled o chatbotech, jejich schopnostech a vytvořit smysluplný přehled.
Metodologie
1
Výběr chatbotů
ChatGPT-4, Gemini, Perplexity AI byly vybrány pro testování.
2
Formulace promptů
Chatboti dostali instrukce aby vyhodnotili předložené tvrzení a vycházeli z internetových zdrojů
3
Hodnotící kritéria
Odpovědi byly hodnoceny na základě jejich přesnosti, správnosti a počtu zdrojů.
Výsledky: ChatGPT-4
Vysoká přesnost
Dosáhlo 100% (4/4) správných odpovědí.
Kvalitní zdroje
100% odpovídající zdroje (12 zdrojů).
Jasné a k věci
Poskytoval rozsáhlé znalosti a přímé odpovědi.
Menší slabiny
Občasné zastaralé informace a omezená rozmanitost informací
Výsledky: Gemini
Přesnost
75%
Zdrojování
75%
Gemini prokázalo silné výsledky co se týče specifických promptů a anglického promptování. Ovšem při použití českých promptů selhával a nebyl v odpovědích konzistentní.
Výsledky: Perplexity AI
Vysoká přesnost
Dosáhlo 100% správně (4/4 otázek).
Dostačující zdrojování
Dosáhl 100% (10/10 adekvátních a správných zdrojů).
Rychlé informace
Reagoval velmi rychle a přesně.
Potenciální problémy
Někdy upřednostňoval doslovnost namísto lepší čtivosti
Závěr
Výsledky
Budoucí výzkum