1 of 6

AI Chatbot Fact-Checking: Analýza současných chatbotů

Tento projekt hodnotí odpovědi AI chatbotů. Soustředí se na identifikování silných a slabých stránek a jejich schopnosti ověřování faktů. Cílem projektu je získat přehled o chatbotech, jejich schopnostech a vytvořit smysluplný přehled.

2 of 6

Metodologie

1

Výběr chatbotů

ChatGPT-4, Gemini, Perplexity AI byly vybrány pro testování.

2

Formulace promptů

Chatboti dostali instrukce aby vyhodnotili předložené tvrzení a vycházeli z internetových zdrojů

3

Hodnotící kritéria

Odpovědi byly hodnoceny na základě jejich přesnosti, správnosti a počtu zdrojů.

3 of 6

Výsledky: ChatGPT-4

Vysoká přesnost

Dosáhlo 100% (4/4) správných odpovědí.

Kvalitní zdroje

100% odpovídající zdroje (12 zdrojů).

Jasné a k věci

Poskytoval rozsáhlé znalosti a přímé odpovědi.

Menší slabiny

Občasné zastaralé informace a omezená rozmanitost informací

4 of 6

Výsledky: Gemini

Přesnost

75%

Zdrojování

75%

Gemini prokázalo silné výsledky co se týče specifických promptů a anglického promptování. Ovšem při použití českých promptů selhával a nebyl v odpovědích konzistentní.

5 of 6

Výsledky: Perplexity AI

Vysoká přesnost

Dosáhlo 100% správně (4/4 otázek).

Dostačující zdrojování

Dosáhl 100% (10/10 adekvátních a správných zdrojů).

Rychlé informace

Reagoval velmi rychle a přesně.

Potenciální problémy

Někdy upřednostňoval doslovnost namísto lepší čtivosti

6 of 6

Závěr

Výsledky

  • Chatboti provedli dobrou práci a prokázali schopnost fact-checkování
  • Promptování a jazyk dotazu mělo zásadní vliv na výsledky.
  • Gemini bylo jediné, které nebylo schopné u jednoho tvrzení poskytnout zdroje.

Budoucí výzkum

  • Jako návrhy pro budoucí výzkum bych upřednostňoval připravení vyššího množství faktů, které budou vybrány dle specifických kritérií.
  • Obohacení výzkumu o více chatbotů spolu s jejich placenými variantami
  • Vytvoření sofistikovaného workflow pro automatizaci testování