1 of 48

NeoN

nowe narzędzie do wykrywania �i wstępnej analizy neologizmów leksykalnych

Aleksandra Tomaszewska, Dariusz Czerski, Bartosz Żuk, Maciej Ogrodniczuk

Seminarium „Przetwarzanie języka naturalnego” | IPI PAN | 23 czerwca 2025

2 of 48

Zapotrzebowanie interdyscyplinarne

Badania nowych zjawisk w języku, w kulturze, społeczeństwie – nie tylko językoznawstwo

Badania neologizmów: wprowadzenie

Nowości technologiczne, społeczne

Zmiany w języku odpowiadają na te przemiany

3 of 48

Czasochłonne

Tradycyjne metody

Oparte na czytaniu tekstów i ręcznej weryfikacji z wykorzystaniem słowników

Problem z uchwyceniem autentycznych kontekstów

Wyniki często już nieaktualne

Ryzyko polegania na intuicji już na etapie identyfikacji

Możliwość monitorowania na małych próbkach danych

4 of 48

Identyfikacja wspomagana metodami korpusowymi

Oparte na systemach półautomatycznych – np. flagi, tzw. wyróżniki – discriminants (Paryzek 2008), przedrostki międzynarodowe (ko-, auto-, inter-, anty-…) itp.

5 of 48

Crowdsourcing: współpraca społeczności akademickiej

6 of 48

7 of 48

Badanie neologizmów dziś

5

Wysoka skuteczność

4

Ograniczenie czasu potrzebnego na lekturę

3

Ograniczenie introspekcji

Najnowsze teksty

2

1

Duże zbiory autentycznych danych

NLP, modele językowe: odpowiedź na wyzwania związane z wykrywaniem

i analizą nowości w języku.

Przyspieszają, ułatwiają badania.

8 of 48

W ostatnich latach powstały półautomatyczne narzędzia wykorzystujące słowniki i filtry regułowe: NeoCrawler – Kerremans i in. 2018, Neoveille – Cartier 2017

Néoveille

9 of 48

NeoCrawler

10 of 48

Obszerne listy kandydatów wymagają eksperckiej weryfikacji, eliminacji błędów, uzupełniania metadanych (definicje, kategorie).

Narzędzia półautomatyczne

Jako materiał referencyjny zastosowano słowniki (nie korpusy ogólne danych języków).

Rzadko uwzględniają specyfikę języka polskiego, ew. w ograniczonym zakresie.

Nie są aktualizowane, np. Neoveille od 2020 roku.

11 of 48

LLM vs człowiek �a neologizmy�Zero‑shot model GPT‑4o‑mini przewyższył ludzi w zadaniach elicytacyjnych, chain-of-thought poprawił wyniki 

(Ferrazzo i in. 2025).

Identyfikacja w danych z sieci społecznościowych Weibo �(Yin & Cheng 2016)

Tweety po francusku i włosku (Tarrade i in. 2022; Spina i in. 2024).

Wykrywanie neologizmów �w prasie francuskiej �(Falk i in. 2018).

Inne badania i narzędzia

Neo Bench: ocena zdolności LLM-ów do rozumienia �i przetwarzania neologizmów. Analiza + 2,5 k neologizmów.

12 of 48

Nowe metody – nowe wyzwania

Dane z internetu są “zaszumione” �(błędy ortograficzne, hashtagi, nazwy użytkowników)

Istniejące słowa pojawiają się w nowych formach

Nazwy własne udają neologizmy

13 of 48

Wstępne filtry: długość słowa, częstość itp.

Pipeline NeoN

Monitorowanie RSS �873 źródła, ekstrakcja treści

Filtry korpusowe: NKJP, KWJP, Wikipedia, NEKST – rejestrowane tylko formy po 2020 r.

Lematyzacja Hydra�scalanie wariantów fleksyjnych

Filtr LLM (Llama‑3.1-70B) – usuwanie fałszywych trafień; generowanie definicji i kategoryzacja

Skalowalny schemat śledzenia innowacji leksykalnych w polszczyźnie

14 of 48

Podgląd kontekstu z podświetleniem kandydata

NeoN w użyciu

Regulacja progów i reguł filtrów

w interfejsie internetowym

Generowanie definicji, dziedziny czy wydźwięku (jedno kliknięcie)

Łączenie odmian i wariantów zapisu

Eksport oczyszczonej listy do CSV

15 of 48

podgląd przykładów użycia

w kontekstach

Interfejs

regulacja parametrów filtrów

edycja listy słów-kandydatów

eksport wyników do CSV

16 of 48

Półprodukty analityczne

definicje, kategoryzacja, konteksty, statystyki, informacje językowe �– pomocne w dalszej analizie; człowiek interpretuje wyniki

Lista kandydatów

dostarcza listę – duża skuteczność, ale zaprojektowaliśmy NeoN-a tak, żeby człowiek mógł je weryfikować

Projektowanie�możliwość dostosowania filtrów, komponentów na potrzeby konkretnych badań

Więcej niż human-in-the-loop

NeoN jako asystent w badaniach nowych słów

17 of 48

FILTROWANIE FORM

Kategorie filtrów w NeoN

  • Słownik Języka Polskiego
    • wyniki połączenia słowników SGJP oraz Polimorf.
  • Częstotliwość i Występowanie
    • występowanie w dokumentach,
    • ogólna częstotliwość terminu,
    • częstotliwość występowania występowanie w serwisach internetowych.
  • Ograniczenia strukturalne
    • ograniczenia długości słowa (np. a, to, występowaniewserwisachinternetowych),
    • sprawdzanie nieprawidłowych znaków (np. szko$a),
    • obecność cyfr (np. krzysiek12).

18 of 48

FILTROWANIE FORM

Kategorie filtrów w NeoN

  • Walidacja leksykalna
    • sprawdzanie występowania w korpusach języka polskiego,
    • wykrywanie zapożyczeń z języka angielskiego (np. best).
  • Błędy ortograficzne i typograficzne
    • dopasowywanie polskich słów (np. slonce -> słońce)
    • odległość edycyjna z uwzględnieniem znaków diakrytycznych (np. zyrafs -> żyrafa).
  • Analiza kontekstowa
    • heurystyka nazw własnych (Hydra),
    • wykrywanie cytatów z języka angielskiego (np. Epic Games Store - looter shooter Tiny Tina's Wonderlands oraz platformówka Limbo),
    • wzorce kapitalizacji (np. Firma Maspex produkuje zabawki).
  • Inne
    • wyrazy złożone (np. tojest),
    • prompty dla LLM.

19 of 48

Walidacja wielokorpusowa

Użyte korpusy (wybierane przez użytkownika, maksymalnie 4 jednocześnie):�  • Narodowy Korpus Języka Polskiego (do 2010, ogólny)�  • Korpus Współczesnego Języka Polskiego (2011–2020, ogólny)�  • NEKST (do 2020, internetowy)�  • Polska Wikipedia (najnowszy zrzut)

Działanie: eliminacja leksemów już zakorzenionych we współczesnej polszczyźnie.

20 of 48

Duży model językowy jako ostateczny filtr

Model: Llama-3.3-70B-Instruct

Prompt typu few-shot: 3 przykłady pozytywne + 3 przykłady negatywne

Rola: semantyczna i kontekstowa decyzja w przypadkach granicznych

Teza: pierwsze zastosowanie dużych modeli językowych jako dedykowanego etapu filtrowania w detekcji neologizmów.

21 of 48

Konfiguracja eksperymentu

Dane: 233 538 dokumentów internetowych (873 źródeł RSS, ok. 2 miesiące pracy pająka internetowego)

Wstępne przetwarzanie NLP: detekcja języka → ekstrakcja treści głównej → analiza morfosyntaktyczna za pomocą modelu Hydra

Wstępni kandydaci po odfiltrowaniu słownikowym: 200 696

22 of 48

Filtrowanie przyrostowe – wyniki na zbiorze testowym 610 neologizmów z OJUW

Filtr

Kandydaci

Precyzja

Czułość

F1

Min/Max len

199,289

0.003

0.992

0.006

Freq > 5

33,801

0.018

0.989

0.035

Non-NE Freq > 5

4,198

0.142

0.972

0.248

Not in KWJP100

1,740

0.308

0.873

0.455

LLM filtering

1,056

0.508

0.873

0.642

Kluczowe spostrzeżenie: Filtry regułowe zmniejszają szum, a model LLM podwaja precyzję przy zachowaniu pełnej czułości.

23 of 48

Ręczna walidacja danych

Ręczna weryfikacja 1 740 kandydatów przed zastosowaniem modelu LLM

Etap

Wszystkie

Wykryte

Precyzja

Czułość

F1

Not in KWJP100

1,740

1,385

0.796

LLM filtering

1,056

968

0.917

0.699

0.79

Model LLM zwiększa precyzję o 0.121, przy akceptowalnym kompromisie w czułości.

24 of 48

Grupowanie form

Dlaczego grupować formy?

  • Neologizmy pojawiają się wariantach z łącznikiem, spacją lub odmianie fleksyjnej,�np. tusko-bus / tuskobus / tusko bus.
  • Dokładna analiza częstotliwości i semantyki wymaga agregacji wariantów.

Ewaluacja narzędzi do lematyzacji w kontekście neologizmów

  • Zbiór danych: 978 neologizmów, 3 659 form (≥ 3 formy na każdy)
  • Narzędzia: spaCy, Stanza, Hydra (specjalizowane dla polskiego), GPT-4o, DeepSeek-R1�Dwa tryby oceny: pojedyncze słowa vs. kontekst zdaniowy.

25 of 48

Nowe metryki na poziomie grup

Dokładność grupowania (spójność)

  • Wszystkie formy w grupie są mapowane na jeden lemat (niekoniecznie poprawny).

Ścisła dokładność grupowania

  • Wszystkie formy w grupie są mapowane na poprawny lemat.

26 of 48

Wyniki lematyzacji

Model

Bez kontekstu

Z kontekstem zdaniowym

Dokładność

Dokł. grupa

Dokł. grupa i lemat

Dokładność

Dokł. grupa

Dokł. grupa i lemat

SpaCy

50.18%

14.52%

13.50%

52.94%

16.26%

15.44%

Stanza

73.41%

53.58%

50.41%

73.35%

51.94%

48.77%

Hydra

72.01%

49.08%

46.22%

79.31%

62.47%

60.22%

GPT4o

72.81%

53.07%

49.90%

78.57%

62.99%

59.41%

DeepSeek-R1

75.13%

51.53%

49.80%

77.51%

57.16%

55.32%

27 of 48

Kluczowe wnioski

Filtrowanie:

  • Walidacja wielokorpusowa + etap LLM → uzyskano precyzję 0,917 na danych zweryfikowanych ręcznie
  • Zredukowano 200 tys. kandydatów do ~1 tys. przy zachowaniu wysokiej czułości (0,873)

Grupowanie:

  • Zaproponowano metryki grupowe do oceny spójności wariantów
  • Połączenie Hydry i modeli LLM daje najlepsze wyniki dla polskich neologizmów

Podsumowanie:

  • Hybrydowe podejście (regułowe + LLM) znacząco poprawia skuteczność wykrywania neologizmów na dużą skalę.

28 of 48

Generowanie definicji | Wstęp

Obserwatorium Językowego Uniwersytetu Warszawskiego

Neologizm

LLM

Przykłady użycia

Definicje

Definicje Referencyjne

Ocena

LLM Judge

29 of 48

Generowanie definicji | Zapytanie

Prompt Template

Wciel się w rolę językoznawcy. Twoim zadaniem jest napisanie definicji podanego słowa wzorując się na {num_examples} przykładach. Upewnij się żeby treść definicji była zwięzła i klarowna. Generuj tekst wyłącznie w języku polskim. Jeśli jest to konieczne zawrzyj kontekst w jakim dane słowo może być użyte.�

[Słowo]

{neologism}�

[Przykład 1]

{example_1}�

…�

[Definicja]�

Neologizm: alkotubka

Przykłady użycia:

  1. W reakcji na społeczne oburzenie taką formą sprzedaży alkoholu producent alkotubek zapowiedział wycofanie produktu.
  2. Na rynku pojawił się nowy produkt - alko-tubki .
  3. […] Co myślicie o alko-tubkach ? […] �– Nie mam z tym żadnego problemu, niech se ludzie piją co chcą i w czym chcą 😅 �– Kolejna wersja małpki do przemycania do biura.

30 of 48

Generowanie definicji | Ewaluacja

Pointwise Evaluation

LLM Judge

Correct

Incorrect

Pairwise Evaluation

LLM Judge

Draw

Lose

Win

31 of 48

Generowanie definicji | Wyniki

Wnioski:

  • Najlepsze konfiguracje uzyskują > 85% poprawności.
  • Więcej przykładów → lepsze wyniki.
  • Llama (70B) porównywalna do DeepSeek-R1 (670B)

32 of 48

Generowanie definicji | DeepSeek-R1

Pomysł DeepSeek-R1:

  • Użyj RL z silnie weryfikowalną nagrodą.
  • Daj modelowi budżet tokenów, przy pomocy których może myśleć.

Czemu DeepSeek-R1:

  • Transfer umiejętności rozumowania w matematyce i kodzie na zadania NLP?
  • Możliwość analizy myśli modelu.
  • Kompromis pomiędzy DeepSeek-V3 i DeepSeek-R1-Zero.

DeepSeek Response

<think>

Okay, so I need to define the word "alkotubka". First, I should figure out what this word means. Let me break it down. "Alko" probably comes from "alkohol", which is Polish for alcohol. "Tubka" is a diminutive of "tubka", which means a small tube. So, putting it together, "alkotubka" might be a small tube containing alcohol …

</think>�

<answer>

Alkotubka – potoczne określenie małego, przenośnego pojemnika (zwykle w kształcie tubki) zawierającego alkohol …

</answer>

33 of 48

Generowanie definicji | Wyniki

Wnioski:

  • Najlepsze konfiguracje uzyskują winrate ~55%.
  • Oprócz zwycięstw DeepSeek-R1 częściej remisuje.
  • Llama (70B) lepsza w jednej konfiguracji od DeepSeek-R1 (670B).

34 of 48

Generowanie definicji | Metaewaluacja

Pointwise Evaluation

35 of 48

Generowanie definicji | Metaewaluacja

Pairwise Evaluation

36 of 48

Kategoryzacja | Wstęp

Sentyment

  • Pozytywny -> sztos
  • Neutralny -> telepraca
  • Negatywny -> foliarz

Dziedzina życia

  • Technologia i nauka -> halucynować
  • Kultura i rozrywka -> spoilerować
  • Życie społeczne i relacje -> ghosting
  • Gospodarka i biznes -> crowdfunding
  • Ekologia i środowisko -> klimatohisteria
  • Polityka i społeczeństwo -> trumpista

37 of 48

Kategoryzacja | Wyniki

Wnioski:

  • Llama jest lepsza w zadaniach klasyfikacyjnych.
  • Wykorzystanie przykładów użycia osiąga najlepsze wyniki.
  • Z wyjątkiem konfiguracji DeepSeek-R1 + Definition.

38 of 48

Interfejs użytkownika

39 of 48

Przykładowa analiza

40 of 48

41 of 48

42 of 48

43 of 48

Co dalej?

44 of 48

Polski neologizm tygodnia

45 of 48

Polski neologizm tygodnia

46 of 48

Polski neologizm tygodnia

47 of 48

Więcej planów

W realizacji:

  • Etykietowanie neologizmów
  • Nowe źródła danych (inne niż wiadomości, własne źródła danych)

Na przyszłość:

  • Więcej miar statystycznych
  • Wykrywanie wariantów ortograficznych, frazeologicznych (teraz: interpunkcyjne)
  • Wykrywanie neologizmów wielowyrazowych
  • Wykrywanie neosemantyzmów

48 of 48

Dziękujemy!

Artykuł

Demo