1 of 10

Eksplorativna analiza tekstova vezanih uz COVID-19

ODD2022

Matej Peranić

Beliga S, Martinčić-Ipšić S, Matešić M, Petrijevčanin Vuksanović I, Meštrović A Infoveillance of the Croatian Online Media During the COVID-19 Pandemic: One-Year Longitudinal Study Using Natural Language Processing JMIR Public Health Surveill 2021;7(12):e31540 URL: https://publichealth.jmir.org/2021/12/e31540 DOI: 10.2196/31540

2 of 10

O podacima

  • 5 online portala (Večernji.hr, Tportal.hr, Net.hr, Telegram.hr, 24sata.hr)

  • siječanj – lipanj 2021.
  • članci su filtrirani na temelju ključnih riječi koje se u njima spominju
  • ODD – siječanj 2021.

3 of 10

Zadaci

a) Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama�b) Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom�c) Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom�d) Odrediti ukupne frekvencije zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*�e) Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)�f) Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”

    • lista riječi: koronavirus, covid-19, wuhan, hubei, pandemija, epidemija, karantena, samoizolacija, respirator, strože mjere, ostanimo doma, budimo odgovorni, lockdown, stožer, stožer civilne zaštite, cjepivo, propusnice, zaraženi, aerosol, maske

4 of 10

Zadaci

a) Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama�b) Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom�c) Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom�d) Odrediti ukupne frekvenicje zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*�e) Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)�f) Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”

    • lista riječi: koronavirus, covid-19, wuhan, hubei, pandemija, epidemija, karantena, samoizolacija, respirator, strože mjere, ostanimo doma, budimo odgovorni, lockdown, stožer, stožer civilne zaštite, cjepivo, propusnice, zaraženi, aerosol, maske

5 of 10

�frequency

bigram

0

446

grabar kitarović

1

297

kolinda grabar

2

275

zoran milanović

3

234

andrej plenković

4

212

predsjednički izbor

5

209

prošli godina

6

195

ministar zdravstvo

7

170

slučaj zaraza

8

161

imovinski kartica

9

158

grad wuhan

frequency

trigram

0

296

kolinda grabar kitarović

1

130

svjetski zdravstven organizacija

2

105

premijer andrej plenković

3

91

hrvatski ratni zrakoplovstvo

4

70

zavod javan zdravstvo

5

63

slučaj zaraza koronavirus

6

59

zdravstven organizacija who

7

58

kbc sestra milosrdnica

8

57

nov ministar zdravstvo

9

54

kineski grad wuhan

6 of 10

NMF (Non-negative matrix factorization)

Topic #0: nov ministar, ministar zdravstvo Topic #1: slučaj zaraza, grad wuhan

Topic #0: nov ministar, ministar zdravstvo, vili beroš

Topic #1: slučaj zaraza, grad wuhan, kineski grad

Topic #2: hrvatski ratni, ratni zrakoplovstvo, grabar kitarović

Topic #0: nov ministar, ministar zdravstvo, vili beroš, imovinski kartica

Topic #1: slučaj zaraza, grad wuhan, kineski grad, zaraza koronavirus

Topic #2: hrvatski ratni, ratni zrakoplovstvo, tomislav baturina, helikopter kiowa

Topic #3: grabar kitarović, kolinda grabar, zoran milanović, predsjednički izbor

Topic #0: nov ministar, ministar zdravstvo, vili beroš, odbor zdravstvo, beroš nov Topic #1: slučaj zaraza, grad wuhan, kineski grad, zaraza koronavirus, potvrditi slučaj

Topic #2: hrvatski ratni, ratni zrakoplovstvo, tomislav baturina, helikopter kiowa, načelnik stožer

Topic #3: grabar kitarović, kolinda grabar, zoran milanović, predsjednički izbor, izlazni anketa

Topic #4: imovinski kartica, 000 kuna, pomoćnik ministar, milan kujundžić, vili beroš

7 of 10

Topic #0: uvoditi strog mjera, kina uvoditi strog, savjetovati građanin putovati

Topic #1: hrvatski ratni zrakoplovstvo, natporučnik tomislav baturina, helikopter kiowa warrior

Topic #2: nov ministar zdravstvo, povjerenje nov ministar, zdravstvo vili beroš

Topic #0: uvoditi strog mjera, kina uvoditi strog, savjetovati građanin putovati, kongo proglasiti visok

Topic #1: hrvatski ratni zrakoplovstvo, natporučnik tomislav baturina, helikopter kiowa warrior, zapovjednik hrvatski ratni Topic #2: nov ministar zdravstvo, povjerenje nov ministar, zdravstvo vili beroš, sabor izglasati povjerenje

Topic #3: mjerni postaja zagreb, dišni srčano krvožilni, razina dišni srčano, srčano krvožilni sustav

8 of 10

Najfrekventnije riječi

Godina 1956

Velik 1764

Nov 1639

Hrvatski 1553

čovjek 1419

dan 1037

hrvatska 1008

raditi 1001

slučaj 989

dobar 910

9 of 10

TF-IDF (Term Frequency - Inverse Document Frequency)

  • statistical measure that evaluates how relevant a word is to a document in a collection of documents

tfidf

vizni 0.344800

peticija 0.331364

posjećivati 0.298992

malezija 0.278148

internet 0.265182

ograničenje 0.241324

dopustiti 0.232809

kinez 0.225007

uvesti 0.223244

potpisati 0.222671

10 of 10

Korišteni materijali