Eksplorativna analiza tekstova vezanih uz COVID-19
ODD2022
Matej Peranić
Beliga S, Martinčić-Ipšić S, Matešić M, Petrijevčanin Vuksanović I, Meštrović A Infoveillance of the Croatian Online Media During the COVID-19 Pandemic: One-Year Longitudinal Study Using Natural Language Processing JMIR Public Health Surveill 2021;7(12):e31540 URL: https://publichealth.jmir.org/2021/12/e31540 DOI: 10.2196/31540
O podacima
Zadaci
a) Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama�b) Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom�c) Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom�d) Odrediti ukupne frekvencije zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*�e) Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)�f) Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”
Zadaci
a) Odrediti sve bigrame koji se pojavljuju u tekstovima i zapisati ih u datoteku sortirano po frekvencijama�b) Odrediti top 50 najfrekventnijih riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s frekvencijom�c) Koristeći TF-IDF shemu, odrediti top 50 najrelevantnijih (ključnih) riječi u zbirci svih dostupnih tekstova u zadanom podatkovnome skupu i zapisati ih u datoteku zajedno s TF-IDF mjerom�d) Odrediti ukupne frekvenicje zadanih pojmova vezanih uz COVID-19 (dobiva se zadana lista riječi)*�e) Odrediti frekvencije nekoliko COVID-19 pojmova i grafički prikazati njihovu zastupljenost po mjesecima (koronavirus, covid-19, pandemija, stožer, mjere, maske – voditi računa o tome da je koprus lematiziran, pa pretragu prilagoditi tome)�f) Napraviti pregled sličnosti tekstova po mjesecima primjenom Jaccard indexa sličnosti (Jaccard similarity index): mjeri se sličnost između najfrekventnijih 50 pojmova za svaka dva mjeseca – rezultate vizualitirati kao “heat map”
�frequency | bigram | |
0 | 446 | grabar kitarović |
1 | 297 | kolinda grabar |
2 | 275 | zoran milanović |
3 | 234 | andrej plenković |
4 | 212 | predsjednički izbor |
5 | 209 | prošli godina |
6 | 195 | ministar zdravstvo |
7 | 170 | slučaj zaraza |
8 | 161 | imovinski kartica |
9 | 158 | grad wuhan |
frequency | trigram | |
0 | 296 | kolinda grabar kitarović |
1 | 130 | svjetski zdravstven organizacija |
2 | 105 | premijer andrej plenković |
3 | 91 | hrvatski ratni zrakoplovstvo |
4 | 70 | zavod javan zdravstvo |
5 | 63 | slučaj zaraza koronavirus |
6 | 59 | zdravstven organizacija who |
7 | 58 | kbc sestra milosrdnica |
8 | 57 | nov ministar zdravstvo |
9 | 54 | kineski grad wuhan |
NMF (Non-negative matrix factorization)
Topic #0: nov ministar, ministar zdravstvo Topic #1: slučaj zaraza, grad wuhan �
Topic #0: nov ministar, ministar zdravstvo, vili beroš
Topic #1: slučaj zaraza, grad wuhan, kineski grad
Topic #2: hrvatski ratni, ratni zrakoplovstvo, grabar kitarović �
Topic #0: nov ministar, ministar zdravstvo, vili beroš, imovinski kartica
Topic #1: slučaj zaraza, grad wuhan, kineski grad, zaraza koronavirus
Topic #2: hrvatski ratni, ratni zrakoplovstvo, tomislav baturina, helikopter kiowa
Topic #3: grabar kitarović, kolinda grabar, zoran milanović, predsjednički izbor �
Topic #0: nov ministar, ministar zdravstvo, vili beroš, odbor zdravstvo, beroš nov Topic #1: slučaj zaraza, grad wuhan, kineski grad, zaraza koronavirus, potvrditi slučaj
Topic #2: hrvatski ratni, ratni zrakoplovstvo, tomislav baturina, helikopter kiowa, načelnik stožer
Topic #3: grabar kitarović, kolinda grabar, zoran milanović, predsjednički izbor, izlazni anketa
Topic #4: imovinski kartica, 000 kuna, pomoćnik ministar, milan kujundžić, vili beroš �
Topic #0: uvoditi strog mjera, kina uvoditi strog, savjetovati građanin putovati
Topic #1: hrvatski ratni zrakoplovstvo, natporučnik tomislav baturina, helikopter kiowa warrior
Topic #2: nov ministar zdravstvo, povjerenje nov ministar, zdravstvo vili beroš
Topic #0: uvoditi strog mjera, kina uvoditi strog, savjetovati građanin putovati, kongo proglasiti visok
Topic #1: hrvatski ratni zrakoplovstvo, natporučnik tomislav baturina, helikopter kiowa warrior, zapovjednik hrvatski ratni Topic #2: nov ministar zdravstvo, povjerenje nov ministar, zdravstvo vili beroš, sabor izglasati povjerenje
Topic #3: mjerni postaja zagreb, dišni srčano krvožilni, razina dišni srčano, srčano krvožilni sustav �
Najfrekventnije riječi
Godina 1956
Velik 1764
Nov 1639
Hrvatski 1553
čovjek 1419
dan 1037
hrvatska 1008
raditi 1001
slučaj 989
dobar 910
TF-IDF (Term Frequency - Inverse Document Frequency)
tfidf
vizni 0.344800
peticija 0.331364
posjećivati 0.298992
malezija 0.278148
internet 0.265182
ograničenje 0.241324
dopustiti 0.232809
kinez 0.225007
uvesti 0.223244
potpisati 0.222671
Korišteni materijali