1 of 23

Блаже Конески, NLP анализа

Marko Bogoevski - 171038

Risto Trajanov - 171523

2 of 23

Цел

- Подготовка на соодветно податочно множество за анализа

- Основни нлп статистики околу зборовите и нивните фрекфенции на ниво на стих и песна

- Сентимент анализа на ниво на песна

- Временска анализа за сентимент

- Topic modelling

3 of 23

Податочно множество

- Претпроцесирање на цела поезија на Блаже, 2 збирки со сите песни од ‘45 до ‘93

- Иницијални колони: Година од, година до (за временска анализа), име на збирка, број на збирка, име на подзбирка, број на подзбирка, име на песна, број на песна, песна на македонски, број на стих, стих на македонски

- Торка на ниво на стих со можности за лесно групирање преку клучни атрибути година, број збирка, број подзбирка, број песна и број стих

4 of 23

Податочно множество

- Превод на сите песни преку google translate со рачни поправки со цел да се добие англиска варијанта за повеќе можности понатаму

- Додавање на колоните песна на англиски и стих на англиски во множеството

- Чистење и проверка на квалитетот пред да се премине на сентимент анализа

- Финално вкупно 9385 торки, димензии 9385 x 13

5 of 23

Иницијални статистики, мак и англиски

- Направени се статистики поврзани со бројот на зборови во песните од сите збирки на Блаже Коневски.

- Статистики во врска со бројот на строфи во песните исто така и стихови во строфите.

- Направена е анализа на напишани стихови и песни во годините кога творел

- Во наредните слајдови се презентирани дел од графовите.

6 of 23

Иницијални статистики, мак

  • Графот на десната страна ги прикажува најкористените зборови во песните со направена лематизација
  • Графот на левата страна ги прикажува најкористените зборови во песните без направена лематизација

7 of 23

Иницијални статистики, мак

  • Дадени се два графици каде што се прикажани бројот на зборови и бројот на стихови во песните.

8 of 23

Иницијални статистики, мак

  • На овие два графици е прикажана дистрибуцијата на број на стихови напишани од страна на Блаже коневски и дистрибуцијата на зборови во стиховите.

9 of 23

Сентимент анализа - припрема

  • Користен NRC Emoticon lexicon наместо модел за да се направи анализа и на македонските стихови
  • Користени фајлови:
    • VAD вредности (Valence, arousal и dominance) - Macedonian-mk-NRC-VAD-Lexicon.txt
    • Интензитет на емоција (8 емоции со вредности од 0 до 1 за секој збор) - Macedonian-mk-NRC-Emotion-Intensity-Lexicon-v1.txt
    • Присуство/отсуство на емоција како и проценка на позитивност/негативност на збор (бит вектор) - NRC-Emotion-Lexicon-v0.92-In105Languages-Nov2017Translations.xlsx
  • Информации од сите фајлови се агрегирани во еден речник за секој збор од песните на англиски и на македонски јазик

10 of 23

Сентимент анализа - припрема

  • Облик на речник:

{‘eng’: {word:{

‘Emotional_intensity’:{emotion_1:intensity_1,...,emotion_8:intensity_8,

‘positive’:positive_bit, ‘negative’:negative_bit},

‘valence’:valence_number(-1 if no value),

‘arousal’:arousal_number,

‘Dominance’:dominance_number}, …},

‘mk’ : {...}}

  • Разгледувани емоции: anger, anticipation, disgust, fear, joy, sadness, surprise, trust
  • Целта е да се агрегираат статистики на ниво на стих и така да се процени сентиментот

11 of 23

Сентимент анализа - припрема

- Се прават 4 податочни множества, пар за англиски, пар за македонски (во еден пар 1 е со лематизација, а 1 без)

- НЛП трансформации и анализи на македонските стихови се прават со македонскиот pipeline на spacy

- Feature engineered колони од агрегираните речници: V_mean, A_mean, D_mean, Neutral_word_ratio, Positive_word_ratio, Negative_word_ratio, потоа за секоја од 8те емоции следува emotion_word_ratio колона со emotion_mean_intensity колона, вкупно 22

- Агрегацијата се прави на ниво на песна

- Финални димензии на едно множество : 430 x 28

12 of 23

Сентимент анализа - колони

- Избран e mean како статистичка агрегација, може да се експериментира со geometric mean или harmonic mean

- V_mean, A_mean и D_mean се просечни вредности на valence, arousal и dominance на ниво на песна

- За секоја од 3те состојби neutral, pos, neg се пресметува word_ratio што е број зборови со детектиран сентимент во дадена состојба/вкупен број зборови со сентимент

- За секоја од емоциите се пресметува word_ratio на ист начин (во колку од зборовите со сентимент е присутна емоцијата), а intensity кажува со колкав просечен интензитет се јавува емоцијата во тие зборови

  • Вредностите не се собираат до 1 поради отсуство на некои зборови во формираните речници

13 of 23

Статистики сентимент, мак и англиски со лема и без лема

- На следните слајдови се прикажани статистики поврзани со чувствата изразени од страна на авторот во дадени години, подзбирки и збирки.

- Моделите за сентимент најточно ги покажаа резултатите на англиското податочно множество со направена лематизација.

14 of 23

Статистики сентимент, англиски со лема

  • На овој график е изразен интензитетот на среќа и тага експресиран во збирките од страна на авторот во текот на годините.

15 of 23

Статистики сентимент, англиски со лема

  • На овој график е покажан односот на зборови со сентимент на страв и нервоза и другите зборови низ годините кога творел.

16 of 23

Статистики сентимент, англиски со лема

  • На овој график се извадени подзбирките кој се сметаат за најсреќни.
    • Од Стариот Нотес
    • На споменот на Цветанка Трпкова
    • Дојранска Ветришта
    • Животен Рат

17 of 23

Вад вредности по години

18 of 23

Статистики сентимент, англиски со лема

  • Во следните две табели се дадени емоциите кој биле најмогу изразени од авторот во дадените години и дадените збирки.

19 of 23

Topic modelling

  • Користен LDA од gensin библиотека врз лематизирани зборови со отстранување на stop words
  • Генерирани 15 теми за двата јазици врз основа на цел корпус
  • Тема = линеарна комбинација од 10 зборови (секој збор има тежина што одговара на тоа колку ја ‘опишува’ темата)
  • Потоа за секоја песна доделени 3 теми со најголеми веројатности
  • Визуелизации и опис на темите и topic modelling на ниво на песна тука

20 of 23

Topic modelling

Тема 1 за англиски јазик

Тема 4 за мак. јазик

21 of 23

Topic modelling, статистики

  • На следната табела се дадени збирките со нивните топикс и зборовите кој најдобро ги опишуваат истите

22 of 23

Topic modelling, статистики

  • На дадената табела се преставени годините во кој творел авторот и како тие се карактеризираат со некои од темите и нивните најчести зборови

23 of 23

Заклучок

  • ...