Блаже Конески, NLP анализа
Marko Bogoevski - 171038
Risto Trajanov - 171523
Цел
- Подготовка на соодветно податочно множество за анализа
- Основни нлп статистики околу зборовите и нивните фрекфенции на ниво на стих и песна
- Сентимент анализа на ниво на песна
- Временска анализа за сентимент
- Topic modelling
Податочно множество
- Претпроцесирање на цела поезија на Блаже, 2 збирки со сите песни од ‘45 до ‘93
- Иницијални колони: Година од, година до (за временска анализа), име на збирка, број на збирка, име на подзбирка, број на подзбирка, име на песна, број на песна, песна на македонски, број на стих, стих на македонски
- Торка на ниво на стих со можности за лесно групирање преку клучни атрибути година, број збирка, број подзбирка, број песна и број стих
Податочно множество
- Превод на сите песни преку google translate со рачни поправки со цел да се добие англиска варијанта за повеќе можности понатаму
- Додавање на колоните песна на англиски и стих на англиски во множеството
- Чистење и проверка на квалитетот пред да се премине на сентимент анализа
- Финално вкупно 9385 торки, димензии 9385 x 13
Иницијални статистики, мак и англиски
- Направени се статистики поврзани со бројот на зборови во песните од сите збирки на Блаже Коневски.
- Статистики во врска со бројот на строфи во песните исто така и стихови во строфите.
- Направена е анализа на напишани стихови и песни во годините кога творел
- Во наредните слајдови се презентирани дел од графовите.
Иницијални статистики, мак
Иницијални статистики, мак
Иницијални статистики, мак
Сентимент анализа - припрема
Сентимент анализа - припрема
{‘eng’: {word:{
‘Emotional_intensity’:{emotion_1:intensity_1,...,emotion_8:intensity_8,
‘positive’:positive_bit, ‘negative’:negative_bit},
‘valence’:valence_number(-1 if no value),
‘arousal’:arousal_number,
‘Dominance’:dominance_number}, …},
‘mk’ : {...}}
Сентимент анализа - припрема
- Се прават 4 податочни множества, пар за англиски, пар за македонски (во еден пар 1 е со лематизација, а 1 без)
- НЛП трансформации и анализи на македонските стихови се прават со македонскиот pipeline на spacy
- Feature engineered колони од агрегираните речници: V_mean, A_mean, D_mean, Neutral_word_ratio, Positive_word_ratio, Negative_word_ratio, потоа за секоја од 8те емоции следува emotion_word_ratio колона со emotion_mean_intensity колона, вкупно 22
- Агрегацијата се прави на ниво на песна
- Финални димензии на едно множество : 430 x 28
Сентимент анализа - колони
- Избран e mean како статистичка агрегација, може да се експериментира со geometric mean или harmonic mean
- V_mean, A_mean и D_mean се просечни вредности на valence, arousal и dominance на ниво на песна
- За секоја од 3те состојби neutral, pos, neg се пресметува word_ratio што е број зборови со детектиран сентимент во дадена состојба/вкупен број зборови со сентимент
- За секоја од емоциите се пресметува word_ratio на ист начин (во колку од зборовите со сентимент е присутна емоцијата), а intensity кажува со колкав просечен интензитет се јавува емоцијата во тие зборови
Статистики сентимент, мак и англиски со лема и без лема
- На следните слајдови се прикажани статистики поврзани со чувствата изразени од страна на авторот во дадени години, подзбирки и збирки.
- Моделите за сентимент најточно ги покажаа резултатите на англиското податочно множество со направена лематизација.
Статистики сентимент, англиски со лема
Статистики сентимент, англиски со лема
Статистики сентимент, англиски со лема
Вад вредности по години
Статистики сентимент, англиски со лема
Topic modelling
Topic modelling
Тема 1 за англиски јазик
Тема 4 за мак. јазик
Topic modelling, статистики
Topic modelling, статистики