1 of 29

Текстовая аналитика в SEO

Саламаха Олег�Serpstat.com

2 of 29

О чем презентация?

  • Какие есть решения и их недостатки
  • Текстовая аналитика и показатели фраз
  • Кластеризация семантики v.1.1

3 of 29

Что предлагают сервисы?

  • Кластеризация только по совпадению в SERP
  • LSI (частотность) по фразе/SERP
  • Самые частотные слова на страницах конкурентов
  • Количество вхождений фразы на страницах конкурентов
  • Анализ всего SERP без учета тематики каждой страницы
  • Метрики текстов: читаемость, удельная доля наречий и пр.

4 of 29

Что не так?

  • Анализ только по одной фразе
  • Анализ всего SERP без фильтрации
  • LSI только для ТОП 10
  • Определение LSI без itf-df
  • Частотность слова не означает его значимость

5 of 29

Что нужно?

  1. Кластеризация
  2. Чистка SERP
  3. Массовый анализ
  4. Рекомендации по изменению текстов
  5. Поиск ошибок на страницах

6 of 29

Воркфлоу

Семантика

Кластеризация

ТА

7 of 29

Почему нужна кластеризация для ТА

8 of 29

Кластеризация V.1.1

  • Учитывает не только пересечения в SERP
  • Кластеризация в несколько уровней
  • Дополнительные параметры для кластера и фраз
  • Формальные правила:
    • уменьшаем вес, если разные урлы одного сайта
    • уменьшаем вес главных страниц
  • Новые фразы в кластере

https://serpstat.com/ru/blog/kak-provesti-klasterizatciyu-zaprosov-s-pomoshyu-serpstat/

9 of 29

Кластеризация

10 of 29

F - мера в кластеризации

P = точность = Должны быть в одном кластере/попали в один кластер

R = полнота = Должны быть в разных кластерах/попали в разные кластеры

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

11 of 29

Пример работы

12 of 29

Метрики кластера и фраз

Однородность кластера

Насколько фраза похожа на другие в кластере

Какие фразы можно убрать из кластера

Optional: Дополнительные фразы которые можно включить в кластер

13 of 29

Текстовая аналитика

14 of 29

Реальный сценарий работы

  1. Собираем семантику
  2. Кластеризируем фразы
  3. ??????????
  4. Profit

15 of 29

Идеальный сценарий ТА, на примере Title

  1. Берем все title конкурентов в кластере
  2. Определяем значимые слова
  3. На основе значимых слов составляем свой title
  4. Самые частотные != Значимые

16 of 29

Текстовая аналитика

Что должна уметь ТА:

  • Какие ЗНАЧИМЫЕ слова используют конкуренты в рамках кластера в Title/Body/H1
  • Оценка релевантности по фразе
  • Количество текста у конкурентов и у нас
  • Сравнение с нашим URL

17 of 29

Как найти значимые слова

  • Собираем Title/Body/H1
  • Разбиваем на слова и лематизируем
  • Считаем LSI
  • В LSI вместо количества фраз используем формулу с:
    • Сколько раз встретилось слово в документе
    • Сколько раз встретилось слово в кластере
    • Глобальная частота слова (IDF)
  • Проверяем, используем ли мы это слово в данном участке документа (Title/Body/H1)

18 of 29

В чем сложность

  • SERP не однородный
  • Страницы в одном кластере на разных языках
  • Страницы разных тематик в одном кластере
  • Брендовые фразы
  • Анализ только текстовой составляющей (без навигации, крошек и пр.)

19 of 29

Пример работы

20 of 29

Пример работы

21 of 29

Обозначения

LSI rank - на сколько фраза выражает тематику/группу фраз

Chance - вероятность встретить слово у конкурентов (H1|Title|Body)

22 of 29

Релевантность

  • Используем модифицированный BM25
  • Нужно сравнивать с конкурентами

23 of 29

А где количество вхождений?

24 of 29

Ошибки на странице

25 of 29

Количество контента и вероятность переспама

26 of 29

Задача копирайтеру

Title/Desc/Hn: Важные слова которые должны быть включены.

Текст страницы:

  • Объем текста
  • Вопросы на которые должен ответить текст
  • LSI слова с приоритетом

27 of 29

Как получить доступ к новому функционалу?

28 of 29

Вопросы?

Олег Саламаха

Facebook

Serpstat.com

29 of 29

Кластеризация для одной группы

Cluster #1

Cluster #2

Cluster #3

TITLE

youtube - 6.42

упражнение - 4.06

пресс - 3.9

нижний - 3.77

бицепс - 21.24

упражнение - 14.9

накачать - 5.49

базовый - 5.26

накачать - 19.77

упражнение - 14.9

пресс - 12.18

нижний - 5.65

H1

відео - 33.13

бицепс - 35.41

упражнение - 16.25

базовый - 3.29

пресс - 15.23

упражнение - 14.63

накачать - 7.84

нижний - 7.07

BODY

тривалість - 3.06

завантаженний - 2.29

переглядіть - 1.98

відео - 1.56

перегляд - 1.22

упражнение - 1.11

пресс - 0.99

бицепс - 4.27

упражнение - 2.84

гантель - 1.72

мышца - 1.52

тренировка - 1.32

штанга - 1.32

рука - 1.22

стоя - 0.15

упражнение - 3.82

пресс - 2.21

нога - 1.53

мышца - 1.23

накачать - 1.19

живот - 0.9

нижний - 0.79