1 of 48

Основы обработки естественного языка

Лекция 4

2 of 48

План лекции

  1. Обработка естественного языка (NLP), и как она работает
  2. Основные задачи, которые можно решить с помощью NLP
  3. Инструменты и методы для обработки текста
  4. Как токенизация, стемминг и лемматизация помогают в анализе текста

3 of 48

1. Введение в NLP

Цель NLP — дать компьютерам способность понимать, анализировать и генерировать текст и речь так, как это делает человек.

Основные задачи NLP:

  • Преобразование текста или речи в формат, пригодный для анализа.
  • Извлечение информации и ключевых смыслов из текста.
  • Генерация новых текстов на основе анализа.

4 of 48

Вопрос

Что такое обработка естественного языка (NLP), и какие задачи она решает?

5 of 48

Примеры использования NLP

  • Чат-боты и голосовые помощники (Siri, Alexa).
  • Анализ отзывов пользователей (определение тональности текста).
  • Машинный перевод (Google Translate).
  • Автоматическое резюмирование текстов.

6 of 48

Siri (Apple)

7 of 48

2. Примеры задач в NLP

  1. Анализ текста
  2. Классификация текста
  3. Машинный перевод
  4. Распознавание именованных сущностей (NER)
  5. Генерация текста

8 of 48

2. Примеры задач в NLP. Анализ текста

Суть: Извлечение ключевых слов и информации.

Пример: Анализ отзывов пользователей.

Задача: Компания продаёт умные браслеты для здоровья. Покупатели пишут отзывы, но их слишком много, чтобы читать вручную. Нужно понять, довольны ли люди продуктом и какие проблемы они чаще всего упоминают.

9 of 48

Пример: Анализ отзывов пользователей

10 of 48

Как это анализируется?

Браслет удобный

браслет

удобный

батарея быстро разряжается

батарея

быстро

разряжается

но

и

очень

11 of 48

Как это анализируется?

Слово

Количество

удобный

2

батарея

1

разряжается

1

датчик

1

пульс

1

Слово

Качество

отличный

положительное

удобный

положительное

легкий

положительное

не подключается

отрицательное

разряжается

отрицательное

некорректно

отрицательное

12 of 48

Выводы

Плюсы: пользователи хвалят дизайн и удобство.

Минусы: проблемы с батареей, подключением и ремешком.

Что с этим делать?

  • Компании стоит улучшить батарею и качество ремешка.
  • Можно создать FAQ с инструкцией для решения проблем с подключением.

13 of 48

2. Примеры задач в NLP. Классификация текста

Суть: Определение категории текста на основе содержимого.

Пример: классификация медицинских статей по темам.

Задача: У нас есть база медицинских статей, и мы хотим автоматически распределить их по темам, например:

  • Неврология (заболевания мозга, нейроны, когнитивные функции).
  • Кардиология (сердечно-сосудистые заболевания, кровообращение).
  • Онкология (исследования рака, опухоли, методы лечения).

14 of 48

Данные (примеры заголовков статей)

  1. "Новые методы диагностики болезни Альцгеймера"
  2. "Аритмия и её влияние на кровообращение"
  3. "Генетические мутации, связанные с развитием рака"
  4. "Исследование влияния сна на память и когнитивные функции"
  5. "Эффективность новых препаратов для лечения гипертонии"

15 of 48

Как это анализируется?

1. Подготовка данных (предобработка текста)

  • Разделяем текст на слова (токенизация).
  • Удаляем ненужные слова (например, "и", "новые", "влияние").
  • Преобразуем слова в числовые векторы (Bag of Words, TF-IDF).

2. Обучение модели классификации

  • Создаём модель машинного обучения (например, логистическую регрессию или нейронную сеть).
  • Даём ей размеченные данные (где статьи уже распределены по темам).

16 of 48

Определение категории новых статей

Если мы добавим новую статью, например "Роль холестерина в развитии сердечно-сосудистых заболеваний",

модель поймёт, что в ней часто встречаются слова "холестерин", "сердечно-сосудистые", "гипертония" → и отнесёт её к категории "Кардиология".

Попробуем распределить наши статьи?

  1. "Новые методы диагностики болезни Альцгеймера"
  2. "Аритмия и её влияние на кровообращение"
  3. "Генетические мутации, связанные с развитием рака"
  4. "Исследование влияния сна на память и когнитивные функции"
  5. "Эффективность новых препаратов для лечения гипертонии"

17 of 48

Выводы

Плюсы: Классификация позволяет быстро находить нужные статьи по темам.

Минусы: Если в статье много перекрёстных тем, модель может ошибаться (например, "влияние стресса на сердце" — и неврология, и кардиология).

Что с этим делать?

  • Можно использовать многоклассовую классификацию, если статья относится сразу к нескольким темам.
  • Дополнительно обучить модель на новых данных, чтобы повысить точность.

18 of 48

Выводы (продолжение)

Где еще применяется?

  • Фильтрация спама в почте.
  • Классификация новостей по темам.
  • Автоматическая сортировка медицинских диагнозов.

Вывод

Методы классификации помогают быстро распределять документы по темам, что особенно полезно в медицине и науке, где объёмы информации огромны.

19 of 48

2. Примеры задач в NLP. Машинный перевод

Суть: Автоматический перевод текста с одного языка на другой.

Пример: Перевод научных публикаций с использованием Google Translate или DeepL.

Задача: Научные статьи часто публикуются на английском, но исследователям со всего мира важно понимать их на родном языке. Машинный перевод помогает быстро переводить сложные тексты без знания иностранного языка.

20 of 48

Пример

Пример текста на английском:

"Deep learning models have demonstrated high accuracy in medical image analysis, providing better diagnostics and treatment planning."

Перевод на русский:

"Модели глубокого обучения демонстрируют высокую точность в анализе медицинских изображений, обеспечивая более точную диагностику и планирование лечения."

21 of 48

Как это работает?

1. Традиционные методы перевода (до 2015 года)

Раньше машинный перевод работал по принципу правил и словарей:

  • Каждое слово заменялось его аналогом в другом языке.
  • Использовались грамматические правила.
  • Итоговые тексты часто звучали неестественно.

2. Современный перевод на основе нейросетей

Сейчас перевод выполняют нейросетевые модели, такие как Google Translate и DeepL, с помощью трансформеров (Transformer).

22 of 48

Как это устроено?

  • Модель анализирует контекст всего предложения, а не только отдельные слова.
  • Она предсказывает наиболее естественный перевод.
  • Обучение происходит на миллионах текстов, что позволяет улучшать качество перевода.

23 of 48

Преимущества и проблемы машинного перевода

Плюсы

🟢 Скорость: можно перевести длинный текст за секунды.

🟢 Доступность: не требуется знать иностранный язык.

🟢 Обучаемость: чем больше данных анализирует модель, тем лучше перевод.

Минусы

🔴 Ошибки в сложных текстах: научные термины могут переводиться неправильно.

🔴 Потеря смысла: в некоторых случаях модель изменяет смысл предложения.

🔴 Отсутствие стилистики: машинный перевод может выглядеть неестественно.

24 of 48

Выводы

Машинный перевод — мощный инструмент, который помогает ученым и студентам читать научные статьи на родном языке.

Современные алгоритмы делают перевод более точным, но в важных документах (медицинских, юридических) перевод лучше проверять вручную.

Где еще применяется?

  • Автоматические субтитры в видео.
  • Перевод сайтов и интерфейсов программ.
  • Общение с иностранцами в реальном времени (например, в Google Meet).

25 of 48

Вопрос

Как машинный перевод применяется в науке?

26 of 48

2. Примеры задач в NLP. Распознавание именованных сущностей (NER)

Суть: Идентификация имен собственных, организаций, дат и т.д. в тексте.

Пример: извлечение данных о пациентах из медицинских записей, например

Имена людей (Пациент: Иван Петров)

Организации (Больница: Центральная клиника)

Даты (Дата визита: 12.01.2024)

Лекарства (Препарат: Ибупрофен)

Диагнозы (Заболевание: Грипп)

27 of 48

Пример: извлечение данных о пациентах из медицинских записей

Задача:

Врачам и исследователям нужно быстро анализировать тысячи медицинских записей. NER позволяет автоматически находить важную информацию и формировать структурированные данные.

Пример текста медицинской записи:

"Пациент Иван Петров поступил в Центральную клинику 12 января 2024 года с жалобами на высокую температуру. В анамнезе — гипертония. Был назначен Ибупрофен."

28 of 48

Как NER выделяет сущности

Имя пациента → Иван Петров (PERSON)

Больница → Центральная клиника (ORGANIZATION)

Дата визита → 12 января 2024 года (DATE)

Заболевание → гипертония (DIAGNOSIS)

Препарат → Ибупрофен (MEDICATION)

29 of 48

Как это работает?

1. Анализ текста

NER использует алгоритмы обработки естественного языка (NLP), которые разбирают предложение и находят ключевые слова.

2. Классификация сущностей

Каждое слово проверяется, и модель определяет, относится ли оно к одной из категорий (имя, дата, болезнь, лекарство и т. д.).

3. Выделение информации

Результаты можно представить в структурированном формате, удобном для анализа и автоматической обработки.

30 of 48

Где применяется NER?

1. В медицине

  • Автоматический анализ историй болезни.
  • Извлечение данных о пациентах из текстовых документов.
  • Определение распространенных заболеваний на основе записей.

2. В науке

  • Поиск информации в тысячах научных статей.
  • Выявление ключевых исследований по конкретной теме.

3. В бизнесе

  • Анализ новостей: поиск упоминаний компаний и событий.
  • Извлечение данных из документов и договоров.

31 of 48

Преимущества и проблемы NER

Плюсы

🟢 Экономия времени: автоматическое извлечение данных быстрее ручного анализа.

🟢 Высокая точность при работе с большими текстами.

🟢 Универсальность: можно применять в медицине, юриспруденции, бизнесе и науке.

Минусы

🔴 Возможны ошибки, если текст неполный или плохо написан.

🔴 Иногда сложно различить разные значения слов (например, "Леонардо" — это имя человека или название компании?).

🔴 Требуется дообучение модели на специфических данных.

32 of 48

Выводы

NER — это полезный инструмент, который позволяет автоматически извлекать важные данные из текстов.

В медицине он помогает анализировать медицинские записи, ускоряя диагностику и обработку информации.

Технология развивается, и со временем модели станут еще точнее и умнее.

Где ещё можно применить?

  • Анализ судебных решений (поиск имен и организаций).
  • Фильтрация резюме в HR (поиск ключевых навыков кандидатов).
  • Извлечение информации из новостных статей (поиск событий и дат).

33 of 48

2. Примеры задач в NLP. Генерация текста

Суть: Создание осмысленного текста на основе заданных параметров.

Примеры: автогенерация резюме текста или создание ответов чат-ботом.

34 of 48

Пример: автогенерация резюме текста

Исходный текст (фрагмент статьи):

"Машинное обучение активно применяется в медицине для диагностики заболеваний. Анализ медицинских изображений с помощью нейросетей позволяет выявлять патологию на ранних стадиях. В частности, алгоритмы глубокого обучения демонстрируют высокую точность в детекции раковых опухолей."

Автоматически сгенерированное резюме:

"Машинное обучение помогает диагностировать болезни и анализировать медицинские снимки, повышая точность обнаружения рака."

35 of 48

Пример: создание ответов чат-ботом

Пользователь: "Как лечить грипп?"

Чат-бот: "Грипп лечится постельным режимом, обильным питьем и симптоматической терапией. При осложнениях обратитесь к врачу."

Чат-боты могут:

  • Отвечать на вопросы в онлайн-поддержке.
  • Вести диалог с пациентами в медицинских сервисах.
  • Создавать персонализированные рекомендации.

36 of 48

Как это работает?

Генерация текста использует языковые модели, такие как:

  • GPT (Generative Pre-trained Transformer) – анализирует текст и генерирует осмысленные предложения.
  • T5, BART – умеют пересказывать, переводить и упрощать сложные тексты.
  • BERT – понимает контекст и улучшает качество ответов.

Этапы работы алгоритма:

  1. Анализ входного текста (запрос пользователя, документ).
  2. Определение ключевых смыслов.
  3. Формирование логически связного ответа.

37 of 48

Где применяется генерация текста?

1. В науке и образовании

  • Автоматическое суммирование научных статей.
  • Генерация конспектов и шпаргалок для студентов.

2. В бизнесе

  • Автоматический ответ на письма клиентов.
  • Создание рекламных текстов и описаний товаров.

3. В медицине

  • Генерация врачебных отчетов на основе анализов.
  • Автоматическое оформление медицинских справок.

38 of 48

Плюсы и минусы генерации текста

Преимущества

🟢 Экономия времени – можно быстро подготовить текст.

🟢 Автоматизация рутинных задач (чаты, отчеты).

🟢 Персонализация – адаптация ответов под пользователя.

Ограничения

🔴 Иногда модель ошибается или генерирует несвязный текст.

🔴 Может не понимать глубокий контекст запроса.

🔴 Требует качественных данных для обучения.

39 of 48

Выводы

Генерация текста — мощный инструмент, который помогает быстро создавать связные тексты.

В медицине это облегчает работу врачей, в бизнесе ускоряет клиентский сервис, а в образовании помогает студентам быстрее учиться.

Хотя технологии продолжают совершенствоваться, пока человеческий контроль остается важным.

Где ещё можно применить?

  • Создание сценариев для фильмов.
  • Автоматический перевод текстов.
  • Генерация новостных статей.

40 of 48

Вопрос

Назовите примеры задач, решаемых с помощью NLP

41 of 48

3. Инструменты NLP: токенизация

Токенизация — это процесс разбиения текста на отдельные элементы (токены), такие как слова, предложения или символы.

Используется для упрощения дальнейшего анализа текста.

Пример: предложение "Искусственный интеллект полезен" будет преобразовано в токены ["Искусственный", "интеллект", "полезен"]

42 of 48

3. Инструменты NLP: стемминг

Стемминг — это процесс сокращения слова до его основы (стема).

Используется для группировки слов с одинаковым значением, но разными формами.

Примеры:

"играет", "играл", "играют" преобразуются в "игра",

“дома”, “домой” и “дому” преобразуются в “дом”,

“деревья”, “деревянный” преобразуются в “дерев”.

43 of 48

3. Инструменты NLP: лемматизация

Лемматизация — это процесс приведения слова к его начальной форме (лемме) с учетом его грамматического значения.

Более точный процесс, чем стемминг.

Примеры:

"лучше" → "хороший",

"бегал" → "бежать",

“летающие” → “летать”,

“умнее” → ”умный”.

44 of 48

Вопрос

В чем различие между стеммингом и лемматизацией?

45 of 48

Инструменты для реализации NLP

Инструмент

Токенизация

Стемминг

Лемматизация

Анализ тональности текста

NER

Генерация текста

Классификация

Перевод

Быстрое прототипирование

Обучение моделей NLP

NLTK

spaCy

Transformers (Hugging Face)

TextBlob

Scikit-learn

46 of 48

Заключение

  • Обработка естественного языка (NLP) — это область искусственного интеллекта, которая занимается взаимодействием компьютеров и человеческого языка.
  • Цель NLP — дать компьютерам способность понимать, анализировать и генерировать текст и речь так, как это делает человек.
  • Основные задачи NLP:
    • Преобразование текста или речи в формат, пригодный для анализа.
    • Извлечение информации и ключевых смыслов из текста.
    • Генерация новых текстов на основе анализа.

47 of 48

Заключение (продолжение)

  • Основные методы NLP: токенизация, стемминг, лемматизация
    • Токенизация — это процесс разбиения текста на отдельные элементы (токены), такие как слова, предложения или символы
    • Стемминг — это процесс сокращения слова до его основы (стема).
    • Лемматизация — это процесс приведения слова к его начальной форме (лемме) с учетом его грамматического значения.
  • Основные инструменты для реализации NLP: NLTK (Natural Language Toolkit), spaCy, Transformers (Hugging Face), TextBlob, Scikit-learn

48 of 48

Основы обработки естественного языка

Лекция 4