2 of 20

Контрольные точки проекта

1-4: поиск корпуса текстов или большого текста для исследования, проверка корректности авторских прав

5: актуализация темы

6: план с источниками и разделением обязанностей в группе из 3-4 делающих проект

7-8 (корпусные технологии): вычленяем из корпуса интересности

9 (таблицы): считаем статистику по тексту

10 (регулярки): вычленяем более интересные закономерности

11-12 (DH): полируем проект

13 (сайты): готовим проект к защите, публикуя материалы на Тильде

14 (преза): готовим презентацию и защищаемся

3 of 20

🔬 Задание

Для вашей цели проекта составить задачи, вписывающиеся во все контрольные точки проекта

Отобрать источники, составить обзор литературы.

Критерии:

Выбрано и рассмотрено 2-3 релевантных источника: выписана цель автора, рассказаны его выводы.
Цель и Задачи соответствуют плану проекта и удовлетворяют SMART.

📅 Дедлайн 1: 30 сентября 2020 г. (обсуждение и уточнение)�📅 Дедлайн 2: 6 октября 2020 г.

4 of 20

Поиск данных для исследования

Основа нашего исследования - текстовый корпус. ��Хороший корпус:

репрезентативен (с т.з. языкового многообразия или лингвистического/культурного феномена - сбалансированные и мониторные)
имеет достаточный объем для выявления языковых особенностей рассматриваемой темы
имеет правильную разметку - первичную (токенизация, лемматизация) и вторичную - морфологическую, синтаксическую... (см. в НКРЯ) �

5 of 20

Почитать про корпуса

Исследования на и об НКРЯ

Что такое корпус и с чем его едят

6 of 20

Откуда взять данные?

Bootstrap Corpora And Terms from the Web (BooTCaT)

Бесплатный инструмент для автоматического построения корпуса, основанного на материалах веб-страниц.
Создание специального корпуса по конкретной проблематике для составления терминологических списков, технических переводов, машинного обучения и т.д.

7 of 20

Этапы работы в BooTCaT

Создание списка seeds, т.е. ключевых слов (или сочетаний), которые определяют исследуемую сферу.
Сочетание этих слов в случайные группы (tuple) (последовательности из n слов).
Запросы в поисковую систему для нахождения web-страниц, содержащих сгенерированные группы.
Загрузка подходящих web-страниц, удаление лишнего HTML-кода и, наконец, формирование корпуса.

8 of 20

Задаем название корпуса, выбираем язык. Можно подключить черный список

9 of 20

Выбираем метод сбора корпуса и источники

10 of 20

Создаем список ключевых слов

11 of 20

Генерируем случайные группы из ключевых слов

12 of 20

Отправляем запрос для нахождения страниц, содержащих необходимые слова

13 of 20

Открываем найденные страницы, сохраняем

14 of 20

Отбираем источники

15 of 20

Формируем корпус

16 of 20

Плюсы и минусы

➕

Простота использования
Быстрота и результативность
Удобный инструмент для подготовки корпусов и использовании в разных задачах, например:

BootCaT -> MyStem -> AntConc
BootCaT -> Python

➖

Нельзя предсказать, какие документы найдет поисковик
Нет метаданных
Возможно нахождение дубликатов и мусорных текстов

17 of 20

Где еще найти данные?

Электронные библиотеки:��http://russian-literature.org

http://feb-web.ru

https://rvb.ru

Страницы наборов данных, GitHub и другое:

https://hum.hse.ru/digital/data

https://github.com/dhhse/Otechestvennie_zapiski

https://github.com/dhhse/Mandelstam_digital_archive

18 of 20

Юридический аспект

Важно проверять, можно ли использовать данные, которые вы обнаружили.

Пример - НКРЯ и страница “использование корпуса”

19 of 20

Ещё раз: о чём нужно подумать перед созданием корпуса?

объект исследования
тип корпуса
структура
размер корпуса
источники текстов, авторы
формат текста (кодировка)
разметка
хранение и презентация корпуса

1 of 20