1 of 20

Цифровая грамотность

(Digital Literacy)

Семинар 3

2 of 20

Контрольные точки проекта

1-4: поиск корпуса текстов или большого текста для исследования, проверка корректности авторских прав

5: актуализация темы

6: план с источниками и разделением обязанностей в группе из 3-4 делающих проект

7-8 (корпусные технологии): вычленяем из корпуса интересности

9 (таблицы): считаем статистику по тексту

10 (регулярки): вычленяем более интересные закономерности

11-12 (DH): полируем проект

13 (сайты): готовим проект к защите, публикуя материалы на Тильде

14 (преза): готовим презентацию и защищаемся

3 of 20

🔬 Задание

Для вашей цели проекта составить задачи, вписывающиеся во все контрольные точки проекта

Отобрать источники, составить обзор литературы.

Критерии:

  1. Выбрано и рассмотрено 2-3 релевантных источника: выписана цель автора, рассказаны его выводы.
  2. Цель и Задачи соответствуют плану проекта и удовлетворяют SMART.

📅 Дедлайн 1: 30 сентября 2020 г. (обсуждение и уточнение)�📅 Дедлайн 2: 6 октября 2020 г.

4 of 20

Поиск данных для исследования

Основа нашего исследования - текстовый корпус. ��Хороший корпус:

  • репрезентативен (с т.з. языкового многообразия или лингвистического/культурного феномена - сбалансированные и мониторные)
  • имеет достаточный объем для выявления языковых особенностей рассматриваемой темы
  • имеет правильную разметку - первичную (токенизация, лемматизация) и вторичную - морфологическую, синтаксическую... (см. в НКРЯ) �

5 of 20

Почитать про корпуса

6 of 20

Откуда взять данные?

Bootstrap Corpora And Terms from the Web (BooTCaT)

  • Бесплатный инструмент для автоматического построения корпуса, основанного на материалах веб-страниц.
  • Создание специального корпуса по конкретной проблематике для составления терминологических списков, технических переводов, машинного обучения и т.д.

7 of 20

Этапы работы в BooTCaT

  1. Создание списка seeds, т.е. ключевых слов (или сочетаний), которые определяют исследуемую сферу.
  2. Сочетание этих слов в случайные группы (tuple) (последовательности из n слов).
  3. Запросы в поисковую систему для нахождения web-страниц, содержащих сгенерированные группы.
  4. Загрузка подходящих web-страниц, удаление лишнего HTML-кода и, наконец, формирование корпуса.

8 of 20

Задаем название корпуса, выбираем язык. Можно подключить черный список

9 of 20

Выбираем метод сбора корпуса и источники

10 of 20

Создаем список ключевых слов

11 of 20

Генерируем случайные группы из ключевых слов

12 of 20

Отправляем запрос для нахождения страниц, содержащих необходимые слова

13 of 20

Открываем найденные страницы, сохраняем

14 of 20

Отбираем источники

15 of 20

Формируем корпус

16 of 20

Плюсы и минусы

  • Простота использования
  • Быстрота и результативность
  • Удобный инструмент для подготовки корпусов и использовании в разных задачах, например:
    • BootCaT -> MyStem -> AntConc
    • BootCaT -> Python

  • Нельзя предсказать, какие документы найдет поисковик
  • Нет метаданных
  • Возможно нахождение дубликатов и мусорных текстов

17 of 20

Где еще найти данные?

18 of 20

Юридический аспект

Важно проверять, можно ли использовать данные, которые вы обнаружили.

Пример - НКРЯ и страница “использование корпуса

19 of 20

Ещё раз: о чём нужно подумать перед созданием корпуса?

  • объект исследования
  • тип корпуса
  • структура
  • размер корпуса
  • источники текстов, авторы
  • формат текста (кодировка)
  • разметка
  • хранение и презентация корпуса

20 of 20

Обсудим тему, задачи и источники данных

Таблица тут