Цифровая грамотность
(Digital Literacy)
Семинар 3
Контрольные точки проекта
1-4: поиск корпуса текстов или большого текста для исследования, проверка корректности авторских прав
5: актуализация темы
6: план с источниками и разделением обязанностей в группе из 3-4 делающих проект
7-8 (корпусные технологии): вычленяем из корпуса интересности
9 (таблицы): считаем статистику по тексту
10 (регулярки): вычленяем более интересные закономерности
11-12 (DH): полируем проект
13 (сайты): готовим проект к защите, публикуя материалы на Тильде
14 (преза): готовим презентацию и защищаемся
🔬 Задание
Для вашей цели проекта составить задачи, вписывающиеся во все контрольные точки проекта
Отобрать источники, составить обзор литературы.
Критерии:
📅 Дедлайн 1: 30 сентября 2020 г. (обсуждение и уточнение)�📅 Дедлайн 2: 6 октября 2020 г.
Поиск данных для исследования
Основа нашего исследования - текстовый корпус. ��Хороший корпус:
Почитать про корпуса
Откуда взять данные?
Bootstrap Corpora And Terms from the Web (BooTCaT)
Этапы работы в BooTCaT
Задаем название корпуса, выбираем язык. Можно подключить черный список
Выбираем метод сбора корпуса и источники
Создаем список ключевых слов
Генерируем случайные группы из ключевых слов
Отправляем запрос для нахождения страниц, содержащих необходимые слова
Открываем найденные страницы, сохраняем
Отбираем источники
Формируем корпус
Плюсы и минусы
➕
➖
Где еще найти данные?
Электронные библиотеки:��http://russian-literature.org
Страницы наборов данных, GitHub и другое:
https://hum.hse.ru/digital/data
https://github.com/dhhse/Otechestvennie_zapiski
https://github.com/dhhse/Mandelstam_digital_archive
Юридический аспект
Важно проверять, можно ли использовать данные, которые вы обнаружили.
Пример - НКРЯ и страница “использование корпуса”
Ещё раз: о чём нужно подумать перед созданием корпуса?
Обсудим тему, задачи и источники данных
Таблица тут