2. Источники данных.
Web как источник данных.
Сергей Соловьев
Спикер курсов
Как получить max пользу от вебинара?
Формат вебинара
Этапы аналитического исследования
Формулировка проблемы, постановка цели, выбор технологий, план
1
Сбор, предобработка и хранение данных
2
Агрегация и анализ данных
3
Визуализация, формирование отчёта, публикация
4
Темы вебинара
✍ Практическое задание
В своей любимой среде разработки составьте JSON-документ электронного билета пассажира на поезд (или придумайте свою тему) и скиньте в чат.
*Воспроизведите эту структуру данных в XML
**Создайте JSON-схему для подобного JSON-документа
Виды источников данных
WEB как источник данных
Всё остальное
Интернет вещей, естественно-научные эксперименты, опросы, интервью и т.д.
�
Структура интернета
Сетевая модель OSI-ISO
Гипертекст
Структура URL
Открытые данные - концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля.
Порталы открытых данных
как источник данных
Порталы открытых данных
�
Преимущества и недостатки
Преимущества | Недостатки |
Данные хорошо структурированы | Данные часто неполны |
Бесплатный доступ | Ограниченный набор доступных данных |
Данные постоянно пополняются | Как правило, требуется регистрация |
Предоставляются в машиночитаемом формате | Часто не соответствуют соглашениям именования |
Данные предоставляются официальными органами |
|
Объединить два открытых датасета:
�*Дополнить информацию о каждой школе списком 3 ближайших кафе (или придумать что-то своё)
✍ Практическое задание
Социальные сети
как источник данных
ВКонтакте
Преимущества и недостатки
Преимущества | Недостатки |
Данные формализованы и структурированы | Данные априори недостоверны |
Бесплатный доступ | Ограниченный набор доступных данных |
Данные постоянно пополняются | Затруднен анонимный сбор данных |
Удобное API для доступа | Ограничения на получение данных |
Источник данных о социальной жизни | Вызывает этические противоречия |
Граф социальных связей
Узлы – люди
Ребра - отношения дружбы
Получение токена ВКонтакте
Implicit Flow для получения ключа доступа пользователя
Сформировать граф социальных связей аудитории сообщества
�*Придумать свою метрику интенсивности связи (скажем, количество взаимных лайков под аватарками) и добавить веса связям.
✍ Практическое задание
Новостные сайты
как источник данных
Преимущества и недостатки
Преимущества | Недостатки |
Подробная информация о событиях | Информация часто представлена в виде слабоструктурированных ЕЯ-текстов |
Часто возможен анонимный сбор данных | Данные приходят в формате HTML (реже RSS), нужна предобработка перед анализом |
Источник данных о социальной жизни | Часто имеет мощный политический или идеологический окрас |
Веб-скрейпинг
Web
HTML
JSON
Что нам понадобится
С помощью веб-скрейпинга сформировать массив новостных записей
�* Сопроводить каждую новость списком ссылок на содержащиеся в ней картинки и внешние ресурсы
** Представить датасет в виде HTML-таблицы с картинками
✍ Практическое задание
Спасибо за внимание!
�
мои контакты