Лекция 2. Структура ML-проекта. Подготовка к решению задачи и начальная предварительная обработка данных
Практикум по программированию, 5 семестр
Иван Евгеньевич Бугаенко,
ассистент каф. ПМиФИ
Формат работы
Курс состоит из:
Все материалы выкладываются на wiki.pmifi.ru
Рейтинг ведется в таблице
Итого: 100 баллов
Можно ли шаблонизировать ML-проект?
Каждая ML-задача уникальна, однако �можно выделить базовый пайплайн по обработке данных
Основные шаги по работе с ML-проектом
Шаг 0. Описание задачи и признаков
Цель: сделать так, чтобы читатель понял, для чего решается задача, какая это вообще задача, а также чтобы работа была воспроизводима (можно было ее запустить с теми же параметрами)
На данном шаге исследователь собирает всю входную информацию о проекте:
Шаг 1. Предварительная обработка данных
Цель: обработать данные так, чтобы можно было обучить baseline-модель
На данном шаге исследователь выполняет базовые действия по работе с данными:
Baseline-модель – это такая наивная модель ML, которая обучалась на базовом варианте обработанных данных. Используется для проверки эффективности инструментов предобработки
Советы по начальному этапу обработки датасета
Советы по начальному этапу обработки датасета
Типичные ошибки при делении выборки на train/test