Вопросы к итоговой КР по второй части курса
Машинное обучение
- Основные определения в машинном обучении: объект, целевая переменная, признак, модель, обучающая выборка, функционал ошибки, обучение. Приведите примеры задач обучения с учителем и без учителя.
- Переобучение. Оценивание обобщающей способности модели: отложенная выборка и кросс-валидация. Leave-one-out, k-fold CV. Гиперпараметры, их отличия от обычных параметров модели.
- Линейная модель регрессии. Функционалы ошибки для регрессии. Аналитическое решение для среднеквадратичной ошибки (с выводом) и его недостатки.
- Линейная модель регрессии. Градиентное обучение линейной регрессии. Метод градиентного спуска, метод стохастического градиентного спуска.
- Регуляризация. Аналитический вид ответа (вектора весов) в линейной регрессии со среднеквадратичной ошибкой и квадратичным регуляризатором (с выводом).
- Регуляризация. L1 и L2 регуляризаторы. Почему использование L1-регуляризатора приводит к отбору признаков, а L2 - нет?
- Линейная модель бинарной классификации. Отступ. Обучение линейных классификаторов через верхнюю оценку на долю ошибок. Примеры верхних оценок.
- Логистическая регрессия. Вывод логистической функции потерь из метода максимального правдоподобия.
- Функционалы ошибки для бинарной классификации: матрица ошибок, accuracy, precision, recall, F-мера. ROC-кривая и AUC-ROC.
- Нейронные сети: структура, функции активации, функции потерь для разных задач. Метод обучения. Подсчет градиентов методом обратного распространения ошибки.
- Решающие деревья: определение и жадный алгоритм обучения (разбиение вершин, критерий останова, выбор ответа в листе). Функционал качества при выборе предиката. Общий вид критерия информативности (через функцию потерь) и его объяснение.
- Решающие деревья. Общий вид критерия информативности (через функцию потерь) и конкретные примеры (с выводом) для регрессии (дисперсия) и классификации (критерий Джини и энтропийный критерий). Виды регуляризации деревьев.
- Композиции алгоритмов. Разложение ошибки на смещение и разброс и его смысл.
- Бэггинг и случайные леса. За счет уменьшения какого члена разложения ошибки данная композиция начинает работать лучше (с объяснением)?
- Бустинг: общая схема. За счет уменьшения какого члена разложения ошибки данная композиция начинает работать лучше (с объяснением)?
- Градиентный бустинг. Обучение базовых алгоритмов для произвольной дифференцируемой функции потерь.
- Задача кластеризации: постановка и метрики качества. В чем сложность данной задачи? Иерархическая кластеризация. Метод k-means. Инициализация k-means++.
- PCA. Постановка задачи и ее решение через последовательное нахождение главных компонент.
- Определение SVD-разложения. Постановка задачи PCA и нахождение ее решения через SVD-разложение.
- Обработка текстов: методы векторизации документов. Count vectorizer и TF-IDF vectorizer. В чём теоретическое преимущество второго метода над первым