О курсе
Онлайн курс НИУ ВШЭ посвящён машинному обучению и основам анализа данных. Если вы много слышали о машинном обучении, давно хотели в разобраться в этой сфере, но никак не могли - это курс поможет вам начать, ведь он создан для тех, кто «с нуля» хочет освоить машинное обучение. В процессе обучения вы изучите не только основную теорию, но и решите свои первые практические задачи. В дальнейшем вы сможете начать применять полученные знания для анализа данных на работе или для учебы в ВУЗе.
На курсе вы изучите: способы предобработки и визуализации данных, основные методы машинного обучения (линейные, метрические, решающие деревья и их композиции), оценивание качества моделей.
Для успешного прохождения курса вам понадобятся навыки программирования на языке Python, а также знания математики на уровне школьных курсов.
Формат
Курс состоит из 11 недель, каждая включает в себя несколько коротких видеолекций (суммарная продолжительность — от 60 до 90 минут), тест на знание теоретического материала (5-15 вопросов), а также тест, включающий в себя выполнение задания по программированию. На некоторых неделях задание по программированию заменено заданием на взаимное оценивание. В конце курса предусмотрен итоговый экзамен, состоящий из тестов.
Требования
Освоение школьного курса математики, навыки программирования на Python
Программа курса
1. Основные понятия и задачи в машинном обучении
После окончания этой недели слушатель сможет:
- Дать определение объекта, целевой переменной, модели, функции потерь
- Выявлять задачи классификации, регрессии, кластеризации
- Пользоваться библиотекой pandas для работы с табличными данными
2. Метод k ближайших соседей
На этой неделе вы научитесь:
- Сформулировать модель k ближайших соседей для классификации и регрессии
- Выбрать правильную метрику для задачи
- Оценить обобщающую способность модели с помощью кросс-валидации
3. Линейная регрессия
Темы этой недели:
- Модель линейной регрессии
- Обучение линейной регрессии
- Использовании регуляризации для понижения вероятности переобучения
4. Градиентный спуск
После этой недели вы будете:
- Знать алгоритм градиентного спуска
- Обучать дифференцируемую модель с дифференцируемой функцией потерь с помощью градиентного спуска
- Подбирать параметры градиентного спуска под конкретную задачу
5. Линейная классификации
Вам предлагаются для изучения три темы:
- Модель линейной классификации
- Метрики качества классификации под конкретную задачу
- Верхние оценки на пороговую функцию потерь для градиентного обучения линейных классификаторов
6. Логистическая регрессия и метод опорных векторов
После окончания этой недели вы будете:
- Знать модель логистической регрессии
- Знать метод опорных векторов
- Решать задачи классификации текстов
7. Решающие деревья
После окончания этой недели слушатель сможет:
- Знать модель решающего дерева
- Обучать решающие деревья жадным алгоритмом
8. Бэггинг и случайный лес
На этой неделе вы научитесь:
- Основным методам построения композиций: бэггинг, стекинг, блендинг
- Обучать случайный лес
- Вычислять важность признаков в композициях решающих деревьях
9. Градиентный бустинг
На этой неделе вы изучите:
- Метод градиентного бустинга
- Особенности обучения градиентного бустинга над решающими деревьями
- Особенности различных имплементаций градиентного бустинга
10. Обучение без учителя
Неделя посвящена:
- Задачам построения рекомендаций
- Основным методам для рекомендательных систем
- Применению коллаборативной фильтрации для рекомендаций