Это курс об автоматизации. Вы узнаете, как научить компьютеры «думать» самостоятельно. Мы поможем уверенно стартовать в карьере в ML: вы сможете сделать итоговый проект на реальных данных. 30% теории. 70% практики.
Вы научитесь:
- Анализировать и визуализировать большие объемы данных
- Сводить бизнес-задачу в задачу машинного обучения
- Работать с данными разных типов
Какими проектами может заниматься специалист по машинному обучению:
- Создаст умный поиск, который поймет пользователя с полуслова и точно найдет то, что просит человек
- Разработает алгоритм для персонифици-рованной рекламы в социальных сетях: чтобы клиенты точно нажали на рекламный баннер, который на 100% попадает в их сердечко
- Придумает умного бота для общения с клиентами — «Алису 2.0» или голосового помощника «Игоря»
- Получит информацию из данных компании и сможет предложить на их основе рабочую гипотезу для увеличения прибыли компании
Кому рекомендуем курс:
1. Разработчикам, работающим в кросс-функциональных командах вместе с Data Scientist’ами
- На курсе мы даем специфику разработки ML-моделей, а с этими знаниями общаться с коллегами получается эффективнее и продуктивнее.
- Вы сможете внедрять новые решения и быть уверенными в том, что принесете прибыль проекту.
2. Software Engineer, Data Engineer, DevOps Engineer на уровне Middle
- Вы сможете перейти в смежную профессиональную область и начать выполнять другие рабочие задачи.
- Ваш бэкграунд в дата-направлении поможет быстро перейти от уровня Junior Data Scientist до статуса продвинутого специалиста.
3. Уже знакомы с Python и хотите освоить новое рабочее направление
- Data Scientist используют в своей работе библиотеки Python.
- Так что ваши умения пригодятся вам при переходе в новое направление. Знания линейной алгебры, теории вероятностей и математической статистики будет плюсом.
На курсе мы разбираем:
- Основные алгоритмы и понятия классического машинного обучения
- Применение машинного обучения в бизнес-задачах
- Базовые подходы для построения нейронных сетей, фреймворк PyTorch для написаний нейронных сетей
- Основные библиотеки для анализа данных: numpy, scipy, pandas, matplotlib
Какие инструменты освоите:
1. Библиотеки
- Pandas
- Numpy
- Matplotlib
- Scikit-learn
- Xgboost
- Lightgbm
- Catboost
- Hyperopt
2. Алгоритмы
- KNN
- Linear Regression
- Logistic Regression
- Clusterization
- Decision Tree
- Gradient Boosting
Программа курса:
Модуль 0 - Установочная сессия
Модуль 1 - Введение. Определение ML
- Введение. Структура курса
- Цикл разработки модели и специалисты в сфере анализа данных
- Настройка рабочего окружения
- Библиотека NumPy
- Библиотека Pandas
Модуль 2 - Анализ данных как первый шаг к ML/DS
- Введение
- Качество данных и типы данных
- Приемы анализа данных - сводные показатели
- Приемы анализа данных - визуализация
- Итоги
Модуль 3 - Постановка задачи машинного обучения на примере KNN
- Введение
- Постановка задачи машинного обучения
- Алгоритм k-ближайших соседей
- Взвешенный алгоритм k-ближайших соседей
- Виды расстояний и проблемы метода k-ближайших соседей
- Оценка качества ML модели и выбор гиперпараметров
- Практика
- Итоги
Встреча по темам 1-3
Модуль 4 - Валидация модели и подготовка данных
- Введение
- Валидация модели
- Подготовка данных
- Итоги
Модуль 5 - Обучение с учителем — регрессия
- Введение
- Линейная регрессия
- Алгоритм стохастического градиентного спуска
- Метрики качества регрессии
- Регуляризация линейных моделей
- Практика
- Итоги
Модуль 6 - Обучение с учителем — классификация
- Введение
- Логистическая регрессия
- Метрики качества классификации
- Практическое занятие по решению задачи классификации с помощью лог. рег.
- Итоги
Встреча по темам 4-6
Модуль 7 - Деревья решений
- Введение
- Деревья решений
- Ансамблирование алгоритмов
- Случайный лес (random forest)
- Бустинг. AdaBoost
- Градиентный бустинг, catboost/xgboost/lightgbm
- Практическое занятие по использованию деревьев решений и ансамблей над ними
- Итоги
Модуль 8 - Обучение без учителя
- Введение
- Задача кластеризации
- Быстрый поиск ближайших соседей
- Задача понижения размерности
- Практика
- Итоги
Модуль 9 - Оптимизация ML-пайплайна
- Введение
- Feature engineering
- Оптимизация гиперпараметров. Алгоритмы ML как гиперпараметры ML пайплайна
- Библиотеки для оптимизации гиперпараметров
- Практическое занятие по построению ML пайплайна с различными компонентами, оптимизации гиперпараметров и выбору оптимального ML пайплайна
- Итоги
Встреча по темам 7-9 + объяснения итогового проекта
Модуль 10 - Итоговый проект
- Введение
- Задание
Модуль 11 - Введение в глубокое обучение (DL + CV)
- Введение
- Перцептрон. Функции активации. Многослойный перцептрон.
- Обучение нейронных сетей. Оптимизаторы.
- Линейная/логистическая регрессия как простейшая нейросеть.
- Машинное представление изображения. Свертка. Фильтр.
- Сверточная нейронная сеть. Паддинг (padding), Страйд (stride), Рецептивное поле (receptive field).
- Imagenet. Alexnet, VGG.
- Глубокие сверточные сети. ResNet.
- Эффективные свертки. Inception.
- Neural architecture search. EfficientNet.
- Итоги
Модуль 12 - Введение в обработку текстов (NLP)
- Введение
- Примеры задач, решаемые NLP подходами
- Предобработка текстов
- Bag-of-words и TF-IDF
- Word2Vec и FastText
- Языковые модели: применение рекуррентных нейронных сетей
- Большие языковые модели
- Transfer Learning при работе с текстами
- Практика
- Итоги
Модуль 13 - Введение в рекомендательные системы (RecSys)
- Введение
- Примеры рекомендательных систем
- Постановка задач рекомендательных систем
- Коллаборативная фильтрация. Memory based подход
- Коллаборативная фильтрация. Матричные факторизация
- Коллаборативная фильтрация. Линейные модели
- Коллаборативная фильтрация. Нейросетевые модели
- Итоги
Модуль 14 - Обзор наиболее популярных бизнес-задач, решаемых с помощью ML. Маппинг задач на ранее пройденный материал
- Введение
- ML System Design - что это и отличия от System Design
- Фреймворк дизайна ML системы
- Пример дизайна - прогноз спроса
- Пример дизайна - оптимизация маркетинга
- Пример дизайна - подбор рекламы
- Итоги
Модуль 15 - Проект
Встреча по доп. модулю + защита проектов