Тренинг Алексея Зиновьева - Машинное обучение на BigData-проектах

Для кого этот тренинг

Java и Scala - разработчики, которые начинают работу на BigData - проектах или планируют начать работать в ближайшем будущем, в запасе у которых несколько добротно написанных бэкендов.

Также тренинг может быть полезен для Python / R - разработчиков, которые планируют работать в тесной связке с Big Data - командами в качестве Data Scientist.

Даже если вы C#/C++ разработчик - приходите, все скелеты проектов будут выданы, проблем со сборкой не будет, а дальше будем работать с API фреймворков.

Необходимые знания:

базовые знания Linux,
знания Java и SQL,
плюсом будет опыт работы с Hadoop/Spark/Kafka

Условия участия

Стоимость 8000 руб.

Способ оплаты: по банковской карте онлайн или наличными на месте.

Продолжительность тренинга 8 часов (4 часа лекций + 4 часа практики).

Для регистрации используйте форму ниже. Регистрация обязательна.

О чем тренинг?

Решение задач при помощи алгоритмов машинного обучения (machine learning) или глубокого обучения (deep learning) перестает быть занятием для PhD в Computer Science и становится типичным базовым требованием в вакансии Data Engineer.

Проверьте количество вакансий на hh, если вам интересна востребованность
https://hh.ru/search/vacancy?text=deep+learning
https://hh.ru/search/vacancy?text=machine+learning

Обычно на таком проекте имеется бэкенд написанный на Java или Scala при помощи таких фреймворков, как

Spark
Kafka
Hadoop
Ignite
Flink

Многие из этих фреймворков имеют встроенные ML/DL решения разного качества и удобства использования, и многие команды мечутся между использованием Python-библиотек и их интеграцией с остальной экосистемой и тотальным использование Spark MLlib для решения всех задач.

Я на протяжении нескольких последних лет, создаю цепочки машинного обучения (ML Pipelines) полного цикла от потребления данных до дообучения моделей на порциях новых данных, а также являюсь активным контрибутором ML фреймворков в вышеперечисленных инструментах.

Данный тренинг подготовлен на основе моего опыта и типичных граблей, по которым раз за разом ходят Java-разработчики, далекие от мира машинного обучения и ежедневной работы с математической статистикой.

В ходе тренинга будет много взаимодействия с участниками, live coding-а, мы решим несколько практических задач трансформации и анализа данных, поработаем с самой свежей версией Spark/Ignite/Flink, обсудим вопросы повышения производительности полученных решений.

Автор тренинга

Алексей Зиновьев — автор тренингов и докладов по Apache Spark и Apache Ignite.

Contributor, создатель доброй трети Apache Ignite ML (SVM, KNN, ANN, Logistic Regression, Prerpocessing and etc.)

Особенно любит текстовые данные и большие графы. Несет бигдату в массы в группе big_data_russia

Работает на проектах с Hadoop/Spark с 2012 года.

Видео доступны на странице лекториума.

Подробное описание тем

Машинное обучение для джавистов
- Типичные задачи машобуча
- Обучение с учителем и без
- Задача кластеризации объектов
- Задача классификации объектов
- Этапы работы с данными
- Этапы работы с моделью
- Что такое бустинг?
- Насколько “глубоко” глубокое обучение?
- Обучение в режиме реального времени
- В какие задачи лучше не пихать машинное обучение

Практическое задание 1. Работа с Weka

Локальное машинное обучение на Java
- Метод ближайших соседей
- Популярные библиотеки машинного обучения на Java
- Возможна ли интеграция с Python - экосистемой?
- Как хранить данные для обучения?

Практическое задание 2. Кластеризация с Apache Commons

Основы машинного обучения в кластере Spark
- Краткое введение в Spark
- Основные инструменты разработки
- DataFrame API
- Основные типы данных: Vector, Labeled Point & Rating
- Распределенные матрицы
- Классификация и кластеризация со Spark ML
- Возможности Spark ML
- Немощь и недостатки Spark ML

Практическое задание 3. Решающие деревья со Spark ML

Пайплайн машинного обучения со Spark ML
- Загрузка данных
- Очистка данных
- Подготовка фич
- Выбор фич
- Тренировка машинного обучения
- Оценка модели
- Выбор наилучшей модели в ходе кросс-валидации
- Экспорт модели
- Ансамбль моделей
- Слияние моделей

Практическое задание 4. Создание пайплайна для задачи-сюрприза

Пайплайн машинного обучения с Ignite ML
- Как тренироваться, если данные лежат в Ignite - кэше
- Особенности “ленивой” тренировки
- Partitioned Datasets в Ignite ML
- Паритет по алгоритмам со Spark в релизе 2.7
- Ансамбли моделей
- Бустинг
Онлайн обучение
- Возможности Spark ML
- Грабим данные из Kafka
- Интеграция с Flink и Storm
- Flink ML и его возможности
- Дообучение моделей в Apache Ignite
Глубокое обучение
- Перцептрон и нейросети
- Автокодировщики
- RNN, CNN, LSTM
- DL4J: библиотека с нейросетями
- Что такое TensorFlow и как это готовить?
- Интеграция Spark c TensorFlow
- Интеграция Ignite c TensorFlow

Практическое задание 5. Решаем задачу распознавания с DL4j

Купить билет

Перейти к заказу билетов

Время и место

2 ноября 2018, с 11.00 до 19.00 по адресу: г. Ярославль, Октябрьский переулок, 3, офис 207

При возникновении любых вопросов пишите Евгению Кокуйкину.

Что нужно иметь на тренинге?

ноутбук с 8 GB RAM
IDEA Community edition
Scala + Sbt plugins для IDEA или умение работать с Java + Maven
собираемый HelloWorld проект [будет предоставлено тренером за неделю до тренинга]
скачанный заранее датасет [будет предоставлено тренером за неделю до тренинга]