Машинное обучение на BigData-проектах
Тренинг Алексея Зиновьева
2 ноября 2018
Купить билет

Для кого этот тренинг


Java и Scala - разработчики, которые начинают работу на BigData - проектах или планируют начать работать в ближайшем будущем, в запасе у которых несколько добротно написанных бэкендов.

Также тренинг может быть полезен для Python / R - разработчиков, которые планируют работать в тесной связке с Big Data - командами в качестве Data Scientist.

Даже если вы C#/C++ разработчик - приходите, все скелеты проектов будут выданы, проблем со сборкой не будет, а дальше будем работать с API фреймворков.

Необходимые знания:


Условия участия


Стоимость 8000 руб.

Способ оплаты: по банковской карте онлайн или наличными на месте.

Продолжительность тренинга 8 часов (4 часа лекций + 4 часа практики).

Для регистрации используйте форму ниже. Регистрация обязательна.


О чем тренинг?


Решение задач при помощи алгоритмов машинного обучения (machine learning) или глубокого обучения (deep learning) перестает быть занятием для PhD в Computer Science и становится типичным базовым требованием в вакансии Data Engineer.

Проверьте количество вакансий на hh, если вам интересна востребованность
https://hh.ru/search/vacancy?text=deep+learning
https://hh.ru/search/vacancy?text=machine+learning

Обычно на таком проекте имеется бэкенд написанный на Java или Scala при помощи таких фреймворков, как

Многие из этих фреймворков имеют встроенные ML/DL решения разного качества и удобства использования, и многие команды мечутся между использованием Python-библиотек и их интеграцией с остальной экосистемой и тотальным использование Spark MLlib для решения всех задач.

Я на протяжении нескольких последних лет, создаю цепочки машинного обучения (ML Pipelines) полного цикла от потребления данных до дообучения моделей на порциях новых данных, а также являюсь активным контрибутором ML фреймворков в вышеперечисленных инструментах.

Данный тренинг подготовлен на основе моего опыта и типичных граблей, по которым раз за разом ходят Java-разработчики, далекие от мира машинного обучения и ежедневной работы с математической статистикой.

В ходе тренинга будет много взаимодействия с участниками, live coding-а, мы решим несколько практических задач трансформации и анализа данных, поработаем с самой свежей версией Spark/Ignite/Flink, обсудим вопросы повышения производительности полученных решений.


Автор тренинга



Алексей Зиновьев

Алексей Зиновьев — автор тренингов и докладов по Apache Spark и Apache Ignite.

Contributor, создатель доброй трети Apache Ignite ML (SVM, KNN, ANN, Logistic Regression, Prerpocessing and etc.)

Особенно любит текстовые данные и большие графы. Несет бигдату в массы в группе big_data_russia

Работает на проектах с Hadoop/Spark с 2012 года.

Видео доступны на странице лекториума.


Подробное описание тем


  1. Машинное обучение для джавистов
    • Типичные задачи машобуча
    • Обучение с учителем и без
    • Задача кластеризации объектов
    • Задача классификации объектов
    • Этапы работы с данными
    • Этапы работы с моделью
    • Что такое бустинг?
    • Насколько “глубоко” глубокое обучение?
    • Обучение в режиме реального времени
    • В какие задачи лучше не пихать машинное обучение
  2. Практическое задание 1. Работа с Weka
  3. Локальное машинное обучение на Java
    • Метод ближайших соседей
    • Популярные библиотеки машинного обучения на Java
    • Возможна ли интеграция с Python - экосистемой?
    • Как хранить данные для обучения?
  4. Практическое задание 2. Кластеризация с Apache Commons
  5. Основы машинного обучения в кластере Spark
    • Краткое введение в Spark
    • Основные инструменты разработки
    • DataFrame API
    • Основные типы данных: Vector, Labeled Point & Rating
    • Распределенные матрицы
    • Классификация и кластеризация со Spark ML
    • Возможности Spark ML
    • Немощь и недостатки Spark ML
  6. Практическое задание 3. Решающие деревья со Spark ML
  7. Пайплайн машинного обучения со Spark ML
    • Загрузка данных
    • Очистка данных
    • Подготовка фич
    • Выбор фич
    • Тренировка машинного обучения
    • Оценка модели
    • Выбор наилучшей модели в ходе кросс-валидации
    • Экспорт модели
    • Ансамбль моделей
    • Слияние моделей
  8. Практическое задание 4. Создание пайплайна для задачи-сюрприза
  9. Пайплайн машинного обучения с Ignite ML
    • Как тренироваться, если данные лежат в Ignite - кэше
    • Особенности “ленивой” тренировки
    • Partitioned Datasets в Ignite ML
    • Паритет по алгоритмам со Spark в релизе 2.7
    • Ансамбли моделей
    • Бустинг
  10. Онлайн обучение
    • Возможности Spark ML
    • Грабим данные из Kafka
    • Интеграция с Flink и Storm
    • Flink ML и его возможности
    • Дообучение моделей в Apache Ignite
  11. Глубокое обучение
    • Перцептрон и нейросети
    • Автокодировщики
    • RNN, CNN, LSTM
    • DL4J: библиотека с нейросетями
    • Что такое TensorFlow и как это готовить?
    • Интеграция Spark c TensorFlow
    • Интеграция Ignite c TensorFlow
  12. Практическое задание 5. Решаем задачу распознавания с DL4j


Купить билет


Перейти к заказу билетов

Время и место


2 ноября 2018, с 11.00 до 19.00 по адресу: г. Ярославль, Октябрьский переулок, 3, офис 207

При возникновении любых вопросов пишите Евгению Кокуйкину.


Что нужно иметь на тренинге?