«SQL on Hadoop» на примере Apache Drill

В рамках доклада будут охвачены следующие вопросы:

1. Зачем нужен «SQL on Hadoop»?
2. Краткий обзор технологий, реализующих «SQL on Hadoop»:
Batch SQL, Interactive SQL, Operational SQL.
3. Сравнение реализации «SQL on Hadoop» в Apache Drill и Apache Spark.
4. Способы и форматы хранения данных в Big Data решениях.

  • Parquet(компрессия данных в этом формате), JSON, CSV
  • SELECT по директории,
  • Apache Kudu, Apache HBase
  • Возможность подключения СУБД как источников данных. Примеры запросов к ним

5. Возможности расширения функционала Apache Drill.

  • Storage Plugins, Format Plugins
  • Использование REST-сервиса в качестве источник данных

Конференция Yappi Days 17