Город: Санкт-Петербург Новосибирск Казань Язык: Русский English

Big Data и Apache Spark
Казань / осень 2020, посмотреть все семестры

Запишитесь на курс, чтобы получать уведомления и иметь возможность сдавать домашние задания. Для записи требуется регистрация на сайте.
Перейти к регистрации Войти

Курс предназначен для аналитиков и студентов по анализу данных, планирующих использовать Python для решения задач, связанных с обработкой больших объемов данных с помощью Apache Hadoop и Apache Spark.

Примерный список тем

  • Краткая история Apache Spark

  • Архитектура Apache Hadoop

  • Настройка рабочего окружения

  • Работа с кластером

  • Hadoop и работа c HDFS

  • RDD и Dataframes API

  • Spark ML

  • Spark Streaming

  • Операции с графами, Spark GraphX + GraphFrames

  • Koalas

Курс состоит из 6 лекции и 3 практических работ

Пререквизиты

Python и командная строка Linux. Базовые знания SQL.