Computer Science Club

Курс предназначен для аналитиков и студентов по анализу данных, планирующих использовать Python для решения задач, связанных с обработкой больших объемов данных с помощью Apache Hadoop и Apache Spark.

Примерный список тем

Краткая история Apache Spark
Архитектура Apache Hadoop
Настройка рабочего окружения
Работа с кластером
Hadoop и работа c HDFS
RDD и Dataframes API
Spark ML
Spark Streaming
Операции с графами, Spark GraphX + GraphFrames
Koalas

Курс состоит из 6 лекции и 3 практических работ

Пререквизиты

Python и командная строка Linux. Базовые знания SQL.

Прочтения курсов

Семестр	Отделение
осень 2020	Казань

Big Data и Apache Spark

Прочтения курсов