Программа курса
- Введение в Apache Spark
- Обзор платформы, ее основных компонентов и преимуществ перед другими платформами Big Data.
- Архитектура Spark и основные концепции, такие как RDD и DataFrames.
- Установка и конфигурация Spark
- Пошаговая установка Spark и настройка рабочего окружения.
- Интеграция с Hadoop и использование HDFS для хранения данных.
- Разработка приложений на Spark
- Основы программирования на Scala и Python для работы с Spark.
- Создание и оптимизация Spark-приложений для обработки данных.
- Аналитика данных с использованием Spark
- Использование Spark SQL для запросов к данным.
- Введение в машинное обучение с помощью Spark MLlib.
- Оптимизация и масштабирование
- Техники мониторинга и оптимизации производительности Spark-приложений.
- Масштабирование приложений на кластерах и облачных платформах.