Лаба 5. Real-time пайплайн с Spark Streaming и Grafana

Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени.

1. Задача

Вам нужно:

Подгружать логи из Kafka.
Из каждой записи лога парсить последнюю часть поля location и разбивать его на отдельные слова.
Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут.
Выводить топ-20 слов и их частоту в Grafana в виде графика.

На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна!

2. Ссылки для изучения

Документация Spark Streaming
Документация Grafana

3. Проверка

Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

de_lab_05.md

de_lab_05.md

Лаба 5. Real-time пайплайн с Spark Streaming и Grafana

1. Задача

2. Ссылки для изучения

3. Проверка

Files

de_lab_05.md

Latest commit

History

de_lab_05.md

File metadata and controls

Лаба 5. Real-time пайплайн с Spark Streaming и Grafana

1. Задача

2. Ссылки для изучения

3. Проверка