Skip to content

Latest commit

 

History

History
26 lines (15 loc) · 1.9 KB

de_lab_05.md

File metadata and controls

26 lines (15 loc) · 1.9 KB

Лаба 5. Real-time пайплайн с Spark Streaming и Grafana

Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени.

1. Задача

Вам нужно:

  1. Подгружать логи из Kafka.
  2. Из каждой записи лога парсить последнюю часть поля location и разбивать его на отдельные слова.
  3. Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут.
  4. Выводить топ-20 слов и их частоту в Grafana в виде графика.

На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна!

2. Ссылки для изучения

3. Проверка

Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040.