Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени.
Вам нужно:
- Подгружать логи из Kafka.
- Из каждой записи лога парсить последнюю часть поля
location
и разбивать его на отдельные слова. - Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут.
- Выводить топ-20 слов и их частоту в Grafana в виде графика.
На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна!
Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040.