diff --git a/labs/lab05/de_lab_05.md b/labs/lab05/de_lab_05.md new file mode 100644 index 0000000..45078bd --- /dev/null +++ b/labs/lab05/de_lab_05.md @@ -0,0 +1,26 @@ +## Лаба 5. Real-time пайплайн с Spark Streaming и Grafana + + + +Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени. + +### 1. Задача + +Вам нужно: + +1. Подгружать логи из Kafka. +2. Из каждой записи лога парсить последнюю часть поля `location` и разбивать его на отдельные слова. +3. Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут. +4. Выводить топ-20 слов и их частоту в Grafana в виде графика. + +На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна! + +### 2. Ссылки для изучения + +* [Документация Spark Streaming](https://spark.apache.org/docs/latest/streaming-programming-guide.html) +* [Документация Grafana](http://docs.grafana.org/) + + +### 3. Проверка + +Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040. \ No newline at end of file