Skip to content

Commit

Permalink
added 5 lab
Browse files Browse the repository at this point in the history
  • Loading branch information
Den4ikless committed May 9, 2018
1 parent fde8a09 commit dd29490
Showing 1 changed file with 26 additions and 0 deletions.
26 changes: 26 additions & 0 deletions labs/lab05/de_lab_05.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,26 @@
## Лаба 5. Real-time пайплайн с Spark Streaming и Grafana

<img src="https://prateekvjoshi.files.wordpress.com/2015/11/1-main1.png" width="170px" align="center"> <img src="http://data.newprolab.com/public-newprolab-com/de_lab05_grafana.svg" width="170px" align="center">

Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени.

### 1. Задача

Вам нужно:

1. Подгружать логи из Kafka.
2. Из каждой записи лога парсить последнюю часть поля `location` и разбивать его на отдельные слова.
3. Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут.
4. Выводить топ-20 слов и их частоту в Grafana в виде графика.

На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна!

### 2. Ссылки для изучения

* [Документация Spark Streaming](https://spark.apache.org/docs/latest/streaming-programming-guide.html)
* [Документация Grafana](http://docs.grafana.org/)


### 3. Проверка

Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040.

0 comments on commit dd29490

Please sign in to comment.