forked from allexzen/DataEngeneer_public
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
fde8a09
commit dd29490
Showing
1 changed file
with
26 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,26 @@ | ||
## Лаба 5. Real-time пайплайн с Spark Streaming и Grafana | ||
|
||
<img src="https://prateekvjoshi.files.wordpress.com/2015/11/1-main1.png" width="170px" align="center"> <img src="http://data.newprolab.com/public-newprolab-com/de_lab05_grafana.svg" width="170px" align="center"> | ||
|
||
Итак, у вас есть уже функционирующий batch-пайплайн. Теперь пришло время проделать всё то же самое, но в реальном времени. | ||
|
||
### 1. Задача | ||
|
||
Вам нужно: | ||
|
||
1. Подгружать логи из Kafka. | ||
2. Из каждой записи лога парсить последнюю часть поля `location` и разбивать его на отдельные слова. | ||
3. Делать вордкаунт (подсчитывать количество возникновений того или иного слова в файле) с учетом стоп-слов (какой набор из стоп-слов выбрать — на ваше усмотрение) за 30 минут. | ||
4. Выводить топ-20 слов и их частоту в Grafana в виде графика. | ||
|
||
На этом ваш realtime-пайплайн будет построен. Поздравляем, в итоге вы реализовали lambda-архитектуру, построив два пайплайна! | ||
|
||
### 2. Ссылки для изучения | ||
|
||
* [Документация Spark Streaming](https://spark.apache.org/docs/latest/streaming-programming-guide.html) | ||
* [Документация Grafana](http://docs.grafana.org/) | ||
|
||
|
||
### 3. Проверка | ||
|
||
Проверка будет осуществляться из личного кабинета. Чекер будет подключаться к grafana через 3000 порт (при установке он выставляется по умолчанию) и к Web UI Spark через 4040. |