Spark Streaming

Spark streaming是Spark核心API的一個擴充，它對即時資料串流的處理具有可擴充性、高吞吐量、可容錯性等特點。我們可以從kafka、flume、Twitter、 ZeroMQ、Kinesis等來源取得資料，也可以通過由高階函式如map、reduce、join、window等組成的複雜演算法計算出資料。最後，處理後的資料可以推送到檔案系統、資料庫、即時儀表板中。事實上，你可以將處理後的資料應用到Spark的機器學習演算法、圖形處理演算法中去。

在内部，它的工作原理如下圖所示。Spark Streaming接收即時的輸入資料串流，然後將這些資料切分為批次資料供Spark引擎處理，Spark引擎將資料生成最终的结果資料。

Spark Streaming支援一個高層的抽象類別類別，叫做離散化串流(discretized stream)或者DStream，它代表連續的資料串流。DStream既可以利用從Kafka, Flume和Kinesis等來源取得的輸入資料串流創建，也可以在其他DStream的基礎上藉由高階函式獲得。在内部，DStream是由一系列RDDs組成。

本指南指導使用者開始利用DStream編寫Spark Streaming程式。使用者能夠利用scala、java或者Python來編寫Spark Streaming程式。

注意：Spark 1.2已經為Spark Streaming導入了Python API。它的所有DStream transformations和幾乎所有的輸出操作可以在scala和java介面中使用。然而，它只支援基本的來源如純文字文件或者socket上的文字資料。諸如flume、kafka等外部的來源的API會在將來導入。

一個快速的例子
基本概念
性能調教
容錯語意

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Spark Streaming

Files

README.md

Latest commit

History

README.md

File metadata and controls

Spark Streaming