数据导入导出示例程序,用于说明如何将数据加载为DataFrame以及如何将DataFrame导出到文件中
DataFrame操作示例程序,用于说明如何对DataFrame进行常用操作(包括相关SQL操作)。
机器学习GLM方法示例程序,用于说明如何在R中使用分布式机器学习方法
RDD API使用示例程序,因为新版SparkR隐藏了RDD操作相关函数,该示例介绍了如何使用RDD的常用transform和action。
外包使用示例程序。该示例说明如何处理在spark executor上使用R packages的情况。
- 通过SparkR 运行模式通过--master或在sparkR.init指定,如下
sparkR --master yarn-client demo_wordcount.R /user/bre/xiang.xu/en_article
- 通过spark-submit 运行模式通过--master或在sparkR.init指定,如下
spark-submit --master yarn-client demo_wordcount.R /user/bre/xiang.xu/en_article
提交的资源设置参数与其他语言相同
待补充
- Spark版本的注意
因为SparkR正在开发中,不同版本的API存在差别,新版本会增加新的方法
- 原有RDD相关的action和transform方法(如parallelize, reduce)被隐藏,使用DataFrame
- 1.4.0之前不支持ml相关方法
- 1.5.2之前不支持binomial GLM
- 随着版本更新,示例程序也会及时更新和增加
该程序主要用于介绍使用方法,如果发现问题、有疑问的地方或者有更好的方法都可以QQ或者Email(xiang.xu AT baifendian.com)联系我,谢谢。