原文: https://machinelearningmastery.com/best-programming-language-for-machine-learning/
我被问到的一个问题是:
什么是机器学习的最佳编程语言?
我已多次回答这个问题,现在是时候在博客文章中进一步探讨这个问题了。
最终,您用于机器学习的编程语言应该考虑您自己的要求和偏好。没有人可以为你有意义地解决这些问题。
没有人可以为你有意义地解决这些问题。
在我发表您的观点之前,最好先了解哪些语言和平台在自选数据分析和机器学习专业人员社区中很受欢迎。
KDnuggets 永远进行了语言民意调查。最近的一项民意调查标题为“ 2013 年用于分析/数据挖掘/数据科学工作的编程/统计语言”。趋势几乎与上一年相同。结果表明大量使用 R 和 Python 以及 SQL 进行数据访问。 SAS 和 MATLAB 的排名高于我的预期。我希望 SAS 可以用于更大的企业(财富 500 强)数据分析和用于工程,研究和学生使用的 MATLAB。
最受欢迎的机器学习平台,取自 KDnuggets 2013 民意调查。
Kaggle 提供机器学习竞赛,并对参赛者在比赛中使用的工具和编程语言进行了调查。他们在 2011 年发布了名为 Kagglers 的最爱工具的结果(另见论坛讨论)。结果表明 R 的使用量很大。结果也表明 MATLAB 和 SAS 的使用效果要低得多。我可以证明我更喜欢 R 而不是 Python 来进行竞争工作。只是感觉它在数据分析和算法选择方面有更多的优势。
上述 Kaggle 博客上的博客文章作者 Ben Hamner 和博客文章的作者在一篇题为“人们通常使用什么工具来解决问题的论坛帖子中详细介绍了机器学习编程语言的选项“。
Ben 评论说 MATLAB / Octave 是一种很好的矩阵运算语言,在使用定义明确的特征矩阵时可能会很好。 Python 是全面的,并且可能非常慢,除非你进入 C.他不喜欢使用定义好的特征矩阵并使用 Pandas 和 NLTK。本评论说:“作为一般规则,如果它被发现对统计学家来说很有意思,那么它已经在 R 中实现了”(很好地说)。他还抱怨语言本身是丑陋和痛苦的。最后,Ben 评论朱莉娅,这对库的方式并不多,但却是他最喜欢的语言。他评论说它具有 MATLAB 和 Python 等语言的简洁性和 C 的速度。
Kaggle 首席执行官 Anthony Goldbloom 在 2011 年向 Bay Area R 用户组发表演讲,介绍 R 在 Kaggle 比赛中的受欢迎程度,题为预测性建模竞赛:使数据科学成为一项运动(参见 powerpoint)幻灯片)。演示幻灯片提供了有关编程语言使用的更多细节,并建议了一个与 R 的使用一样大的其他类别。收集原始数据会很好(为什么不是把它发布到他们自己的数据社区,认真!?)。
Kaggle 上流行的编程语言,取自 Kaggle 演示文稿。
John Langford 在他的博客 Hunch 上有一篇关于编程语言属性的优秀文章,在使用名为“机器学习实现的编程语言”的机器学习算法时要考虑。他将属性分为对速度的关注和可编程性的关注(编程简易性)。他指出了强大的行业标准算法实现,所有这些都在 C 和评论中表示他没有使用 R 或 MATLAB(这篇文章是在 8 年前写的)。花一些时间阅读学术界和行业专家的一些评论。这是一个深刻而微妙的问题,实际上归结为您正在解决的问题的具体细节以及解决问题的环境。
我想在我想要执行的机器学习活动的上下文中编程语言。
我认为 MATLAB 非常适合表示和使用矩阵。因此,我认为在攀入给定方法的线性代数时,它是一种优秀的语言或平台。我认为,当你试图找出问题或深入研究方法时,它很适合在第一次和非常深入地学习算法。例如,它在初学者的大学课程中很受欢迎,例如 Andrew Ng 的 Coursera 机器学习课程。
R 是统计分析和扩展机器学习的主力军。很多人都在谈论学习曲线,我没有真正看到问题。它是使用统计方法和图表来理解和探索数据的平台。它拥有大量的机器学习算法,以及由算法开发人员编写的高级实现。
我认为你可以用 R 来探索,建模和原型。我认为它适合一次性项目,其中包含一系列预测,报告或研究论文。例如,它是最受欢迎的机器学习竞争对手平台,如 Kaggle 。
Python 如果是一种流行的科学语言和机器学习的后起之秀。如果可以从 R 中获取数据分析,我会感到惊讶,但 NumPy 中的矩阵处理可能会挑战 MATLAB,而 IPython 等通信工具非常具有吸引力,是未来再现性的一步。
我认为用于机器学习和数据分析的 SciPy 栈可用于一次性项目(如论文),而 scikit-learn 等框架已经足够成熟,可用于生产系统。
实现使用机器学习的系统是一项与其他任何工程一样的工程挑战。您需要良好的设计和开发的要求。机器学习是算法,而不是魔术。在严格的生产实现中,您需要一个健壮的库,或者根据需要自定义算法的实现。
有强大的库,例如,Java 有 Weka 和 Mahout。此外,请注意,回归( LIBLINEAR )和 SVM( LIBSVM )等核心算法的更深层实现是用 C 语言编写的,并由 Python 和其他工具包利用。我认为你很认真,你可以用 R 或 Python 原型,但是你会因为执行速度和系统可靠性等原因而用更重的语言实现。例如, BigML 的后端在 Clojure 中实现。
- 不是程序员:如果你不是程序员(或者不是一个自信的程序员),我建议通过 GUI 界面来玩机器学习,如 Weka 。
- 研究和行动的一种语言:您可能希望使用相同的语言进行原型设计和生产,以降低无法有效转移结果的风险。
- 宠物语言:你可能有一种最喜欢的语言的宠物语言,并希望坚持这一点。您可以自己实现算法或利用库。大多数语言都有某种形式的机器学习包,无论多么原始。
机器学习编程语言的问题在博客和问答网站上很流行。一些选择讨论包括:
- 机器学习和编程语言,2012
- 哪种编程语言拥有最好的机器学习库存储库? 在 Quora 上,2012 年
- 哪种编程语言拥有最好的机器学习库存储库? 2010 年 MetaOptimize 上的
- 您建议使用哪种编程语言来构建机器学习问题? ,CrossValidated,2011
您使用什么编程语言进行机器学习和数据分析,为什么推荐它?
我很想听听你的想法,发表评论。