原文: https://machinelearningmastery.com/building-a-production-machine-learning-infrastructure/
Midwest.io 于 2014 年 7 月 14 日至 15 日在堪萨斯城召开。
在会议上,Josh Wills 在一个题为“从实验室到工厂:构建生产机器学习基础设施”的演讲中,就如何构建生产机器学习基础设施进行了讨论。
Josh Wills 是 Cloudera 数据科学高级总监,正式参与 Google 的广告拍卖系统。
在这篇文章中,您将了解构建生产机器学习基础架构所需的知识。
<iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/IgfRdDjLxe0?feature=oembed" width="500"></iframe>
Josh 称自己为数据科学家,负责对数据科学家所做的更为切实的描述。最好表达为推文:
Data Scientist(数据科学家):在统计学方面比任何软件工程师都要好的人,在软件工程方面比任何统计学家都要好。
- Josh Wills(@josh_wills) 2012 年 5 月 3 日
他说,有两种类型的数据科学家,第一种是擅长编程的统计学家。第二个是一个聪明的软件工程师,并参与了有趣的项目。他说他自己就是第二类数据科学家。
Josh 还将学术机器学习与工业机器学习区分开来。他评论说,学术机器学习基本上是应用数学,特别是应用优化理论,这就是它在学术环境和教科书中的教学方式。
工业机器学习是不同的。
- 系统来自算法。在学术机器学习中,准确率优先考虑,而不是长时间运行。在工业中,速度越快越好,速度越慢就越合理,这意味着准确率往往会退居二线。
- 目标函数很乱。学术机器学习就是优化目标功能。不存在清洁的目标函数,并且通常存在许多需要帕累托多目标方法的冲突函数(对其中一个进行改进而不会对其他函数产生负面影响)。
- 一切都在改变。系统很复杂,没有人理解所有这些。
- 了解 - 优化权衡。提出假设,测试和改进系统的过程。理解通常比更好的结果更重要。实验推动了解。
Josh 评论说这是工业机器学习的黄金时代。他说这是因为可用的工具以及正在进行的共享和协作的数量。
他接触了 Oryx ,Cloudera 在 Apache Hadoop 之上使用他们的工业机器学习平台。
Josh 在他们的博客文章“构建风险机器学习系统”中谈到 Airbnb 分享其工业机器学习系统的细节。他发现 airbnb 构建一个分析模型离线存储它作为 PMLL 文件并上传它在生产中运行的事实。
Josh 还谈到了 Etsy 的工业机器学习系统猜想,在博客文章“猜想:Hadoop 中的可伸缩机器学习与烫伤”中描述。在他们的系统中,离线准备模型并以 JSON 格式描述,然后转换为 PHP 代码以在生产中运行。
Josh 指出这些系统中的共性是将数据管理为键/值对。他还指出,他所谓的“分析模式”离线模型的准备以及那些用于生产或“生产模式”的模型的转变。
Josh 说,他目前的热情是特色工程,这是工业机器学习的黑暗艺术。实际上,他在演讲结束时发表了轻率的评论,人们喜欢最喜欢的算法,所使用的算法并不重要,并且所有的辛勤工作都在于特征工程。
Josh 说,与生产模式相比,分析模型中数据的使用方式非常低效。
模型的分析准备可以离线访问星型模式,以汇集所需的所有数据。生产数据只能访问用户或观察。他的问题是如何将在线使用的线路转换为在线使用而不费力(并且目前没有使用 kludges)。
他说他探索了一种失败的 DSL 方法,但发现了数据模型的核心问题。他说,所需要的是根据固定属性和重复属性对用户实体进行建模。用户实体存储为非规范化,并且诸如事务和日志(重复属性)之类的用户数据存储在数组中。他以 JSON 格式给出了一个示例,并将其称为超新星模式。
Supernova Schema 来自 Josh Wills 2014 年 7 月在 Midwest.io 的演讲
这是一个引人入胜的演讲,并提醒我们,从像 Cloudera,Airbnb 和 Etsy 那样的大型工业机器学习系统的讨论中可以学到很多东西。
您可以在这里完整地观看演讲:“从实验室到工厂:构建生产机器学习基础设施”。
您可以在 @josh_wills 的 Twitter 上关注 Josh,并在 Linkedin 上查看他的背景。