在机器学习竞赛中做得好怎么办?要真正深入研究这个问题,你需要挖掘那些做得好的人。
2010 年,我参加了一场 Kaggle 比赛,以预测未来国际象棋比赛的结果。这是一个令人着迷的问题,因为它要求你从历史游戏中对玩家的评级进行建模,并将这些评级传播到未来以做出预测。
我在比赛中做到了这样(第 17 或 10%),但迪奥戈·费雷拉获得第 4 名。迪奥戈是一个迷人的人,也是一个出色的沟通者,2011 年我有机会采访他,了解他参加比赛的情况。这篇文章是该访谈的编辑版本。
采访分为四个部分:
- 第 1 部分探讨了 Diogo 的问题解决背景和方法
- 第 2 部分关于 Kaggle 国际象棋评级比赛
- 第 3 部分潜入迪奥戈的国际象棋评级竞赛解决方案
- 第 4 部分给我们留下了一些关于机器学习竞赛从业者的最终想法(最好的部分!)
喝一杯,坐下来享受吧!
迪奥戈·费雷拉
杰森:你能介绍一下自己吗?
Diogo :我的名字是 Diogo R. Ferreira,我是里斯本技术大学(葡萄牙)的信息系统教授,在那里我教数据库系统,企业集成和业务流程管理(BPM) 。我也是 BPM 领域的活跃研究员,特别关注过程挖掘,即与从信息系统记录的事件日志中提取过程模型相关的技术。
Jason :您的教育和工作经历中有哪些经验,如果有的话,有助于您参与国际象棋评级竞赛并获得成功?
Process Mining,我的研究领域,与商业智能和数据挖掘领域相关,这使我接触到一系列技术,这些技术通常可以被调整或作为解决不同问题的灵感。
至于国际象棋评级比赛,我对国际象棋有着长期的兴趣,这让我对这场比赛特别感兴趣。
Jason :您对流程挖掘的描述激发了挖掘 Web 服务器日志的想法,并将结果与流经网站相关联。
确切地说,这是我们所做的事情,只有事件日志(即信息系统记录的事件)才能来自过程感知系统(例如工作流/ BPM 系统)或其他(例如应用服务器日志)
Jason :像我这样熟悉的流程挖掘的例子是什么,例如,是否有规范的案例研究或用例?
有关介绍,我或许可以引导您阅读最近发布的 Process Mining Manifesto (PDF)。
对于一些案例研究示例,我可以引导您访问我自己的一些出版物。 流程挖掘网站还有更多内容。
Jason :最近有哪些 BI 和数据挖掘技术的例子,你已经适应了你的努力,如果有的话,以及你试图解决的问题类型?
序列聚类,期望最大化,序列分析,图形分析,是我已经使用或适用于过程挖掘应用程序的技术。
杰森:一般来说,当提出新的数据集,评级或其他时,你从哪里开始,你的方法是什么?
首先,我通常会开发一组简单的程序来从数据集中提取特征,以便更好地理解它。通常情况下,数据集对于手动检查而言太大,因此开始使用一些基本工具非常有用,以便找出应该进一步的方向。
然后,在我对数据有感觉之后,我通常尝试一些相当简单,甚至是微不足道的方法来执行“健全性检查”,即只是为了验证结果是我期望的,以便获得对数据集。
在我充满信心之后,我开始尝试更精细的方法。这些方法通常都是我自己做的。在稍后阶段,我通常将我的结果与众所周知的秘籍或技术进行比较。
杰森:我发现你的方法论描述引人入胜,谢谢你。您最近使用哪些工具或技术从新数据集中提取要素?
为了从新数据集中提取特征,我主要使用 ad-hoc 自定义代码,我发现使用 Python 和相关库(如 numpy,matplotlib,networkx 等)非常有效。
Jason :在谈到这种情况下的功能时,你是什么意思? (汇总统计量?数据中的结构?预测规则?)
精确汇总统计量和/或在数据集中查找共性和频繁行为的方法。
Jason :如果您可以手动检查数据集,那么您使用了哪些示例或工具?
我只是使用简单的搜索和查找/查找所有/ find-in-files / grep 功能,例如大多数文本编辑器中提供的功能。
Jason :在处理数据问题时,你会准备什么类型的任务来定制代码和脚本,以及你会将哪些类型的任务转向工具和库?
我经常自己编写代码,即使有相似的代码可用。这是因为逐步开发代码也是了解有关数据的更多信息的一种方式。
我转向工具和库,特别是当我想将我的结果与其他人的结果或竞争方法进行比较时。
Jason :你提到:“_ 逐步开发代码是一种了解数据 _ 的方法,这非常有趣。如果可能的话,请你详细说明一下吗? (例如,你指的是什么具体的东西,如:原型创意?犯错误?探索死胡同?时间思考?发现边缘情况?)
当我开始处理数据时,我通常会花时间检查每个中间步骤(编码)是否按预期工作,并且在该过程中,人们学习了很多关于数据本身的知识。我通常不会探索死胡同或边缘情况,我只是抓住机会在路上停下来(即如果将编码与驾驶进行比较,我会说我会偶尔停下来看看周围看看景观,而不仅仅是直接开往目的地)
杰森:你对拼图,机器学习,算法,编程,统计学,数学,心理学有多大程度的兴趣?
我对所有这些方面都有兴趣,但我常常受到手头特定问题的激励,无论面积如何。我对这些领域的每个问题都不感兴趣,但我可能对来自不同领域的一些特殊问题感兴趣。
Jason :一般来说,你会发现哪些方法可以返回常见的数据任务?
我会说,由于我的研究领域(过程挖掘),我反复回到文本/字符串处理和图形分析,我发现这些技能在不同的问题中经常有用。
Jason :您认为哪些技术,工具和/或库对于 a)文本/字符串处理和 b)图表分析有用?
对于文本/弹簧处理,我使用标准 Python 模块中提供的简单函数(查找,拆分等)
对于图形分析,使用诸如 networkx 和 Graphviz 之类的专用库通常很有用。
Jason :您在不同的问题中使用过文本/字符串处理和/或图形分析的一些创造性方法或最近的例子是什么?
最近我一直在分析来自两家不同医院的事件日志,我正在使用那些工具/技术。
杰森:一般来说,当你的方法没有给出你期望的结果时,你如何保持动力?
我可能觉得这种方法有问题,在这种情况下我会尝试修复它。或者,如果它没有任何问题,那么我就开始考虑对同一问题采用完全不同的方法。无论哪种方式,这往往让我有动力。
Jason :您认为哪些技能能够成为此类数据竞赛的参与者?
我认为竞争参与者必须有一些坚定和不可动摇的动力,而不是技能。我见过非常熟练的人甚至没有付出努力,也没有那些技术娴熟的人诉诸各种各样的东西,其中一些人最终证明是有效的。所以这不是一个人知道多少的问题,而是一个人愿意付出多少努力。
Jason :我有兴趣更多地探索你的动机与技能哲学。你能否谈谈“创造力和/或思想的多样性”和“尝试不同事物的适应性”比“原始技能,智慧,经验”更有用(请原谅我的简洁解释)?
一个基本事实是,最重要的是,事情是否已经完成。技能意味着可以做到这一点,但只有动力才能让人开始这样做。
事情通过其结果进行评估这一事实意味着在某些情况下会产生不幸的后果,例如投入了大量时间并且最终没有得到结果的人。这就是技能发挥作用的地方:它使人们更有可能从投资中获得一些成果。
但仅靠技能还不足以应对某些挑战的复杂性。即使有技巧,手头的任务也可能很难,所以这就是动力再次出现的地方。这是一个开始,它让人继续前进。当然,法拉利(更多的技能)会更快地获得一辆,但这并不意味着用一辆装备较少的车辆,甚至是不能在同一条道路/路径上行驶的车辆也不可能到达那里。如果到达那里是最重要的,那么无论是哪辆车还是路径都无关紧要。拥有汽油(动力)到达那里变得比拥有快速汽车(技能)更重要。
Jason :在解决数据问题时,调整模型可能在某个地方占有一席之地,在尝试新模型和调整有希望的模型之间可以做些什么来寻求富有成效的平衡?
改善的速度告诉我们何时改变策略。当改善率开始下降时,是时候开始考虑新模型了。
Jason :一般来说,您是否更愿意花时间调整给定模型的数据问题或尝试不同的模型?
就我个人而言,我宁愿花时间尝试不同的模型,但实际上发生的情况是,当模型开始看起来很有前途时,我经常投入大量时间来调整它,这让我花费的时间少于我想要尝试不同模型的时间。这种情况发生在国际象棋比赛中,尽管我考虑过尝试其他方法,但最终我花了大部分时间来调整和改进单一模型。
杰森:为什么你认为模型调整不如探索新模型(例如,增量增益与替代范式)相比不那么令人满意?
因为人们可能会花费大量时间进行调整,并且最终仍然受到原始模型假设的限制。比如说,通过调整可以获得 20%的改进,而使用新模型可以得到 50%。如果可能的话,突破性思维往往带来更多回报 - 至少这是我个人的感受。
白色与黑色 摄影: Gideon ,保留一些权利
Jason :你提到了国际象棋的长期兴趣,长期兴趣是什么?你有多长时间了?
在我十几岁的时候,我曾经参加国际象棋比赛,今天我仍然关注国际象棋界的情况,尽管我不再是一名活跃的球员。有一段时间,我仍然在线玩,这是我希望在我十几岁时可以使用的东西。
杰森:用你自己的话来说,国际象棋评级竞赛需要解决的问题是什么?
在我看来,国际象棋评级竞赛的目的是设计一个评级系统,以便为评级玩家之间的游戏结果提供更准确的预测。
Jason :我读到你是从铅笔和纸开始的,当你第一次参加比赛时你在考虑或探索什么?你是如何抵制跳上电脑和制作剧本的?
当我第一次开始考虑比赛时,我正在寻找一个合适的概率模型,我在纸上划了一些东西,有时相同的公式会一遍又一遍地出现。
与此同时,我开始编写一些简单的任务,例如读取/解析数据和获取一些摘要统计量。
过了一段时间,我经常从编码切换到在纸上抓东西,两个阵营的事情都开始快速发展。
杰森:从高级别来看,请总结一下你在比赛过程中的线性步骤?
我的方法的基础模型开发得相当快,在整个竞赛过程中我使用了基本相同的模型,偶尔会有一些变化。
花费我时间开发的是一个合适的加权函数来计算时间因素(即最近的游戏比旧游戏更重要的事实)
我一直在尝试几个选项,在私人数据集中,我观察到了一些改进,尽管公开得分对我是否走上正确的轨道几乎没有信心。
杰森:你在比赛过程中与谁合作过什么? (电子邮件交流,形式讨论等)
我与一位同事进行了几次简短的对话,关于竞争以及有关数据挖掘,过拟合等的一般情况。在这些对话中,我们主要讨论了竞争的建立方式,而不是特定的方法。我还记得在加权函数中使用正态分布的一些建议,但最终我设计了自己的函数。
杰森:我读到你希望在比赛上花几天时间,让你参与这么久的事情是什么?
这有两个有力的原因:
- 每天在公共排行榜上看到其他人的进步,并将其与我自己的排行榜进行比较,让我对这场比赛感到非常激动。
- 事实上,我自己的交叉验证结果与公共排行榜上的结果之间几乎没有相关性。这让我忙了一段时间,因为我不确定我的方法到底会如何实际表现。
杰森:用简单的话来说,你(最成功的)解决竞争问题的方法是什么?
我认为这是最简单的一个,即当我将代码简化为真正基本的东西时,我认为它是一个坚实的基础。其他想法,例如获得一些改进的智能修复,被证明是非常耗时的,并且几乎没有提供额外的奖励。
Jason :您在比赛过程中执行了哪些数据汇总和数据可视化,如果有的话?
我使用 networkx Python 库来研究数据集中玩家之间的连接(游戏)。
除此之外,我使用了摘要统计量,例如每月游戏,每月玩家每月游戏等。
Jason :您对数据集的哪些经典方法适用于数据集,如果有的话,以及何时在比赛过程中?
我没用过。我的想法总是为每个玩家获得 0.0 到 1.0 之间的标准化评级。
Jason :您已经发布了有关您的方法和源代码的详细说明 - 为什么您在描述中付出了这样的努力并免费发布代码?
好吧,我习惯写科学论文,以这种形式提出描述是有道理的。至于源代码,我认为几乎没有人会遇到实现该方法的麻烦,即使他们这样做也许他们不会采取必要的谨慎措施来确保一切都按照原先的意图实现;这可能会产生关于我的方法的报告,其结果比我用自己的代码获得的结果更糟糕。那么为什么不将源代码作为参考实现发布,就是这样。
Jason :回顾一下,您认为计算时间或计算机硬件是否会对您或您的方法产生影响?
肯定是的。我记得我的笔记本电脑连续运行了好几天。在某些时候,我甚至尝试使用我们大学的服务器,却发现它在我的笔记本电脑上运行得更快。参数调整通常需要数小时甚至数天才能完成。我经常发现自己每小时检查事情的进展情况,即使是在半夜,也希望我能有更多的机器可以同时运行。
唯一的原因是这并不是绝对关键的事实是我们每天仅限于 2 次提交,我发现这通常是相当不错的。我记得将实际提交的数量除以同一时期允许的提交总数,并得到接近 50%的数字。总的来说,我认为我设法充分利用了我所拥有的提交数量。
Jason :讨论使用排行榜以及您在私有数据集中看到的差异?
如果我没记错的话,我将公共数据集分为 1 到 100 个月的交叉验证数据集:1 到 95(训练)+ 96 到 100(测试)。 (我还和 1 到 90 + 91 到 95,以及其他人一起工作)
发生的事情是,交叉验证数据集上的更好结果通常意味着公共排行榜的结果更糟。也许之前的提交更好,因为过拟合或只是运气。无论如何,这无助于建立对我所尝试的事物的信心。交叉验证结果表明它肯定会更好,但公共排行榜却表示不然。在某些时候,我(以及其他参与者)可能会开始觉得公共数据集和排行榜存在很大差异。最后,我认为这只是因为排行榜得分是根据相当少量的数据计算的(20%)。
Jason :您在私人搜索结果中搜索的统计量与公共排行榜相比(如果有的话)(例如,您是否探索了两者之间的相关性)?
我没有探索两者之间的任何相关性,因为它似乎没有。
至于统计量,我记得竞争使用月份汇总的 RMSE 作为误差测量。我记得尝试使用其他测量,例如每场比赛的绝对偏差,每场比赛的 RMSE 等等。所以我做了一些参数调整,试图最小化这些其他错误测量。然而,最终似乎使用月份汇总的 RMSE 更好。
Jason :基于您对成功或以后删除的数据的观察,'_ 智能修复 _'有哪些例子?
这是一个例子:在一些游戏中,白色或黑色胜利的预测接近 1.0(例如 0.98 概率)。所以我所做的是设置一个阈值(例如 0.98),高于该阈值,结果将转换为 1.0。这有助于略微降低整体预测误差,问题在于阈值的选择非常敏感,所以最终我放弃了使用这些技巧。
Jason :您能否回顾一下有关回顾摘要统计量和数据探索的有趣观察结果?
我记得的一件事是,最近几个月的游戏比过去几个月还多。我认为这也解释了需要这种快速下降的时间函数。由于游戏很少,很难得出结论,因此旧游戏并不是很有用。然而,即使是最近的游戏也没有那么多(总数),所以老游戏仍然被证明对预测有用。我认为,这是为什么选择时间加权函数如此困难的另一个原因。
杰森:为什么你在整个参与过程中专注于标准化评级?
因为我主要是在处理概率,而且直觉上我也希望将玩家的等级表示为概率测量(更多内容见下文)。
Jason :您是否记录了您正在考虑或尝试的事情的笔记或日志?
我在单独的文件中保存了每个提交的代码。但是,我有一个单独的参数调整程序,我没有保存它的每个版本。在如此多的提交中(最终 100 多个),有时我不确定我是否已经尝试过某些东西。
我使用的时间加权函数的图,Diogo 的报告中对此进行了解释。
Jason :你的方法只有 100 多行 Python 代码(没有注释),我认为这是令人难以置信的。你能描述一下你的算法(用简单的语言)吗?
基本上,我估计每个玩家 X 的强度作为对公共参考玩家 Z 的预期得分。(这个参考玩家 Z 是抽象实体,它不存在,它的强度不需要计算,其目的只是将所有球员的实力带到可比较的条件下。)
如果我们将每个玩家 X 的结果与参考玩家 Z 进行比较,那么我们将获得玩家 X 的评级,就是这样。但是我们没有 X 对阵 Z 的结果,我们得到的是 X 对阵一组对手的结果,其实力也是未知数。
在我的方法中,我设计了一种方法来根据对手的力量来计算 X 的强度。我们根据 X 的对手的对手以及 X 的对手的对手的反对者来计算 X 的对手的力量,依此类推;它成为一种迭代算法,其中每个玩家的力量必须同时计算并经过多次迭代,直到它最终收敛。
除此之外,我还添加了时间加权功能,以使旧版游戏对结果的影响更小。
Jason :你的方法专注于加权函数,你从哪里开始,它是如何随着时间的推移而改变的?
我开始使用指数函数,然后是正常函数,然后是线性函数等,直到我最终确定了我报告的简单函数和图中(上图)。
Jason :你的方法使用 Bradley-Terry 模型,这个模型是什么,你是如何利用它的?
布拉德利 - 特里模型可能是“配对比较”领域最古老的东西之一(即根据他们之间的比赛估算球员/球队的实力)
这很简单:给定两个玩家 X 和 Y 的强度,一个简单的公式提供一个介于 0 和 1 之间的数字,这可以作为 X 赢得 Y 的“概率”。参见我的报告中的公式(1)。
在我的方法中,我直接使用布拉德利 - 特里公式,在那里我将每个玩家的力量作为赢得虚构参考玩家 Z 的概率,如上所述。
Jason :在做出预测之前,你是如何探索玩家初始评级的收敛的?
收敛很慢,这是我的方法中的主要计算问题。我想进行参数调整,但每次尝试不同的参数值时,我都要等待很长时间才能使整个事物(评级)再次收敛。无论如何,我试图忍受它,因为缺乏更快的方法。
Jason :鉴于玩家预测评分是基于他们的估计评分,您是否花了更多时间探索模型对评分估计或评级预测的影响?
我花了所有时间试图设计一种方法来估计玩家评分,以便在预测游戏结果时达到最低误差。关于球员评分的不确定性,我没有研究任何方面。但是,我倾向于认为 TrueSkill 效果很好,因为它包含了球员评分的不确定性。
杰森:你尝试过哪些想法或策略没有成功?
使用绘图扩展 Bradley-Terry 模型不起作用。尽管阅读了很多关于它(其他作者的工作)并实现它,尽管国际象棋结果受到抽奖的困扰,但使用 Bradley-Terry 模型并结合抽签的可能性对我来说并不适用。我认为这是因为,总而言之,我们所拥有的训练数据对于这一目的来说相对稀缺。
杰森:您在准备私人交叉验证训练/测试数据集时遇到了哪些问题?
我尝试了几个交叉验证数据集,因为我不确定哪一个与实际测试数据最相似,我担心我的参数调整会过拟合到交叉验证数据集并且在实际测试数据。
在某些时候,我记得将参数调整作为 6 个交叉验证数据集的平均值!
Jason :您是否在准备模型时过滤或排除了任何数据,如果没有,您是否考虑排除旧数据?
我试图抛弃过去历史的一半(最老的一半),但对未来游戏的预测并没有好转。
Jason :我读到你使用爬山本地搜索来调整模型参数,你是否手动选择了初始值?
是的,但我经常根据之前的结果选择这些值。
Jason :您是否考虑过其他模型调整方法(全局搜索算法,非线性相互依赖假设,分层搜索)?
不,我没有时间阅读和实现其他优化算法,我只是试图达到(本地)最大值,即使这需要使用最粗糙的方法。
Jason :我发现你回去并获得新的模型参数以获得最终排名第一的得分令人着迷。你为什么这样做(如果模型不能做得更好的话),你是否考虑进一步探讨这个问题(改变交叉验证套件的假设,重新设计模型的进一步改进)?
我之所以这样做,是因为我确信如果我的模型如此接近第一名,那么它可以通过不同的参数选择超越它。但请注意,这个优于第一的结果是过拟合实际的测试数据。我相信其他参与者一旦掌握了完整的测试数据,就能够提高他们的分数。
另一方面,在比赛结束后的电子邮件中, Jeff Sonas 告诉我,最终得分的计算方式实际上存在问题。由于测试数据是如何按玩家月份准备和汇总的,因此一些游戏在公共和私人测试数据之间共享。这可能影响了最终结果(例如,有利于一些过度装配公共测试数据的参与者)
在同一封电子邮件中,杰夫写道,当他从测试数据中拿走共享游戏时,我的方法就达到了第一位。
Jason :您参与国际象棋评级竞赛的一般问题解决方法有哪些变化?
总的来说,我觉得参加这次比赛让我对从数据中分析和得出结论变得更加谨慎。
能够预测未来结果可能是发现人们真正了解数据的最佳方式。将模型拟合到数据并得出结论是相当容易的;但要获得足够的知识来进行准确的预测要困难得多。
对数据中的不确定性(相对于一致性的数量)产生一种感觉并不容易,并且可能需要大量的时间和艰苦的工作。
最后,当人们意识到存在的不确定性时,人们也可以形成对任何预测所固有的不确定性的想法。超越某一点,非常准确的预测只能是纯粹运气的产物。
所以看到其他人有更好的预测并不一定意味着他们有更好的方法(即使它是一个很好的指标)。不知何故,在不确定的情况下,他们碰巧更接近现场。
在本次比赛中,从公共排行榜到最终排名的位置变化显示了不确定性在本次比赛中的作用。当我第一次开始怀疑这个时(甚至在比赛结束之前),我感到很震惊,这就是为什么我对数据做出明确陈述变得更加谨慎。
Jason :对于开始数据竞赛的人,你有什么建议?
我认为不应该在他/她自己的动机中贬低一个人,直到一个人抓住一个完全岌岌可危的感觉,以及数据发生了什么。
当开始参加这样的比赛时,人们可能会看到快速连续的结果,最好不要考虑这些结果,直到他们自己的想法成熟为止。只有当我们做出体面的尝试时,我们才应该开始关注别人正在做的事情。
Jason :鉴于几乎无限的资源(时间,金钱,博士团队),您理想化的数据竞争总体战略或方法是什么? (你将如何善用资源?)
我认为,如果处理器之间的消息传递所需的计算能力明显低于每个节点的实际计算,那么并行计算是值得的。
因此,如果需要始终保持同步,让几个思想(或机器)在同一个问题上一起工作并没有帮助。
我发现真正有用的是思想的交流。因此,当不同的人自己解决同样的问题,并且在他们认真思考了一段时间之后,他们会面交流思想,这往往会为讨论带来新的亮点,并成为突破的源泉。
因此,作为团队努力的策略,我会让每个人都自己工作,一旦他们准备好或需要它们,他们应该会面并交流经验和结果。这些会议可以重复几轮,我期望从一轮到下一轮的结果有一些显着的改进。
杰森:你想做出最后的评论吗?
比赛非常有趣,虽然它的实际兴趣仅限于国际象棋评级,但我觉得我正在努力使用。
考虑到这种竞争可以产生的兴趣,我肯定会花时间对这种竞争的设置方式进行双重和三重检查,以确保每个人投入的所有努力都能带来最大利益。对社区。
- 该竞赛的网站名为“国际象棋评级 - Elo 与世界其他地区”,包括最终的私人排行榜
- 迪奥戈的帖子我做了什么帖子标题为“我是如何做到的:迪奥戈·费雷拉在 Elo 国际象棋评级竞赛中排名第四”。
- 迪奥戈有一个主页他的详细信息和最终提交的页面,包括题为“根据历史数据预测国际象棋游戏结果”和 Python 代码的论文。
- 迪奥戈在里斯本技术大学有一个员工网页,其中包括一份出版物清单