Phil Brierley 赢得了遗产健康奖 Kaggle 机器学习竞赛。 Phil 是一名机械工程师,并在他的公司 Tiberius Data Mining 中拥有数据挖掘的背景。这些天他很重视 R,并在另一个数据挖掘博客上留下了博客。
2013 年 10 月,他向 RG 特殊利益集团的墨尔本用户展示了他们。他的演讲题目是“提高预测模型准确率的技术”,您可以在下面观看:
<iframe allowfullscreen="" frameborder="0" height="281" src="http://www.youtube.com/embed/1fIyQL9FiAk?feature=oembed" width="500"></iframe>
如果您想深入了解一个高度务实和有效的机器学习从业者如何解决问题,这是一个很好的演示。我想强调一下我从这个演讲中拿走的三点。
菲尔打开演讲时发表评论说“布丁的证据在吃” - 你只能在尝试之后表明某些事情是成功的。菲尔对这个伟大的理论并不感兴趣,他希望证明一个模型通过查看它的结果而起作用。
他评论说,大多数问题涉及与人类有关的数据,而不是自然法则,这可能使问题变得复杂。他还评论说,他对发明新算法不感兴趣,而是从可用的算法中获得最佳效果。 R 有很多算法,这就是他使用它的原因。
菲尔是合奏的巨大支持者。他在他的 Heratage 健康奖中使用了他们,他用一个简单的足球小费示例展示了他们的力量,甚至使用众包来猜测房间里人的体重作为一个例子。
菲尔评论:不要建立一个伟大的模型,要求 10 个人创建每个模型并平均它们。
菲尔评论说不应该完全抛弃坏模式,但你应该寻找的是模型结果的多样性,你可以重新组合成一个改进的解决方案。通过寻找预测之间缺乏相关性来评估预测的多样性,预测应该最大化。
Phil 评论说可视化是一个重要且未充分利用的工具。他强调了眼球分布属性的实用性,以了解它们是多么明智,并突出数据的问题。他评论说,视觉检查可以帮助您了解统计摘要所不具备的数据中的陌生感。
这是一个很好的谈话,我强烈建议观看它。另请注意 Heratage Health Prize 中多年来对数据校准的深刻见解。