原文: https://machinelearningmastery.com/hello-world-of-applied-machine-learning/
大量的机器学习算法很容易让人不知所措。有很多可供选择,很难知道从哪里开始和尝试什么。
选择可能是瘫痪。
你需要克服这种恐惧并开始。
没有魔法书或课程可以告诉你使用什么算法以及何时使用。事实上,在实践中你不可能事先知道这一点。 你必须通过反复试验来经验地发现它。这意味着犯了一些错误。
在这篇文章中,您将发现一个简单的技巧,可以帮助您开始应用机器学习。
它会激发你的问题,激励你深入学习,它可以帮助你挑选最喜欢的算法或工具,它会加速你的机器学习之旅。
这是一个简单的策略,即使是经验丰富的从业者也会因为它的简单而忽略或忘记它。
你好机器学习世界 摄影: Faris Algosaibi ,保留一些权利
您需要通过各种不同的算法建立信心。
解决机器学习问题的大部分技巧都在于您可以使用的工具以及您自信地使用它们的能力。
这条道路的第一步是打开工具或库并开始应用算法。像学习编程一样,你需要从 hello world 开始。应用机器学习中的问题是加载数据集并运行算法。
只运行算法就是如何建立这种信心。
你应该运行很多算法。运行给定工具或库提供的所有算法。然后尝试另一个库或工具。
您不想选择收藏夹。没有最好的机器学习算法,如果你对所有问题使用一种算法或一类算法,你将严重限制你可以实现的结果。
您会对应用机器学习感兴趣但未针对问题运行算法的人数感到惊讶。
你完成它之后会有多么微不足道的事情,以及你在你面前有多少,你也会感到惊讶。
程序很简单:
- 选择工具。如果您不是程序员,我推荐 Weka ,因为它提供了图形用户界面。如果你是程序员,我推荐 scikit-learn 在 Python 或 R 。
- 选择标准数据集。我推荐来自 UCI 机器学习库的标准数据集,虹膜分类问题是一个经典的 hello world 分类问题。
- 查找或设计秘籍。确定如何使用该工具加载数据集,将其吐入训练和测试数据集,并运行一个算法对该数据集做出预测。如果您使用的是 Weka,您可以按照此秘籍。我也有 R 和 scikit-learn 的秘籍你可以使用。
- 运行秘籍。
- 审查结果。考虑一下您获得的准确率,这意味着什么。是否有关于算法的信息,请考虑这可能意味着什么。
- 重复。尝试不同的算法,不同的算法配置或不同的数据集。运行大量算法。
这很容易。事实上,你应该这样轻松地完成这个程序,并且熟悉所有优秀的机器学习工具和库中的简单问题。
除了选择喜欢的算法之外,另一个问题是选择喜欢的工具或库。
要真正有效,您需要解决问题并使用能够提供更好结果的所有工具。学习如何很好地使用每个工具,但要准备好跳过工具。
您无需了解工具或算法的问题。还没。您正在建立对工具及其提供的信心和熟悉程度。
你应该开始有这样的问题:
- 这个算法是如何工作的?
- 为什么这个算法比这个算法提供更好的结果?
- 所有这些算法参数意味着什么?
应用机器学习有很多东西需要学习,这就是为什么它是一个令人兴奋和激动人心的领域。
希望这个练习能够激励你更深入地学习,并开始研究给定的算法或算法参数来回答其中的一些问题。
不仅要克服选择的瘫痪,建立信心和熟悉这个工具,希望这个练习能够激发你的好奇心。 _ 需要知道 _ 更多可以带你走很长的路,并帮助你推进你以前认为难以穿透的材料。
了解您现在可以随时在演示数据集上运行给定算法的美妙之处在于,您可以将书籍,博客和其他材料翻转回您的工具并尝试您阅读和学习的内容。将想法付诸实践的能力将扩大您的动力并加速您的学习。
有很多工具,几乎和机器学习算法一样多。
我喜欢尝试大多数,只是为了看看他们提供什么以及他们能做些什么。
您可以使用的技巧是在文本文件,Word 文档或程序代码中创建自己的小秘籍或执行计划。如果您以后再回到该工具,这可以让您快速了解问题或算法。
你的好奇心会让你更进一步,你可能想要开始建立一个机器学习算法列表,描述算法甚至在小型研究项目中调查它们。
在这篇文章中,您发现了一个简单的技巧,可以用来克服算法压倒性的问题。诀窍是使用现成的工具和库,跳入并开始将算法应用于小的内存中问题。
这个技巧的美妙之处在于它熟悉了算法和工具,但更重要的是让你对算法,它的行为和参数产生了好奇心。这种好奇心可以激励你更深入地追求更多知识。
这种新发现的熟悉程度也将为您提供一个基础,在您的机器学习过程中遇到它们时尝试并付诸行动,这可以加速您的学习。
选择一个工具并运行第一个算法。
如果你仍然卡住,按照这个循序渐进的教程在 Weka 中运行你的第一个机器学习算法。然后运行更多的算法。
分享您的经验。你选择了哪种工具,你运行了哪种算法,它引发了哪些问题?