原文: https://machinelearningmastery.com/work-on-machine-learning-problems-that-matter-to-you/
自学机器学习时很难保持动力。
标准测试数据集可能非常钝,与您和日常生活脱节。无聊甚至。您可能想要使用的技巧是查找和处理对您而言重要的数据集。
在这篇文章中,我们将介绍一些数据集的想法,您可以用它们来激励甚至加速您应用机器学习的过程。
我们之前已经考虑过需要解决有影响的问题。影响最大的问题是结果直接影响您的问题。
这些可能是与您的个人生活,爱好甚至工作有关的问题。它们是现在可能会或可能不会解决的问题。只要您以某种方式对结果进行投资,问题的大小和范围就无关紧要了。结果对你很重要。
这是一种强大的方法,原因有两个:
- 它允许您客观地对待问题,并将理性的解决问题的技巧应用于此,这可能会产生一些有趣的结果。
- 关注结果更有可能激励您学习新的和不同的方法,深入研究问题的定义并撰写您的发现。因为您关心结果,所以您将更认真地对待项目。
你不能选择任何旧问题。还有一些额外的考虑因素:
- 数据:机器学习算法模拟数据问题,建模质量通常与数据质量成正比。您需要能够访问并能够收集问题的数据。
- 公众:数据和/或结果可以公开吗?如果您想将项目用作机器学习组合的一部分,这对您来说很重要,我强烈建议您这样做。
- 问题:从一个问题开始,确保有问题需要解决。该问题将阐明您需要收集的数据以及答案对您的影响。
在接下来的部分中,我们将看看您生活中的三个方面,您可能会发现可以通过机器学习进行调查的问题。
您的个人生活中是否存在可以使用机器学习方法建模的问题和数据来源?
跟踪和建模您自己的健身。 摄影: Phil Gradwell ,保留一些权利。
我想到的五个例子是:
- 个人理财:您可以为个人理财的某些方面建模。这可能类似于每周支出预测或大量购买预测。如果这是你的事情,它也可能与你的投资组合有关。
- 运输:您可以为个人交通工具的某些方面建模。这可能是您在某一天通勤的训练或公共汽车,通勤时间或工作到达时间预测或燃料消耗等细节。
- 食物:你可以对你消费的食物进行建模。这可能是数量,卡路里,零食预测或您在给定的一周内需要购买的模型。
- 媒体:您可以为媒体消费建模,例如电视,电影,书籍,音乐或网站。一种显而易见的方法是将其建模为推荐问题,还要考虑消费量模型,例如消费时消耗的量以及您可以预测的其他相关模式。
- 健身:你可以模拟个人健身的某些方面。这可能是体重,BMI,身体测量或耐力方面,如仰卧起坐次数或完成日常工作的时间。如何建模你是否会在某一天去健身房(输入是什么?)。
请记住,您必须能够访问数据,这很可能意味着您必须花一些时间来测量和收集数据。
你有机器学习以外的爱好吗?考虑一下您可以收集与您的爱好相关的模型数据。
将机器学习应用到您的爱好中。 照片由你作为一台机器,保留一些权利。
您可能拥有或想要建模的五个爱好示例包括:
- 体育:你可以模拟球队或联赛的表现。你可能会进入幻想运动队,并有兴趣模拟个人球员的表现。体育结果也有赌博方面可能引起你的兴趣(小心)。也许你有一个孩子或家庭成员在几周内参加体育运动可能会提供一个问题,并且数据来源与你有更多联系。
- 游戏:你可以模拟你玩游戏的一个方面。这可能是桌面游戏,纸牌游戏或电脑游戏。您可以模拟和预测赢/输结果,特定结果分数或游戏中的特定动作。
- 艺术/工艺品:也许你是一个业余艺术家或工艺品人,并将你的照片发布到你的作品的公共社交相册。您可以建模并预测您发布的特定照片是第三方喜欢还是感兴趣(以视图或评论的形式)。类似的方法可以与对照组(家庭成员?)以及可能需要主观评估兴趣或质量(绘画,音乐,纸质等)的各种其他艺术形式一起使用。
- 语言:您可以对您或朋友或家人正在学习的语言的某些方面进行建模。如果正在使用闪存卡,您可能会遇到一个有趣的问题,即建模是否会记住给定卡的内容。您还可以模拟语言学习的其他方面,例如获得的新作品的比率和错误的频率。收集数据可能是一个有趣的挑战。
- 摄影:也许你是一个鸟类观察者,自然爱好者,或者有其他理由拍摄各种各样的自然。您可以模拟将叶/鸟/动物的照片分类到其组中的问题。您还可以模拟给定照片是否包含感兴趣对象的问题,例如您的宠物狗或您自己的脸。
倾向于拥有数据集的爱好,您可以随时使用和模型化。
您是否可以访问工作中的数据或您工作的内容?这可能是您的博客或其他在线内容,也可能是您的工作创建或发布的数据或与之相关的数据。
在工作中应用机器学习。 照片来自 BiblioArchives / LibraryArchives ,保留一些权利。
- 访客:您能否对访问您网站的内容进行建模(这可能是您自己的博客或网站属性)。也许是访问者的人口统计特征,例如平台,浏览器等,或者可能是基于发布内容的访问者来源或页面浏览量。
- 客户:与访客一样,他们的客户属性可以建模吗?这可能是购买量,购物车内容,购买时间或类似的人口统计量。我喜欢这个领域,因为它可以清除许多关于被认为是理所当然的业务的新知识(支持数据)。
- 转换:它们的转换质量是否可以建模?这可能是转换的方面,例如时间或客户人口统计。它可能是对转换链的预测,例如试用,付费,向上销售。
- 流失:对于服务行业而言,流失是非常重要的事情,很可能已经建模。是否有某种形式的流失未被建模?也许从审判中流失。从电子邮件列表或 RSS 订阅中流失?
- 专有数据:您组织创建或有权访问的一些独特或有趣的数据。对于可能值得建模的数据,您可以提出哪些问题。例如,气象数据,制造数据,采矿数据等。
请注意隐私问题和数据所有权。在访问数据之前,您可能需要获得许可,并且必须将结果保密或组织内部。
我希望你发现这很有用,或者想到一个你可以调查的问题,这会让你更深入地了解应用机器学习。
如果是这样,请发表评论,我很想听听你的想法。