原文: https://machinelearningmastery.com/how-to-load-data-in-python-with-scikit-learn/
在构建机器学习模型之前,需要将数据加载到内存中。
在这篇文章中,您将了解如何使用 scikit-learn 在 Python 中加载机器学习数据。
- 更新 March / 2018 :添加了备用链接以下载数据集,因为原始图像已被删除。
加载 CSV 数据 照片由 Jim Makos 拍摄,保留一些权利
scikit-learn 库与数据集打包在一起。在您自己的工作中使用它们之前,这些数据集对于获取给定的机器学习算法或库功能非常有用。
该秘籍演示了如何加载着名的鸢尾花数据集。
Load the packaged iris flowers dataset Python
# Load the packaged iris flowers dataset
# Iris flower dataset (4x150, reals, multi-label classification)
iris = load_iris()
print(iris)
在本地工作站或远程服务器上将数据集作为 CSV 文件非常常见。
此秘籍向您展示如何从 URL 加载 CSV 文件,在这种情况下来自 UCI 机器学习库的 Pima 印第安人糖尿病分类数据集(更新:从此处下载)。
从准备好的 X 和 y 变量,您可以训练机器学习模型。
Load the Pima Indians diabetes dataset from CSV URL Python
# Load the Pima Indians diabetes dataset from CSV URL
import numpy as np
import urllib
# URL for the Pima Indians Diabetes dataset (UCI Machine Learning Repository)
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
# download the file
raw_data = urllib.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=",")
print(dataset.shape)
# separate the data from the target attributes
X = dataset[:,0:7]
y = dataset[:,8]
在这篇文章中,您发现 scikit-learn 方法附带打包数据集,包括虹膜花数据集。这些数据集可以轻松加载并用于探索和试验不同的机器学习模型。
您还了解了如何使用 scikit-learn 加载 CSV 数据。您学习了一种使用 urllib 库从 Web 打开 CSV 文件的方法,以及如何将该数据作为 NumPy 矩阵读取以用于 scikit-learn。