机器学习数据集

前言

数据集算是比较重要的学习资料了吧,在这里汇总一些好用的数据集以便使用,
关于一些内容可以参考一下知乎的提问

UCI常用数据集

UCI 一个不错的数据集下载网站
此处介绍几个点击;想比较高的数据集,后面有下载和存储的代码以及有关问题的说明.

使用方式

点击官方网站,你可以看到以下内容
UCI官网截图
可以看到右边有两个排行榜,最右边的是历史点击率的排行榜,位于该榜左边的也就是网页中间的是最新捐赠的数据集排行.我上传的截图与实际内容不同的地方在于,官网是英文.

点击数据集链接,比如鸢尾花数据集,之后你看到的将是:
UCI 鸢尾花数据集
谷歌翻译不怎么好使….把鸢尾花翻译为了虹膜…点进去之后你会看到相应的内容,比如数据及特点-多元,实例数量-150,相关任务-分类,属性数量-4等,在页面下面还有更详细的内容.

下载目录则在上面 的截图的 “下载:数据集文件夹”,点进去就好

关于下载

关于下载的话,建议不直接下载,而是使用以下代码下载:

def ReadAndSaveDataByPandas(target_url = None,save=False):
    wine = pd.read_csv(target_url, header=0, sep=";")
    if save == True:
        wine.to_csv("/home/fonttian/Data/UCI/Glass/glass.csv", index=False)

target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data" # 一个玻璃的多分类的数据集
ReadAndSaveDataByPandas(target_url,True)   

注意:使用pandas下载数据集主要优点在于,格式会好一些,最起码比直接用代码下载或者直接浏览器下载少了很多数据清洗工作,但是有时候下载的数据,每一行都会被”“包括,导致一些识别的问题,excel打开的话会有点麻烦,所以最好不要觉得pandas下载之后就完全不需要处理数据格式问题了,最好还是打开看看

一些数据源

# target_url = ("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv") # 红酒质量数据集,回归(也可以多分类)
target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data" # 玻璃种类数据集-多分类
# target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data" # 鲍鱼数据集-回归(多分类)

'''
http://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data # 汽车-多分类-来源于决策模型
http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data # 红酒数据集-三种红酒的起源分类数据集
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data # 鸢尾花数据集-分类问题
http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data # 人口收入普查数据集-多分类(可转换->回归数据集)
http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data # 威斯康星州乳腺癌诊断数据库-分类
上一个数据集最好注意描述-http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
http://archive.ics.uci.edu/ml/machine-learning-databases/00265/CASP.csv # 蛋白质理化性质-回归问题
上一个数据集最好注意描述-http://archive.ics.uci.edu/ml/datasets/Physicochemical+Properties+of+Protein+Tertiary+Structure
'''

更多的数据集,请点击这里:UCI全部数据集查询目录

sklearn中的数据集

参考页面:apachecn文档地址
几个比较常用的数据集,直接参考文档即可.
比如:鸢尾花(分类),威斯康星洲乳腺癌数据集(分类),波士顿房价(回归),糖尿病人(回归)等等…

原文地址:https://www.cnblogs.com/fonttian/p/8480713.html