机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集

 

选自Microsoft www.tz365.Cn

作者:Lee Scott

机器之心编译

参与:李亚洲、吴攀、杜夏德

  

要学习怎么使用微软 Azure 机器学习,最重要的是获取样本数据集和进行实验。

在微软,我们有大量的样本数据集可用。这些数据集已经在 Azure Cortana Intelligence Gallery 中的样本模型中得到了应用。

其中一些数据集可以通过 Azure Blob 存储获取,所以可以直接链接到 Azure 机器学习实验;而其它的数据集则是以 CSV 格式提供的。下面列出的这些数据集都将提供直接的链接。你可以通过 Import Data 模型在你的实验中使用这些数据。

这些数据中的剩下数据集都列在模块(module)面板中的 Saved Datasets 下;当你在 ML Studio 中打开或创建一个新实验时,你能在实验画布(experiment canvas)的左边看到它们。你可以直接将这些数据集拖拽到实验画布而将它们应用到你自己的实验中。

以下列出了一些可以免费使用的数据集:

成年人收入普查二分类数据集

一个 1994 年的普查数据库的子数据集,使用了 16 岁以上的工作年龄的成年人的数据,其带有一个经调整之后大于 100 的收入指数。

用途:使用人口学信息对人进行分类,以预测一个人年收入是否超过 5 万美元

相关研究:Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院

机场代码数据集(Airport Codes Dataset) 滕州生活网(TZ365.cn)

美国机场代码 copyright tz365.cn

这个数据集包含每个美国机场,提供了机场 ID 编号和名字,以及机场所在的城市和州。

汽车价格数据(Automobile price data,原始数据)

按厂家和车型分类的汽车信息,其中包括价格、气缸数量和 MPG 等特征,以及保险风险评分(insurance risk score)。

这个风险评分最初是与汽车价格关联的,后来根据实际风险在一个被精算师称为符号化(symboling)的过程中进行了调整。+3 的值表示该汽车是有风险的,而 -3 的值则表示它可能是相当安全的。

用途:使用回归或多变量分类,根据特征预测风险评分。

相关研究:Schlimmer, J.C. (1987). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院

自行车租赁 UCI 数据集(Bike Rental UCI dataset)

UCI 自行车租赁数据集基于来自 Capital Bikeshare 公司的真实数据,该公司在华盛顿特区运营着一个自行车租赁网络。

该数据集包含 2011 年和 2012 年每一天和每一小时的数据,总共有 17379 行。每小时租赁自行车数量的范围在 1 到 977 之间。

Bill Gates RGB Image

已转换成 CSV 数据的公开可用的图像文件。

用于转换该图像的代码提供在使用 K-均值聚类模型的颜色量化(Color quantization using K-Means clustering model)的详情页面。

献血数据(Blood donation data)

一个来自台湾新竹市输血服务中心献血数据库的一个子数据集。

献血者数据包括献血频率、总献血次数、自上次献血以来的时间和献血量。

用途:目标是通过分类预测献血者是否在 2007 年 3 月献血,其中 1 表示目标区间内的一个献血者,0 表示没有献血者。

相关研究:Yeh, I.C., (2008). UCI Machine Learning Repository , CA: 加州大学信息与计算机科学学院 滕州生活网(TZ365.cn)

亚马逊网站的书评

由宾夕法尼亚大学研究者采集(地址:

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)。-参见论文《Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification》,来自 John Blitzer, Mark Dredze, and Fernando Pereira; 计算语言学协会 (ACL), 2007-www.Tz365.cn

原来的数据集包含 97.5 万条包含 1、2、3、4、5 评分的书评。这些书评都是用英语写的,截取自 1997-2007 年这个时间段。这个数据集已经被下采样成了 1 万条书评。

乳腺癌数据(Breast cancer data)

由 Oncology Institute 提供的三个与癌症相关的数据集中的一个,其常常出现在机器学习文献中。结合了来自对大约 300 种组织样本的实验室分析的特征的诊断信息。

用途:基于 9 种属性分类癌症类型,其中一些是线性的,一些是按类别划分的。

相关研究:Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository, CA: 加州大学信息与计算机科学学院

乳腺癌特征(Breast Cancer Features)

这个数据集包含了来自 X 射线图像的 10.2 万个可疑区域(候选项)的信息,其中每个区域都用 117 个特征进行了描述。这些特征是专有的,而且它们的含义没有被该数据集的创造者(Siemens Healthcare)揭示出来。

乳腺癌信息(Breast Cancer Info) 滕州生活网(TZ365.cn)

这个数据集包含了来自 X 射线图像的可疑区域的额外信息。每个样本都提供了对应 Breast Cancer Features 数据集行数的信息(如,标签、病人 ID、图像块相对于整张图像的坐标)。每个病人都有很多样本。对于患癌的病人来说,一些样本是积极的,一些样本是消极的。该样本有 10.2 万个样本。这个数据集有偏置的,其中只有 0.6% 的点是积极的,其余都是消极的。该数据集由 Siemens Healthcare 提供。 copyright tz365.cn

CRM Appetency Labels Shared www.tz365.Cn

来自 KDD Cup 2009 客户关系预测挑战赛的标签:

http://www.sigkdd.org/site/2009/files/orange_small_train_appetency.labels copyright tz365.cn

CRM Churn Labels Shared

来自 KDD Cup 2009 客户关系预测挑战赛的标签:

http://www.sigkdd.org/site/2009/files/orange_small_train_churn.labels

CRM Dataset Shared

来自 KDD Cup 2009 客户关系预测挑战赛的数据:http://www.sigkdd.org/kdd-cup-2009-customer-relationship-prediction%20-%20orange_small_train.data.zip 滕州生活网www.tz365.CN

该数据集包含来自法国电信公司 Orange 的 5 万个客户。其中每个客户有 230 个匿名的特征,其中 190 个数值特征和 40 个类别特征。这些特征是非常稀疏的。

CRM Upselling Labels Shared

来自 KDD Cup 2009 客户关系预测挑战赛的标签:

http://www.sigkdd.org/site/2009/files/orange_large_train_upselling.labels

能效回归数据(Energy Efficiency Regression data)

基于 12 种不同的建筑外形收集的模拟能量分布。这些建筑按照 8 个特征进行了区分,比如:玻璃窗面积、玻璃窗面积分布和取向。

用途:使用回归(regression)或分类(classification)来预测能效等级,其给出的两种响应是有实际价值的。对于多类别分类,响应变量被取舍到了最接近的整数。

相关研究:Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository Irvine, CA:加州大学信息与计算机科学学院

航班延误数据 www.tz365.Cn

来自美国交通部收集的 TranStats 数据集中的乘客航班正常率数据。该数据集覆盖 2013 年 4 月到 10 月的统计,在上传到 Azure ML Studio 之前,该数据集处理如下:

  • 该数据集经过过滤只覆盖美国本土的 70 个最繁忙的机场

  • 废除了标记显示延误超过 15 分钟的航班 copyright tz365.cn

  • 转航班数据也被消除

  • 选择使用数据目录如下:Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled

美国 2011 年 10 月飞机到达与离开的记录数据

用途:预测航班延误

相关研究:来自美国交通部的 http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.www.tz365.Cn

森林火灾数据

该数据集包含来自葡萄牙东北部的天气数据,比如温度、湿度指数和风速,结合与森林火灾的记录。

用途:这是一项很难的回归任务,目的是预测森林火灾焚烧的地区。 滕州生活网(TZ365.cn)

相关研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and copyright tz365.cn

Computer Science

[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 – Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 地址:http://www.dsi.uminho.pt/~pcortez/fires.pdf. www.tz365.Cn

德国信用卡 UCI 数据集

UCI Statlog(德国信用卡)数据集(Statlog+German+Credit+Data))使用了 german.data 文件。

该数据集通过一系列的属性进行表述,根据人进行分类,每个样本表示一个人。此数据集中有 20 个特征,都是数字和类别,以及二元标签(信用风险值)。高信用风险标记为 2,低信用风险标记为 1。将低风险样本误分类为高风险的成本是 1,反之误分类高风险的成本是 5。

IMDB 电影

该数据集包含 Twitter 上评估的有关电影的信息:IMDB 电影 ID、电影名和流派、生产年。该数据集中有 17K 的电影。

鸢尾花两级数据

在模式识别文献中,它可能是最知名的数据集。该数据集相对较小,包含来自三个鸢尾属植物分类的每种花瓣测量的 50 个样本。

用途:从测量中预测 iris 的类别。

相关研究:Fisher, R.A. (1988). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science copyright tz365.cn

电影 Tweets

该数据集是 Movie Tweeting 数据集的扩展版本,此数据集有 170K 的电影评估信息,从结构较好的 tweets 中提取。每个示例代表一条 tweet,数据元组:用户、IMDB 电影 ID、评估等级、时间标记、该 tweet 的点赞人数、转推人数。该数据集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。

汽车MPG数据

该数据集是由卡耐基梅陇大学 StatLib 库提供的数据集的修正版本,此数据集曾被 1983 年 American Statistical Association Exposition 使用。

该数据列出了每加仑汽油各种类型机动车的消耗情况,同时也包含气缸个数、引擎排放量、马力、总重量和加速这样的信息。

通途:基于 3 个多值离散属性和 5 个连续属性预测节约燃油。

相关研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science 滕州生活网www.tz365.CN

Pima 印第安人糖尿病二进制分类数据集 www.Tz365.cn

来自 National Institute of Diabetes and Digestive and Kidney Diseases 数据集的一个子集。该数据集经过过滤只关注 Pima Indian 遗传的女性病人。数据包括血糖、胰岛素水平、生活方式这样的医疗数据。

用途:预测该主体是否有糖尿病(二分类)

相关研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science

餐馆消费者数据集

一系列关于消费者的元数据,包括人口统计学和喜好。 滕州生活网(TZ365.cn)

用途:使用该数据集,结合其他两个餐饮数据集,可训练并测试推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

Restaurant feature data copyright tz365.cn

一堆关于餐馆和餐馆特征的元数据,比如食物类型、餐厅风格、位置。 www.Tz365.cn

用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science. 滕州生活网www.tz365.CN

餐馆评分数据集 滕州生活网www.tz365.CN

包含用户给出的对餐馆的评价,等级从 0 到 2 划分。

用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

钢退火多级数据集(Steel Annealing multi-class)

该数据集包含一系列来自钢材退火实验的记录,数据包含测试钢材类型的物理属性(宽度、厚度、类型(线圈、薄片等))。 滕州生活网(TZ365.cn)

用途:预测任何二数类属性:硬度或强度,也可用于分析属性间的关联。钢材等级划分遵循一定标准,由 SAE 和其他组织定义。你可以寻求特定的等级,并了解所需要的值。 www.tz365.Cn

相关研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science

望远镜数据集

高能量伽马粒子爆发的记录,也带有背景噪声,都使用 Monte Carlo 处理方法模拟。 滕州生活网(TZ365.cn)

模拟的目的是改进地表大气 Cherenkov 射线望远镜的准确率,使用统计方法微分想要信号(Cherenkov radiation showers)和背景噪声。

该数据已经过了预处理,以创建一个以指向相机中心方向为长轴的延长的聚类(elongated cluster)。这个椭圆的特征(通常被称为 Hillas 参数)是可以用于判别(discrimination)的图像参数中的一部分。

用途:预测 shower 表征信号或背景噪声的天气图像。

注意:简单分类准确率对此数据意义不大,因为将背景时间分类为信号要比将信号分类为背景更糟糕。该数据可用来对比 ROC 图应该使用的不同分类器。同时也要注意背景事件(h 代表 hadronic showers)的数量是被低估的,在真实测量中,h 或噪声类代表主要事件。

相关研究: Bock, R.K. (1995). UCI Machine Learning Repository Irvine, CA: University of California, School of Information

天气数据集 www.tz365.Cn

来自 NOAA 的每小时地面天气观测(融合了从 2013 年 4 月到 2013 年 10 月的数据)

这份天气 数据包括了机场天气预报站的观测数据,时间从 2013 年 4 月到 10 月。 copyright tz365.cn

在上传 Azure ML Studio 之前,数据集要做如下处理:

  • 气象站 ID 要映射到对应的机场 ID 上。

  • 与忙碌的 70 家机场无关的气象站需要过滤掉 www.tz365.Cn

  • 日期按年、月、和天分为单独的列

  • 需要选择的列包括:机场 ID、年、月、日、时间、时区、天空状况(skycondition)、能见度、天气类型、干球华氏温度(DryBulbFarenheit)、干球摄氏温度(DryBulbCelsius)、湿球华氏温度(WetBulbFarenheit)、湿球摄氏温度(WetBulbCelsius)、露点华氏温度(DewPointFarenheit)、露点摄氏温度(DewPointCelsius)、相对湿度、风速、风向、ValueForWindCharacter、本站气压(StationPressure)、气压趋向(PressureTendency)、气压变化(PressureChange)、 海平面气压(SeaLevelPressure)、 记录类型(RecordType)、每小时降雨量(HourlyPrecip)、(高度计)Altimeter

维基百科标准普尔 500 指数数据集(Wikipedia SP 500 Dataset)

源自维基百科的基于标准普尔 500 指数中每家公司的文章的数据,以 XML 格式存储。

在将该数据集上传到 Azure ML Studio 之前,需要进行以下处理:

  • 提取每家特定公司的文本内容

  • 移除 wiki 格式

  • 移除非字母数字的字符

  • 将所有文本转换成小写

  • 已知公司类别已被加入 www.tz365.Cn

注意有些公司没有找到文章,所以该记录的数量小于 500.

可以 CSV 格式下载的数据集

direct_marketing.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/direct_marketing.csv)

这个数据集包含了关于一项直接邮寄活动的客户数据和关于他们的响应的指示。其中每一行代表一个客户。该数据集包含关于用户人口学信息和过去行为的 9 项特征,以及 3 个标签列(访问、转化和支出)。访问(visit)是一个二元行,表示了每次营销活动后客户的访问;转化(conversion)表示客户购买了一些东西;支出(spend)是指花费了多少钱。该数据集由 Kevin Hillstrom 为 MineThatData 电子邮件分析和数据挖掘挑战赛(MineThatData E-Mail Analytics And Data Mining Challenge)提供。

lyrl2004_tokens_test.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_test.csv)

RCV1-V2 Reuters 新闻数据集中的测试样本的特征。该数据集有 78.1 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。 滕州生活网(TZ365.cn)

lyrl2004_tokens_train.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_train.csv)

RCV1-V2 Reuters 新闻数据集中的训练样本的特征。该数据集有 2.3 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。

来自 KDD Cup 1999 知识发现和数据挖掘工具竞赛(KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition)的数据集。

该数据集可在 Azure Blob 下载: copyright tz365.cn

https://azuremlsampleexperiments.blob.core.windows.net/datasets/network_intrusion_detection.csv,其中包含了训练和测试数据集。训练数据集有大约 12.6 万行和 43 列,其中包含标签;3 列标签性质信息和 40 列数值与字符串/类别特征信息,都可用于训练该模型。测试数据集有大约 2.25 万个测试样本,和训练数据一样有 43 列。

rcv1-v2.topics.qrels.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/rcv1-v2.topics.qrels.csv) 滕州生活网www.tz365.CN

在 RCV1-V2 新闻数据集中的新闻主题分配。一篇新闻可被分为多个主题。每一行的的格式是 1。该数据集包含 260 万个主题分配,由 David. D. Lewis 共享。

student_performance.txt www.Tz365.cn

这个数据集来自 KDD Cup 2010 学生表现评估挑战赛(student performance evaluation)。这个数据集已被 Algebra_2008_2009 训练集采用(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010)) 滕州生活网(TZ365.cn)

在 KDD Cup 2010 教育数据挖掘挑战赛中的 Algebra I 2008-2009 数据集可以在该竞赛的网站中下载:http://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp。 www.Tz365.cn

该数据集也可以在 Azure Blob 下载: www.Tz365.cn

https://azuremlsampleexperiments.blob.core.windows.net/datasets/student_performance.txt,其中的数据来自于学生辅导系统。其中提供了问题 ID 和简要描述,学生 ID,时间标记,同时还有学生在正确解决问题前的尝试次数。原数据集存储了 890 万条记录,这个数据集减少了取样数量,容量缩小至前 10 万行数据。这份数据每一条目有 23 个不同类型的分项,包括数值、类别和时间戳。 滕州生

机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集的更多相关文章

  1. 机器学习:R语言中如何使用最小二乘法

    详细内容见上一篇文章:http://www.cnblogs.com/lc1217/p/6514734.html 这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下:(数据同 ...

  2. 网络安全中机器学习大合集 Awesome

    网络安全中机器学习大合集 from:https://github.com/jivoi/awesome-ml-for-cybersecurity/blob/master/README_ch.md#-da ...

  3. 针对于网络安全领域中基于PCAP流量的数据集

    网络安全领域中基于PCAP流量的数据集 MAWI Working Group Traffic Archive URL:http://mawi.wide.ad.jp/mawi/ CIC dataset ...

  4. 机器学习实战:用nodejs实现人脸识别

    机器学习实战:用nodejs实现人脸识别   在本文中,我将向你展示如何使用face-recognition.js执行可靠的人脸检测和识别 . 我曾经试图找一个能够精确识别人脸的Node.js库,但是 ...

  5. SIGAI机器学习第三集 数学知识-2

    讲授机器学习相关的高等数学.线性代数.概率论知识 大纲: 最优化中的基本概念梯度下降法牛顿法坐标下降法数值优化算法面临的问题拉格朗日乘数法凸优化问题凸集凸函数凸优化拉格朗日对偶KKT条件 最优化中的基 ...

  6. SIGAI机器学习第六集 决策树

    讲授决策树的基本概念,分类与回归树的原理,决策树的表示能力,决策树的训练算法,寻找最佳分裂的原理,叶子节点值的标记,属性缺失与替 代分裂,决策树的剪枝算法,决策树应用. 非常直观和易于理解的机器学习算 ...

  7. 手把手教你集成华为机器学习服务(ML Kit)人脸检测功能

    当给自己拍一张美美的自拍照时,却发现照片中自己的脸不够瘦.眼睛不够大.表情不够丰富可爱-如果此时能够一键美颜瘦脸并且添加可爱的贴纸的话,是不是很棒? 当家里的小孩观看iPad屏幕时间过长或者眼睛离屏幕 ...

  8. R语言中的机器学习包

    R语言中的机器学习包   Machine Learning & Statistical Learning (机器学习 & 统计学习)  网址:http://cran.r-project ...

  9. 我的前端工具集(八)获得html元素在页面中的位置

    我的前端工具集(八)获得html元素在页面中的位置   liuyuhang原创,未经允许禁止转载 目录 我的前端工具集 有时候需要用点击等操作,来获取某元素在页面中的位置,然后在该位置添加某些操作 如 ...

随机推荐

  1. Tronado

    Tornado 是 FriendFeed 使用的可扩展的非阻塞式 web 服务器及其相关工具的开源版本.这个 Web 框架看起来有些像web.py 或者 Google 的 webapp,不过为了能有效 ...

  2. mace

    作者:十岁的小男孩 QQ:929994365 心之安处即是吾乡. 本文主要的方向是终端移植.其主要又分两个小方向,理论和实践,即模型优化和模型移植.下文为前期写的,较为潦草,现在基本框架思路已经搭起来 ...

  3. cf796d 树,bfs好题!

    绝对是好题,把所有警察局放入队列然后开始广搜,如果碰到了vis过的顶点,但是那条边没有访问过,那么这条边就可以删掉 另外广搜的vis标记是在入队时就打的,, #include<bits/stdc ...

  4. Android Monkey压力测试环境搭建及使用

    Android Monkey压力测试学习笔记 步骤:下载SDK -> 解压进入SDK Manager下载系统 -> 配置环境变量 -> 创建虚拟设备或连接真机 -> 进入命令模 ...

  5. jquery数组(sort() 排序)

    HTML: <h3>字符串数组排序前</h3> <div id="show5"></div> <h3>排序后</h ...

  6. Frosh Week HDU3743(逆序数)

    离散化加 求逆序数: 求逆序数的方法 一个是归并排序  一个是树状数组 #include<bits/stdc++.h> using namespace std; int n; struct ...

  7. T9 HDU1298

    就是字典树加dfs 把所有操作封在结构体里面 #include <cstdio> #include <cstring> #include <algorithm> # ...

  8. CSS 3. 文本|字体|背景|定位

    1.文本属性和字体属性 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...

  9. drupal笔记

    $app_root :网站根目录 安装 汉化:1将汉化包放置drupal8\sites\default\files\translations下安装:2极简版的话需要在extend(扩展)中安装Inte ...

  10. go语言爬虫 - TapTap用户都喜欢些什么游戏

    前面的废话 说到爬虫,首先想到的当然是python~ 它在机器学习.爬虫数据分析领域可谓是如日中天,十分热门.但我最近在学习go语言,所以就用go写了 TapTap社区 这是一个高品质的游戏分享社区, ...