什么情况下使用large training data会非常有效

收集大量的数据可能比算法的优劣更重要

Banko和Brill在2001年做了一个研究，是关于在句子中对易混单词进行识别，画出了上图的右边的那个图，这个图显示了对于不同的算法，它们的表现相似，但是随着training set size的增加，不同的算法的性能都增加。这个说明了一个较劣势的算法，如果它有大量的数据的话，在这个例子中，它的表现会对优秀的算法只有少量的数据要好。了解到这个情况，我们就知道了，在特定的情况下（数据量的提升对改进算法有效），我们应该把精力放在收集大量的数据上，而不是用来选择某个算法。

在业界，有一句话，是"不是有最好算法的人赢了，而是有最多数据的人赢了"，说明了收集大量数据的重要性。

之前我们了解到在有些情况下，收集大量的数据是没有用的（如high bias下，随着数据量的增加，算法性能并不会变好）

那么在什么情况下收集大量的数据是有用的呢？

大量数据有用的前提条件： feature能够给我们的预测提供足够的信息

如何来判断x是否给我们提供了足够的信息(useful test): 提供x的这些信息，去看看如果是这方面的专家（人），能否可以预测出y值。

例如：对于填词的那个例子，提供了X（需要填写的词周转的词），一个英语方面的专家能够正确预测出这里应该填哪个单词吗？-----是可以的，前提条件成立，这个说明大量的数据对我们的算法是有好处的。

对于房子价格预测的例子，提供了X(只是房子的面积)，一个销售房产的专家也不能够正确预测房子的价格，因为不知道其它房子的信息（如所处地区，新旧，房间数等等）-----前提条件不成立，说明我们收集大量的数据是没有用的，因为这个算法处于high bias（features太少）的情况。

大量数据有用的一些讨论

我们使用了一个有很多参数的算法（即features提供了足够的信息），那么这个算法能画出很复杂的曲线，即能很好的拟合我的training data,即J(training)很小；

这时如果我们使用大量的traning set的话，算法就不会过拟合了，这样我们的J(test)与J(training)相近的大小（因过拟合的话，J(test)大J(training)小，它们之间有一段gap），又因为J(training)很小，所以J(test)也很小。=》说明了我们使用大量的数据对于有很多参数的算法来说是有效的。

另一方面说明：算法有很多参数=>low bias;using large training set(unlikely to overfit)=>low variance。我们的目的就是得到low bias与low variance的算法。

总结

拿到一个X（features）,想想如果是一个在这方面的专家，能够根据X来正确预测出Y值吗？=>判断信息是否足够
如果我的算法的parameters足够多(信息足够多)，这时我们增大训练集的数量是非常有效的，能够提高我的算法的性能。

什么情况下使用large training data会非常有效的更多相关文章

阅读笔记 The Impact of Imbalanced Training Data for Convolutional Neural Networks [DegreeProject2015] 数据分析型
The Impact of Imbalanced Training Data for Convolutional Neural Networks Paulina Hensman and David M ...
Oracle主库归档丢失，备库日志有gap，在不重建备库的情况下，恢复备库
本文主要描述Oracle备库日志与主库日志之间有gap,切主库这部分gap的归档日志已经删除或丢失,如何在不重建备库的情况下,恢复备库. 欢迎转载,请注明作者.出处. 作者:张正 blog:http: ...
Introducing DataFrames in Apache Spark for Large Scale Data Science（中英双语）
文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame ...
【DATAGUARD】物理dg在主库丢失归档文件的情况下的恢复(七)
[DATAGUARD]物理dg在主库丢失归档文件的情况下的恢复(七) 一.1 BLOG文档结构图一.2 前言部分一.2.1 导读各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到 ...
论文解读（SR-GNN）《Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data》
论文信息论文标题:Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data论文作者:Qi Zhu, ...
如何在删除ibdata1和ib_logfile的情况下恢复MySQL数据库
昨天,有个朋友对公司内部使用的一个MySQL实例开启binlog,但是在启动的过程中失败了(他也没提,为何会失败),在启动失败后,他删除了ibdata1和ib_logfile,后来,能正常启动了,但所 ...
端口限制情况下php+xdebug环境配置
PHP程序在开发的时候调试是比较方便的,大体情况下,输出,打log是可以解决几乎所有问题. 但是还不够,有些问题,用打log的形式定位问题是相当痛苦的事情,有些时候测试环境没配好的话,你可能需要做许多 ...
【转】Sqlite 混合模式程序集是针对“v2.0.50727”版的运行时生成的，在没有配置其他信息的情况下，无法在 4.0 运行时中加载该...
开发环境: vs2010+.net framework 4.0+ System.Data.SQLite.DLL (2.0)今天在做Sqlite数据库测试,一运行程序在一处方法调用时报出了一个异常混合 ...
DNS分别在什么情况下使用UDP和TCP
DNS同时占用UDP和TCP端口53是公认的,这种单个应用协议同时使用两种传输协议的情况在TCP/IP栈也算是个另类.但很少有人知道DNS分别在什么情况下使用这两种协议. 如果用wiresha ...

随机推荐

eclipse 查看文件在磁盘里的位置
jquery向上滚动页面的写法
jquery向上滚动页面的写法<pre> $('.arrow_top').on('click',function () { $body = (window.opera) ? (docume ...
LeetCode 788. 旋转数字(Rotated Digits) 36
788. 旋转数字 788. Rotated Digits 题目描述我们称一个数 X 为好数, 如果它的每位数字逐个地被旋转 180 度后,我们仍可以得到一个有效的,且和 X 不同的数.要求每位数字 ...
Java开发笔记（一百零八）JSON串的定义和解析
前面提到URL尾巴支持添加请求参数,具体格式形如“参数A名称=A参数值&参数B名称=B参数值”,可是这种格式只能传递简单的键值对信息,不能传递结构化数据,也无法传递数组形式的参数,因而它不适用 ...
15.Python略有小成(内置模块Ⅰ)
Python(内置模块Ⅰ) 一.序列化模块(很重要) 序列化 : 将一种数据结构(,list,dict...),转化成一个特殊的字符串的过程我们现在要解决的问题 : 如果有一种特殊的字符串,这个字符 ...
Harbor 企业级私有仓库 Ubuntu16.04 搭建及使用
一.Harbor简介 1.1.什么是Harbor 几个VMware中国的人搞了一个容器镜像仓库.Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器. 1.2.Harbor架 ...
ActiveX的AssemblyInof.cs文件 IObjectSafety 接口
ActiveX的AssemblyInof.cs文件 IObjectSafety 接口 [Guid("D4176A17-2A33-4903-8F37-9EBDD7CAFFD3"), ...
ubuntu classicmenu-indicator
sudo add-apt-repository ppa:diesch/testing sudo apt-get update sudo apt-get install classicmenu-in ...
jdk安装以及Java环境配置
jdk其实自己大一的时候就已经装过,java环境也配置过,但是随着后面学习的东西越来越多,要安装的软件也越来越多,一开始没有安装路径的概念,好多东西都放的很乱.接着这次自己复习java的机会,于是重新 ...
【开发工具】- Xshell工具的下载和安装
下载地址:https://www.netsarang.com/zh/free-for-home-school/ Xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Micro ...

什么情况下使用large training data会非常有效

什么情况下使用large training data会非常有效的更多相关文章

随机推荐

热门专题