ubuntu之路——day10.6 如何理解人类表现和超过人类表现

从某种角度来说,已知的人类最佳表现其实可以被当做贝叶斯最优错误,对于医学图像分类可以参见下图中的例子. 那么如何理解超过人类表现,在哪些领域机器已经做到了超越人类呢?…

ubuntu之路——day10.4 什么是人的表现

结合吴恩达老师前面的讲解,可以得出一个结论: 在机器学习的早期阶段,传统的机器学习算法在没有赶超人类能力的时候,很难比较这些经典算法的好坏.也许在不同的数据场景下,不同的ML算法有着不同的表现. 但是在接近人类表现,甚至超越人类表现逼近bayes optimal error的时候,深度学习就展现了其优越的性能和巨大的潜力,同样如果把横轴time换做数据量,其实可以得出一样的结论,因为时间的发展也是数据规模的发展.…

ubuntu之路——day10.7 提高模型的表现

总结一下就是在提升偏差的方面(即贝叶斯最优误差和训练误差的差距) 1.尝试更大更深的网络 2.加入优化算法比如前面提过的momentum.RMSprop.Adam等 3.使用别的神经网络架构比如RNN/CNN等等在提升方差的方面(即训练误差和测试误差的差距) 1.加大训练集的样本数量 2.正则化操作,如L2.dropout.Data Augmentatio数据扩增.early stop等 3.使用别的神经网络架构比如RNN/CNN等等…

ubuntu之路——day10.5 可避免偏差

可避免偏差: 总结一下就是当贝叶斯最优误差接近于训练误差的时候,比如下面的例子B,我们不会说我们的训练误差是8%,我们会说我可避免偏差是0.5%.…

ubuntu之路——day10.3 train/dev/test的划分、大小和指标更新

train/dev/test的划分我们在前面的博文中已经提到了train/dev/test的相关做法.比如不能将dev和test混为一谈.同时要保证数据集的同分布等. 现在在train/dev/test的划分中,我们依然要旧事重提关于same distribution即同分布的概念. 假设我们现在有一种商品来自8个国家,如果我们将四个国家作为train和dev,将另外四个国家作为test,这种做法显然是错的. 因为我们建立的模型的靶点是为了逼近前四个国家的结果,但是在真正测试的时候我们移动了…

ubuntu之路——day10.2单一数字评估指标与满足和优化的评估指标

单一数字评估指标: 我们在平时常用到的模型评估指标是精度(accuracy)和错误率(error rate),错误率是:分类错误的样本数站样本总数的比例,即E=n/m(如果在m个样本中有n个样本分类错误),那么1-a/m就是精度.除此之外,还会有查准率和查全率,下面举例解释. 按照周志华<机器学习>中的例子,以西瓜问题为例. 错误率:有多少比例的西瓜被判断错误: 查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜: 查全率(recall):所有的好西瓜中有多少比例被算法跳了出来…

ubuntu之路——day10.1 ML的整体策略——正交化

orthogonalization 正交化的概念就是指,将你可以调整的参数设置在不同的正交的维度上,调整其中一个参数,不会或几乎不会影响其他维度上的参数变化,这样在机器学习项目中,可以让你更容易更快速地将参数调整到一个比较好的数值. 打个比方,当你开车的时候假设有一个按钮1:0.3angle-0.8speed 还有一个按钮2:2angle+0.9speed 那么理论上来说通过调整这两个按钮,可以得到你想要的角度和速度,但是在实际操作中我们肯定希望角度和速度的控制方式是单独且互不影响的,这就是正交…

Python之路,Day10 - 异步IO\数据库\队列\缓存

Python之路,Day9 - 异步IO\数据库\队列\缓存本节内容 Gevent协程 Select\Poll\Epoll异步IO与事件驱动 Python连接Mysql数据库操作 RabbitMQ队列 Redis\Memcached缓存 Paramiko SSH Twsited网络框架引子到目前为止,我们已经学了网络并发编程的2个套路, 多进程,多线程,这哥俩的优势和劣势都非常的明显,我们一起来回顾下协程协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是…

python之路-Day10

操作系统发展史介绍进程.与线程区别 python GIL全局解释器锁线程语法 join 线程锁之Lock\Rlock\信号量将线程变为守护进程 Event事件 queue队列生产者消费者模型 Queue队列开发一个线程池进程语法进程间通讯进程池操作系统发展史手工操作(无操作系统) 1946年第一台计算机诞生--20世纪50年代中期,还未出现操作系统,计算机工作采用手工操作方式. 手工操作程序员将对应于程序和数据的已穿孔的纸带(或卡片)装入输入机,然后启动输入机把程序和数…

python学习之路-day10

一.什么是线程在传统操作系统中,每个进程有一个地址空间,而且默认就有一个控制线程. 线程顾名思义,就是一条流水线工作的过程,一条流水线必须属于一个车间,一个车间的工作过程是一个进程. 车间负责把资源整合到一起,是一个资源单位,而一个车间内至少有一个流水线. 流水线的工作需要电源,电源就相当于cpu 所以,进程只是用来把资源集中到一起(进程只是一个资源单位,或者说资源集合),而线程才是cpu上的执行单位. 多线程(即多个控制线程)的概念是,在一个进程中存在多个控制线程,多个控制线程共享该进程的…

JavaScript的进阶之路（六）理解函数

函数:定义一次,多次调用:用于对象的属性则称为对象的方法:在JavaScript中,函数即对象:嵌套的函数形成闭包: 定义函数和简单调用函数: //函数定义 function f1(){ //没有参数的函数 return true; } function f2(x,y){//有参数的函数 return x+y; } var f3=new Function("x","y","return x+y"); //new方法定义函数 var f4 = fu…

ubuntu之路——day17.1 用np.pad做padding

网上对np.pad的解释很玄乎,举的例子也不够直观,看了更晕了,对于CNN的填充请参考下面就够用了: np.pad的参数依次是目标数组,多增加的维数可以理解为一张图的前后左右增加几圈,设置为'constant'之后为连续填充相同的值,默认为(0, 0),可以设置为constant_values = (x, y)…

ubuntu之路——day11.7 end-to-end deep learning

在传统的数据处理系统或学习系统中,有一些工作需要多个步骤进行,但是端到端的学习就是用一个神经网络来代替中间所有的过程. 举个例子,在语音识别中: X(Audio)----------MFCC---------->features----------ML---------->phonemes--------->words-------------->Y(transcript) 首先输入音频,使用MFCC提取低层次特征,使用机器学习的方法得到音位(声音最小划分),转化为单词,最后形成文…

ubuntu之路——day11.4 定位数据不匹配与人工合成数据

1.人工检验train和dev/test之间的区别: 比如:汽车语音识别中的噪音.地名难以识别等等 2.使得你的训练集更靠近(相似于)dev/test,收集更多类似于dev的数据: 比如:dev中存在很多噪音,可以模拟噪音数据:或者地名难以识别,可以收集更多地名的语音数据. 注意:目前没有系统化解决数据不匹配的方案,通过以上方法也不能完全保证解决问题,但是通常情况下上述方法可以解决问题.——Andrew Ng 方案:人工合成数据这只是一种简单的合成,也可以加入混响等各种技术手段,但是这种人工数…

ubuntu之路——day5(今天看了浅层神经网络的数学推导过程)

1.初始化 2.前向传播导数比较好理解 3.反向传播全符号积分的推导看得我头有点晕最后唤起我依稀的线代回忆感谢吴恩达老师的反向传播讲解,第一遍看的有点晕,然后仔细看了一下又找了个B站的推导就懂了: 吴恩达老师原讲解:https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702020&cid=2001693027 B站小姐姐的推导:https://www…

ubuntu之路——day1(一点十五分 MMP终于把显卡装好了)

因为要上手深度学习的原因,购置了一台RTX2080TI+ubuntu18.04的机器例行两条命令 sudo apt-get update sudo apt-get upgrade 开启巨坑第一天,以前只在虚拟机上用过ubuntu,今天开箱之后因为用户名和主机名的问题我重装了ubuntu,问题一,参考了网上各种创建用户和主机并删除以前用户组的方法,改了好多系统文件结果gg,卡黑屏,没办法只能重装. 重装后遇见的问题二,nvidia驱动问题,因为N卡厂商的闭源行为和linux闹得不是很愉快,因此以…

ql的python学习之路-day10

前言:本节主要讲解迭代器和生成器迭代器&生成器一.生成器(generator) 循环占用大部分的容量内存,如果只需要循环前面的几个结果那怎么样做呢,在python中有一种一边循环一边计算的机制,称为生成器:generator,就能解决这个问题. 生成器只有在调用的时候才会产生相应的数据,用__next()__方法调用(2.7版本里是next()),生成器只能记录当前的位置,不能后退也不能记录以后的数据. 实例:斐波那契数列中的生成器 #!/usr/bin/env python # -*- c…

Python之路Day10

本节主要内容:memcache&redis.RabbitMQ.twisted框架 1. memcache&redis 1.1 memcache Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度.Memcached基于一个存储键/值对的hashmap.其守护进程(daemon )是用C写的,但是客户端可以用任何语言来编写,并通过memcached协议与守护进程通…

Spring学习之路二——概念上理解Spring

一.概念. Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来.它是为了解决企业应用开发的复杂性而创建的.Spring使用基本的JavaBean来完成以前只可能由EJB完成的事情.然而,Spring的用途不仅限于服务器端的开发.从简单性.可测试性和松耦合的角度而言,任何Java应用都可以从Spring…