CH4 带有约束条件的最小二乘法 重点提炼 提出带有约束条件的最小二乘学习法的缘故:   左图中可见:一般的最小二乘学习法有个缺点----对于包含噪声的学习过程经常会过拟合 右图:有了空间约束之后,学习到的曲线能避免过拟合,得到想要的学习结果(x-y关系). 带有约束条件的最小二乘学习法具体方法 1.部分空间约束的最小二乘学习法 ① 公式 在上面普通最小二乘学习法公式基础上添加一个约束条件:  ② 对线性模型进行带有约束条件的最小二乘学习,得到参数theta   ③ 优点:只用了参数空间的一部分…
CH1 什么是机器学习 重点提炼 机器学习的种类: 常分为:监督学习.无监督学习.强化学习等 监督学习是学生从老师那获得知识,老师提供对错指示 无监督学习是在没有老师的情况下,学生自习 强化学习是在没有老师指示情况下,学生对预测的结果自我评估,学生为了获得老师的最高嘉奖而不断学习 监督学习应用:手写文字识别.声音处理.图像处理.垃圾邮件分类与拦截.网页检索.基因诊断.股票预测......(回归.分类.排序) 无监督学习应用:人造卫星故障诊断.视频分析.社交网站解析.声音信号解析.....(聚类.…
CH5 稀疏学习 重点提炼 提出稀疏学习的缘故: 虽然带有约束条件的最小二乘学习法结合交叉验证法,在实际应用中是非常有效的回归方法,但是,当参数特别多时,计算参数以及预测值需要大量时间.此时,我们要解决这个问题. 稀疏学习思路: 把大部分参数都设置为0,这样就能快速计算参数以及预测值. L1约束的最小二乘学习法: 公式 求解得到参数theta 代码实现的流程图 通过稀疏学习进行特征选择 1.“一个特征一个特征地依次减少的向后删除法”以及“一个一个特征地依次增加的向前选择法”提出的原因:在d各特征…
CH3 最小二乘学习法 重点提炼 提出最小二乘学习法的缘故: 最小二乘学习法公式 对不同模型进行最小二乘法学习,得到最小二乘公式中的参数theta: 1.线性模型   代入3.1公式,对参数求偏导,偏导=0时误差J有极值,此时   ① 延伸1:线性模型中的基函数可以是三角多项式 ② 延伸2:加权最小二乘学习法 2.核模型 计算参数的方法与线性模型一样,只是把线性模型中的基函数置换成:  如果基函数是n*b的矩阵,且这两个值非常大时的处理方式----随机梯度法 1.n或b很大导致的问题:内存不足…
CH2 学习模型 重点提炼 学习模型作用: 使特定函数与数据集相近似 学习模型类型: 1.线性模型 (1)最简单的线性模型,缺点:只能表现线性的输入输出函数,不能很好地解决实际问题 (2)基于参数的线性模型,优势:适合实际应用 ① 第一种基函数可以是 ② 第二种基函数可以是 一维的输入x还可以扩展为d维的向量,会使用一维的基函数来构造多维基函数的乘法模型以及加法模型 乘法模型:参数太多会带来维数灾难,但模型表现力较好 加法模型:参数个数是计算机正常计算的范围内,但是只考虑了一维基函数相加的情况,…
一,什么是机器学习 第一个机器学习的定义来自于 Arthur Samuel.他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域.Samuel 的定义可以回溯到 50 年代,他编写了一个西洋棋程序.这程序神奇之处在于,编程者自己并不是个下棋高手.但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋.通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局.程序通过学习后,玩西洋棋的水平超过了 Samuel.这绝对是令…
import numpy as np from sklearn.datasets import load_breast_cancer import sklearn.linear_model from numpy.linalg import inv # numpy.linalg 是处理线性代数的包,inv为矩阵求逆 #sigmoid函数 def sigmoid(x): # Sigmoid function return 1.0/(1 + np.exp(-x)) # 梯度函数 def gradien…
我们以Twitter为例,使用其2012年11月发布的数据.Twitter的两个典型业务操作是: - 发布tweet消息: 用户可以快速推送新消息到所有的关注者,平均大约4.6k request/sec, 峰值约 12k requests/sec. - 主页时间线(Home timeline)浏览: 平均300k request/sec 查看关注对象的最新消息. Twitter扩展性的挑战在于巨大的扇出结构:每个用户会关注很多人,也会被很多人圄粉.此时大概有两种处理方案: Twitter第一个版…
目前主流大数据存储使用横向扩展(scale out)而非传统数据库纵向扩展(scale up)的方式.因此涉及数据分片.数据路由(routing).数据一致性问题 二级映射关系:key-partition映射,partition-machine映射 首先找到partition(比如hash),然后找machine(路由routing) hash分片方式1:Round Robin 新增一台机器: 需要重新分配数据归属,灵活性差 hash分片方式2:虚拟桶(virtual buckets) hash…
一.此书到底何方神圣? 本书是广受赞誉C#图解教程的最新版本.作者在本书中创造了一种全新的可视化叙述方式,以图文并茂的形式.朴实简洁的文字,并辅之以大量表格和代码示例,全面.直观地阐述了C#语言的各种特性.新版本除了精心修订旧版内容外,还全面涵盖了C# 5.0的新增特性,比如异步编程.调用者信息.case表达式.带参数的泛型构造函数.支持null类型运算等.通过本书,读者能够快速.深入地理解C#,为自己的编程生涯打下良好的基础. 本书是C#入门的经典好书,适合对C#感兴趣的所有读者.Daniel…