已知数据x,希望得到未知label y,即得到映射x-->y: 几个概念: 1)p(x): data distribution 数据分布 2)p(y): prior distribution 先验分布 a priori: Knowable without appeal to particular experiencea priori distribution: special meaning, do not misuse 3)p(x, y): join distribution 联合分布 4…
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share http://www.kancloud.cn/wizardforcel/scipy-lecture-notes/129877参考 In [1]: %mat…
假设我们已经训练得到 一个模型,那么我们怎么直观判断这个 模型的 bias 和 variance? 直观方法: 如果模型的 训练错误 比较大,并且 验证错误 和 训练错误 差不多一样,都比较大,我们就认为这个模型 是 高bias 的,或者说 它是 underfit . 如果模型的 训练错误 比较小,但是 验证错误比较大 远大于 训练错误,我们就认为这个 模型 是 高variance,或者说它是 overfit. 直观解释: 如果一个模型是高 bias 的(underfitting),那么可以认为…
3. Bayesian statistics and Regularization Content 3. Bayesian statistics and Regularization. 3.1 Underfitting and overfitting. 3.2 Bayesian statistics and regularization. 3.3 Optimize Cost function by regularization. 3.3.1 Regularized linear regressi…
图灵数学·统计学丛书01-概率论及其应用(第1卷·第3版)-[美]William.Feller-人民邮电出版社.pdf 图灵数学·统计学丛书01-金融数学:衍生产品定价引论-[英]M·巴克斯特&A·伦尼-叶中行&王桂兰&林建忠(译)-人民邮电出版社-2006.pdf 图灵数学·统计学丛书02-偏微分方程数值解(第2版)-[英]K·W·莫顿-人民邮电出版社-2006.pdf 图灵数学·统计学丛书03-流形上的微积分:高等微积分中的一些经典定理的现代化处理(双语版)-[美]M·斯皮瓦克…
        一个查询需要的CPU.IO资源越多,查询运行的速度就越慢,因此,描述查询性能调节任务的另一种方式是,应该以一种使用更少的CPU.IO资源的方式重写查询命令,如果能够以这样一种方式完成查询,查询的性能就会有所提高.         如果调节查询性能的目的是让它使用尽可能少的服务器资源,而不是查询运行的时间最短,那么就更容易测试你采取的措施是提高了查询的性能还是降低了查询的性能.尤其是在资源利用不断变化的服务器上更是如此.首先,需要搞清楚在对查询进行调节时,如何测试我们的服务器的资源…
2019年08月31日更新 看了一篇发在NM上的文章才又明白了贝叶斯方法的重要性和普适性,结合目前最火的DL,会有意想不到的结果. 目前一些最直觉性的理解: 概率的核心就是可能性空间一定,三体世界不会有概率 贝叶斯的基础就是条件概率,条件概率的核心就是可能性空间的缩小,获取了新的信息就是个可能性空间缩小的过程 贝叶斯定理的核心就是,先验*似然=后验,有张图可以完美可视化这个定理 只要我们能得到可靠的先验或似然,任意一个,我们就能得到更可靠的后验概率 最近又在刷一个Coursera的课程:Baye…
Randow使用 http://blog.csdn.net/pipisorry/article/details/39508417 概率相关使用 转:http://www.cnblogs.com/NaughtyBaby/p/5568668.html :该文是上了开智学堂数据科学基础班的课后做的笔记,主讲人是肖凯老师. 概率与统计分析 描述性分析 用一个数字描述一组数字的特征.用一个数字来归纳一组数字,这个数字称为统计量或统计指标. 均值.中位数:描述一组数据的集中趋势 方差.标准差.四分位距:描述…
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法.接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点.对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍. 1 LSA and SVD LSA(隐性…
深度学习读书笔记之RBM 声明: 1)看到其他博客如@zouxy09都有个声明,老衲也抄袭一下这个东西 2)该博文是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 3)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的.如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止. 4)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢.…