Akaike information criterion,AIC是什么?一个用来筛选模型的指标.AIC越小模型越好,通常选择AIC最小的模型.第一句话好记,第二句话就呵呵了,小编有时候就会迷惑AIC越大越好还是越小越好.所以,还是要知其所以然的. 在AIC之前,我们需要知道Kullback–Leibler information或 Kullback–Leiblerdistance.对于一批数据,假设存在一个真实的模型f,还有一组可供选择的模型g1.g2.g3…gi,而K-L 距离就是用模型 gi…
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 赤池信息量准则[1]  是由日本统计学家赤池弘次创立的,以熵的概念基础确定. 赤池信息量准则,即Akaike information criterion…
这是原帖 http://www.reddit.com/r/programming/comments/358tnp/five_programming_problems_every_software_engineer/ 后来作者被人发现他自己给的solution是错的,然后有人调侃他自己应该通不过自己的面试. http://www.reddit.com/r/programming/comments/35cr6n/real_programmers_can_do_these_problems_easil…
纪念一下,在心心念念想从会计本科转为数据分析师快两年后,近期终于迈出了使用R的第一步,在参考他人的例子前提下,成功写了几行代码.用成本的角度来说,省去了部门去买昂贵的数据分析软件的金钱和时间,而对自己来说,则是在数据分析又迈出了一步,往经济宽裕又迈出了一步,往财务自由又迈出了一步,不得不写个随笔纪念一下. 以及,有时候,入门真的没有想象中困难,关键是要找到入门的方法,一窍通,百窍通. 以下为代码.简而言之就是写了一个时间序列预测的代码,包括完整的数据导入,数据处理和数据输出过程.加载了forec…
http://conversionxl.com/website-information-architecture-optimal-user-experience/ 在网站上应该有什么类型的content?应该如何结构化菜单?第一级的菜单应该有哪些item?一个或者两个menus?菜单链接应该如何被调用? Information architecture是非常重要的,然而大部分商业网站这样构建信息架构: IMO method(In my opinion).虽然说常识对创建site structur…
R语言编程艺术讲矩阵这节时,举了个随机噪声模糊罗斯福总统画像的例子.但是里面似乎有个错误,例子本意是区域外的值保持不变,而选定区域的值加一个随机值,但是实际情况是两个行列不相等的矩阵相加,会报错,如果我有看错,请大家告诉我. 函数调用和参数输入: 然后是函数的编写: R中不同长高的矩阵是不能相加的,即使1X1,不会出现向量补齐的情况,下面举个极端的例子: > a<-matrix(1,1,1)> b<-matrix(1:2,2,1)> a [,1][1,] 1> b [,…
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统.笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来.开篇内容参考: 重磅︱R+NLP:text2vec包--New 文本分析生态系统 No.1(一,简介) R+NLP︱text2vec包--BOW词袋模型…
参考:Fitting a Model by Maximum Likelihood 最大似然估计是用于估计模型参数的,首先我们必须选定一个模型,然后比对有给定的数据集,然后构建一个联合概率函数,因为给定了数据集,所以该函数就是以模型参数为自变量的函数,通过求导我们就能得到使得该函数值(似然值)最大的模型参数了. Maximum-Likelihood Estimation (MLE) is a statistical technique for estimating model parameters…
1. Clustering Analysis Clustering is the process of grouping a set of (unlabeled) data objects into multiple groups or clusters such that objects within a cluster have high similarity, but are very dissimilar to objects in other clusters. Dissimilari…
古典概型的样本总量是一定的,且每种可能的可能性是相同的, 1.中位数:median(x) 2.百分位数:quantile(x)或者quantile(x,probe=seq(0,1,0.2)) #后面这个是设置参数,零到一的范围,每隔0.2算一次 不知道叫啥的很方便的函数:fivenum(x,na.rm=TRUE) #输出五个数最大值.最小值.下四分位数.上四分位数.中位数 3.协方差:用于看两组数据之间的关系,看看是不是有一定的关联性 他有一个相关系数r,r越接近1,则相关性越高,反之,越接近零…