本文介绍了一种发现两个随机变量之间依赖关系强度的度量MIC(最大信息系数,类似于相关系数的作用).MIC具有以下性质和优势: MIC度量具有普适性.其不仅可以发现变量间的线性函数关系,还能发现非线性函数关系(指数的,周期的):不仅能发现函数关系,还能发现非函数关系(比如函数关系的叠加,或者有趣的图形模式). MIC度量具有均衡性.对于相同噪声水平的函数关系或者非函数关系,MIC度量具有近似的值.所以MIC度量不仅可以用来纵向比较同一相关关系的强度,还可以用来横向比较不同关系的强度. MIC度量计…
PART 1 PART 1 传统回归模型的困难 1.为什么一定是线性的?或某种非线性模型? 2.过分依赖于分析者的经验 3.对于非连续的离散数据难以处理 网格方法 <Science>上的文章<Detecting Novel Associations in Large Data Sets> 方法概要:用网格判断数据的集中程度,集中程度意味着是否有关联关系 方法具有一般性,即无论数据是怎样分布的,不限于特点的关联函数类型,此判断方法都是有效 方法具有等效性,计算的熵值和噪音的程度有关,…
In Week 6, you will be learning about systematically improving your learning algorithm. The videos for this week will teach you how to tell when a learning algorithm is doing poorly, and describe the 'best practices' for how to 'debug' your learning…
Surface Reflectance 高光谱图像 ↑ AVIRIS高光谱成像光谱仪采集得到的原始图像为辐亮度图像,经过校正后的L1级产品为地表辐亮度信息.但是许多时候,我们更希望知道地面目标物的反射率信息,并且这一信息应该与在地面使用地物光谱仪(如常见的ASD光谱仪)采集的反射率曲线应该一致.因此从原始的辐亮度(Radiance)图像转换生成反射率图像通常需要进行大气校正,水汽吸收校正等过程,最终消除大气传输过程中的各种干扰因素影响,得到最终的反射率曲线.需要注意的是,由于大气水汽吸收的影响,…
Hadoop Hadoop适合海量数据分布式存储和分布式计算 运行用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 1. 概述 1.1 简介 Hadoop核心组件 HDFS (分布式文件存储系统):解决海量数据存储 YARN(集群资源管理和任务调度框架):解决资源任务调度 MapReduce(分布式计算框架):解决海量数据计算 Hadoop发展简史 Hadoop起源于Apache Lucen子项目:Nutch Nutch的设计目标是构建一个大型的全网搜索引擎 问题:如何解决数十亿…
Hadoop应用场景 Hadoop是专为离线处理和大规模数据分析而设计的,它并不适合那种对几个记录随机读写的在线事务处理模式. 大数据存储:Hadoop最适合一次写入.多次读取的数据存储需求,如数据仓库. 大数据分析:数据密集型并行计算:数据量极大,但是计算相对简单的并行处理.如:大规模Web信息搜索.日志分析. Hadoop相关术语 Hadoop:这个名字不是一个缩写,而是一个虚构的名字.该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具…
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Large Data Sets(大数据集) Simple Coherency Model(简单一致性模型) "Moving Computation is Cheaper than Moving Data&q…
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22  大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分布,而是保留训练样本,在预测阶段,计算待预测样本跟训练样本的相似性来做预测,例如KNN方法. 将线性模型转换成对偶形式,就可以利用核函数来计算相似性,同时避免了直接做高维度的向量内积运算.本章是稀疏向量机,同样基于核函数,用训练样本直接对新样本做预测,而且只使用了少量训练样本,所以具有稀疏性,叫sp…
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者.对了,他现在自己创业,提供数据分析.推荐优化咨询服务,他的邮件是:stucchio@gmail.com . “你有多少大数据和Hadoop的经验?”他们问我.我一直在用Hadoop,但很少处理几TB以上的任务.我基本上只是一个大数据新手——…
来源:http://blog.csdn.net/woshiwanxin102213/article/details/17584043 概述 HBase是一个构建在HDFS上的分布式列存储系统:HBase是基于Google BigTable模型开发的,典型的key/value系统:HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储:从逻辑上讲,HBase将数据按照表.行和列进行存储.与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器…