“统计的思维方式是归纳(induction),也就是从数据所反映的现实得到比较一般的模型,希望以此解释数据所代表的那部分世界.这和以演绎(deduction)问哦主的数学思维方式相反,演绎是在一些人为的假定(或者在一个公理系统)之下,推导出各种结论.”…
hbase提供了一个shell的终端给用户交互 名称 命令表达式 创建表 create '表名称', '列族名称1','列族名称2','列族名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count  '表名称' 删除记录 delete  '表名' ,'行名称' , '列名称' 删除一张表 先要屏蔽该表,才能对该表进行删除,第一步 disable '表名称' 第二步  drop '表名称' 查看所有记…
1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的.1.2 行键(row key),类似于MySQL中的主键.     行键是HBase表天然自带的.1.3 列族(column family),列的集合.    HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的.    HBase表中的数据,每个列族单独一个文件.1.4 时间戳(timestamp),列(也称作标签.修饰符)的一个属性.    行键和列确定的单元格,可以存储多个数据,每个数据含有时间…
1.ZooKeeper    1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致.2.如何搭建ZooKeeper服务器集群    2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致.    2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,重命名zk,设置环境变量,使环境变量生效            tar -zxvf xxxxx            mv zookeeper.xx   zk            vi…
1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode            从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker    1.2 各节点重新产生ssh加密文件    1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息    1.4 两两节点之间的SSH免密码登陆            ss…
1.1 设置ip地址    执行命令    service network restart    验证:         ifconfig1.2 关闭防火墙    执行命令    service iptables stop    验证:        service iptables status1.3关闭防火墙的自动运行    执行命令    chkconfig iptables off    验证:        chkconfig --list | grep iptables1.4 设置主…
常用的分布式日志收集系统…
SQOOP是用于对数据进行导入导出的.    (1)把MySQL.Oracle等数据库中的数据导入到HDFS.Hive.HBase中    (2)把HDFS.Hive.HBase中的数据导出到MySQL.Oracle等数据库中 一:安装步骤1.解压.设置环境变量,略2.把mysql.............jar放到$SQOOP_HOME/lib中 二:把mysql中的表复制到hdfs/hive中sqoop                                             …
为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程 一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类型Array/Map/Struct没有date/datetime (3)Hive的数据存储Hive的数据存储基于Hadoop HDFSHive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.…
1.Hive1.1在hadoop生态圈中属于数据仓库的角色.他能够管理hadoop中的数据,同时可以查询hadoop中的数据.  本质上讲,hive是一个SQL解析引擎.Hive可以把SQL查询转换为MapReduce中的job来运行.  hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表.字段转换为HDFS中的文件(夹)以及文件中的列.  这套映射工具称之为metastore,一般存放在derby.mysql中. 1.2 hive在hdfs中的默认位置是…
1.Pig是基于hadoop的一个数据处理的框架.  MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行. 2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题.一步一步来的,跟SQL不一样,SQL一步就得到答案, 3.Pig基本数据类型:int.long.float.double.chararry.bytearray     复合数据类型:Map.Tuple.Bag  Bag的类型如{('age',31),('name',…
查询1.按RowKey查询2.按手机号码查询3.按手机号码的区域查询 //查询手机13450456688的所有上网记录 public static void scan(String tableName) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Scan scan = new Scan(); scan.setStartRow(Bytes.toBytes("13450456688:/&…
public static void main(String[] args) throws IOException { String tableName="hbase_tb"; String columnFamily="cf"; HBaseTestCase.create(tableName, columnFamily); HBaseTestCase.put(tableName, "row1", columnFamily, "cl1&qu…
1.hbase的机群搭建过程(在原来的hadoop上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop,从节点(region server)是hadoop1和hadoop21.2 修改hadoop上的hbase的几个文件    (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false    (2)修改hbase-site.xml文件的hbase.zookeeper.quorum的值为hadoop,hadoop1…
TOEFL托福词汇串讲(文本) alchemy(chem-化学)n. 炼金术 chemistry 化学 alder 赤杨树 联想:older 老人坐在赤杨树下 sloth 树懒 algae n.海藻 algal a. alien n.外国人 alienate v.疏远 all but + a. almost几乎+n. all except 除...之外所有的 all inclusive 无所不包的 allocate(loc-地方) v.分配(财富) alloy n.合金 ally n.联盟,盟军…
参考:<复杂数据统计方法--基于R的应用> 吴喜之 在生存分析中,研究的主要对象是寿命超过某一时间的概率.还可以描述其他一些事情发生的概率,例如产品的失效.出狱犯人第一次犯罪.失业人员第一次找到工作.青少年第一次吸毒等等. 生存函数S(t): S(t)=P(T>t)=1-P(T<=t),t>0 T:表示寿命的随机变量 t:特定时间 综合生存函数图:用到包survival 案例:口腔癌数据 实验分成两组: TX=1:仅放疗 TX=2:放疗+化疗 #读取数据 u=read.csv…
统计难题 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).   Input 输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串. 注意:本题只有一组测试数据,处理到文件结束.   Out…
统计难题 Problem Description Ignatius近期遇到一个难题,老师交给他非常多单词(仅仅有小写字母组成,不会有反复的单词出现),如今老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).   Input 输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每一个提问都是一个字符串. 注意:本题仅仅有一组測试数据,处理到文件结束.  …
统计难题 Problem Description Ignatius近期遇到一个难题,老师交给他非常多单词(仅仅有小写字母组成,不会有反复的单词出现),如今老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).   Input 输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每一个提问都是一个字符串. 注意:本题仅仅有一组測试数据,处理到文件结束.  …
<题目链接> 统计难题                        Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 131070/65535 K (Java/Others)                                        Total Submission(s): 49723    Accepted Submission(s): 17567 Problem Description Ignatius最近…
ArcGIS案例学习笔记-点群密度统计 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 目的:对于点群,统计分布密度 数据: 方法: 1. 生成格网 2. 统计个数,制作专题图   联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com…
书籍位置: /Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/<机器学习_周志华.pdf> 一共442页.能不能这个周末先囫囵吞枣看完呢.哈哈哈. 当然了,我觉得Spark上面的实践其实是非常棒的.有另一个系列文章讨论了Spark. 还有另一篇读书笔记(Link)是关于<机器学习实战>.实战经验也很重要. P1 一般用模型指全局性结果(例如决策树),用模式指局部性结果(例如一条规则). P3 如果预测的是离散值,那就是分类-classi…
<机器学习>这本书算是很好的一本了解机器学习知识的一本入门书籍吧,是南京大学周志华老师所著的鸿篇大作,很早就听闻周老师大名了,算是国内机器学习领域少数的大牛了吧,刚好研究生做这个方向相关的内容,所以今天买了一本所谓的西瓜书,准备研读,光读书记性不好,边读边做笔记练习印象深刻,接下来我就把自己的学习过程按每章节的内容整理如下: Day1 第一章 绪论部分 本书作者周志华老师通过聊天的口吻开篇,以日常生活的小案例和场景,向读者介绍什么是机器学习,以及什么是学习算法.在这一章介绍了很多机器学习相关的…
作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客.论文.专家观点等内容上已经积累了超过两年多的经验.期间,从无到有,机器之心的编译团队一直在积累专业词汇.虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步.一直在积累.一直在提高自己的专业性.两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典.而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区.跨专业等等原因造成的.举个例子,DeepM…
目录 I. 大师对人工智能和机器学习的看法 II. Introduction A. What is Machine Learning 什么是机器学习 B. Basic terms 基础术语 C. Inductive learning & Hypothesis space 归纳学习和假设空间 D. Inductive bias & NFL 归纳偏置和"天下没有免费的午餐定理" E. History III. 模型评估与选择 A. Overfitting & Und…
一.什么是SVM? SVM(Support Vector Machine)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线性和非线性两大类.其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本集中所有数据到这个超平面的距离最短. 那么,又怎么表示这个“都正确”呢?可以这样考虑:就是让那些“很有可能不正确”的数据点彼此分开得明显一点就可以了.对于其它“不那么可能不正确”或者说“一看就很正确”的数据点,就可以不用管了.这也…
支持向量机 看了JULY君的博客和文档后,个人对SVM的理解和总结,欢迎交流和指正.其理论部分可以查看下面文档链接,通俗易懂. 支持向量机通俗导论(理解SVM的三层境界)     第一篇:从四个关键词理解SVM 第二篇:SVM的原理(全面理解SVM) 第三篇:SVM的特点与不足 第四篇:SVM实现 第五篇:从应用上理解SVM 第一篇:从四个关键词理解SVM 理解支持向量机SVM(Support Vector Machine)有四个关键名词:分离超平面.最大边缘超平面.软边缘.核函数. 分离超平面…
监督学习: 为CharityML寻找捐献者   开始 在这个项目中,你将使用1994年美国人口普查收集的数据,选用几个监督学习算法以准确地建模被调查者的收入.然后,你将根据初步结果从中选择出最佳的候选算法,并进一步优化该算法以最好地建模这些数据.你的目标是建立一个能够准确地预测被调查者年收入是否超过50000美元的模型.这种类型的任务会出现在那些依赖于捐款而存在的非营利性组织.了解人群的收入情况可以帮助一个非营利性的机构更好地了解他们要多大的捐赠,或是否他们应该接触这些人.虽然我们很难直接从公开…
关键词:机器学习,基本术语,假设空间,归纳偏好,机器学习用途 一.机器学习概述 机器学习是一门从数据中,经过计算得到模型(Model)的一种过程,得到的模型不仅能反应出训练数据集中所蕴含的规律,并且能够运用在训练集之外的数据上.而机器学习研究的方向,就是解决:“我们为了得到这种模型,应该采用何种算法” 的问题. 如果说,训练集是我们的生活中的 “经验”,那么模型就是我们的 “经验性解决方法” ,训练集外的数据就是生活中的 “新问题” . 二.基本术语 在解释基本术语的同时,我们用生活中的例子 “…
在统计学习中,转导推理(Transductive Inference)是一种通过观察特定的训练样本,进而预测特定的测试样本的方法.另一方面,归纳推理(Induction Inference)先从训练样本中学习得到通过的规则,再利用规则判断测试样本.然而有些转导推理的预测无法由归纳推理获得,这是因为转导推理在不同的测试集上会产生相互不一致的预测,这也是最令转导推理的学者感兴趣的地方. Transductive Learning:从彼个例到此个例,有点象英美法系,实际案例直接结合过往的判例进行判决.…