准备工作:采用的HBase版本是:CDH4.5,其中的Hadoop版本是:hadoop-2.0.0-cdh4.5.0:HBase版本是:hbase-0.94.6-cdh4.5.0: Hbase的配置文件的最基本设置conf/hbase-env.sh文件,需明确定义: export JAVA_HOME=/usr/local/jdk1.6.0_31conf/hbase-site.xml文件,需明确定义:<configuration><property>    <name>h…
这一章节的学习,主要是学会如何创建索引,使用索引 一.创建索引 1.从原始文件中提取内容.这里的文件,可以是文本文件,也可以是二进制文件.文本文件(txt),lucene可以直接处理:而二进制文件(word,pdf等),则可以使用Tika框架(Tika是啥,我自己还没学到,先不细说了).提取的内容,必须的转换成lucene能识别的格式并存储.这里的格式,就是Field以及由多个Field组成的Document.存储在Directory对象中. 2.光转换成Document还不能用,lucene还…
1.HBase模仿了Google的BigTable,是一种开源的,面向列族的数据库.它基于行键(rowkey),列键(column key)和时间戳(TimeStamp)来建立索引.HBase是建立在分布式集群中的.HBase的最佳合作伙伴是Hadoop(提供HDFS文件系统和MapReduce操作)和Zookeeper(管理分布集群) 2.HBase的安装分为三种模式:单机,伪分布式和全分布式,这也是和Hadoop的三种模式一一对应的. 3.我使用的CDH4,里面提供了hadoop-2.0.0…
1. 下载此源码包,位置是: www.manning.com/hatcher3,得到:lia2e.tar.gz,然后解压缩得到目录:lia2e,为了以后能辨识,我将此目录改名为:luceneinAction2Edition_Demo 2. 然后,使用eclipse,将此目录加入其中,成为一个项目: 3. 通过eclipse中的Window->Show View->Ant,然后就可以在eclipse界面右侧看到Ant视图,然后在其中点击右键,选择Add Buildfiles…,将上述lucene…
本章节告诉我们怎么用搜索.通过这章节的学习,虽然搜索的内部原理不清楚,但是至少应该学会简单的编写搜索程序了本章节,需要掌握如下几个主要API1.IndexSearcher类:搜索索引的门户,发起者.    初始化:IndexSearcher is = new IndexSearcher(dir) --- 不产生近实时搜索的效果                 或者                  IndexREeader reader = IndexReader.open(dir);Index…
第一章节是介绍性质,但是通过这一章节的学习,我理解到如下概念: 1.Lucene由两部分组成:索引和搜索.索引是通过对原始数据的解析,形成索引的过程:而搜索则是针对用户输入的查找要求,从索引中找到匹配的内容,并表示出来. 2.索引组件的工作顺序是:原始内容--->获取内容(比如利用网络爬虫,这时取得的还是原始内容,只不过是自己想要的原始内容)--->建立文档(这里就是lucene的索引组件真正开始工作的地方了,解析内容变成lucene自己的document)--->文档分析(利用luce…
要开发Servlet,自然要掌握常用的servlet的相关API.通过此章节的学习,了解到如下常用API 1.Servlet接口--->GenericServlet抽象类(实现Servlet接口,ServletConfig接口和Serializable接口)-->HttpServlet子类(也是抽象类,专用于HTTP)--->研发自定义的类,真正用于实际WEB应用中的Servlet服务 2.ServletRequest接口--->HttpServletRequest子接口---&g…
1.HBase In Action 第一章-HBase简介(后续翻译中) 2.HBase In Action 第一章-HBase简介(1.1数据管理系统:快速学习) 3.HBase In Action 第一章-HBase简介(1.1.1 大数据你好呀) 4.HBase In Action 第一章-HBase简介(1.1.2 数据创新) 5.HBase In Action 第一章-HBase简介(1.1.3 HBase的兴起) 6.HBase In Action 第一章-HBase简介(1.2 H…
HBase是什么 最近学习了HBase,正常来说写这篇文章,应该从DB有什么缺点,HBase如何弥补DB的缺点开始讲会更有体感,但是本文这些暂时不讲,只讲HBase,把HBase相关原理和使用讲清楚,后面有一篇文章会专门讲DB与NoSql各自的优缺点以及使用场景. HBase是谷歌Bigtable的开源版本,2006年谷歌发布<Bigtable:A Distributed Storage System For Structured Data>论文之后,Powerset公司就宣布HBase在Ha…
As we now know, many prominent internet companies, most notably Google, Amazon, Yahoo!, and Facebook, were on the forefront of this explosion of data. Some generated their own data, and others collected what was freely available; but managing these v…