本文链接:http://www.aboutyun.com/thread-7881-1-1.html 问题导读:1.hive安装是否需要安装mysql?2.hive是否分为客户端和服务器端?3.hive的元数据库有哪两种?4.hive与hbase整合的关键是什么?5.hive的安装是否必须安装hadoop?6.hive与hbase整合需要做哪些准备工作? 网上有很多资料,看到大部分都是一致的,看到一篇国外的文章,原来都是翻译的,并没有经过实践.这里记录一下实践的过程.本篇是在:hadoop2.2完…
博文作者:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 个性签名:世界上最遥远的距离不是天涯,也不是海角.而是我站在妳的面前,妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 转载声明:能够转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作…
目录: 一.hadoop2.2.0.zookeeper3.4.5.hbase0.96.2.hive0.13.1都是什么? 二.这些软件在哪里下载? 三.如何安装 1.安装JDK 2.用parallels克隆3台机器 3.安装Zookeeper-3.4.5 4.安装hadoop2.2.0 5.启动zookeeper 6.启动JournalNode集群 7.Hbase-0.96.2-hadoop2(启动双HMaster的配置,m1是主HMaster,m2是从HMaster) 8.在ubuntu12.…
From:http://www.itnose.net/detail/6065872.html # 需要软件 Hadoop-2.2.0(目前Apache官网最新的Stable版本) Hbase-0.96.2(这里就用这个版本,跟Hadoop-2.2.0是配套的,不用覆盖jar包什么的) Hive-0.13.1(目前是最新版本) Zookeepr-3.4.6(这里推荐使用 3.4.5) Jdk1.7.0_60(这里推荐使用1.7.0_45) Mysql-5.5.31 # 集群结构图 NN : Nam…
ABBYY FineReader可以识别单语言文本和多语言文本(如使用两种及以上语言).对于多语言文本,需要选择多种识别语言. 要为文本指定一种 OCR 语言,请从主工具栏或任务窗口的文档语言下拉列表中选择下列选项之一: ● 自动选择 ABBYY FineReader 将自动从用户自定义的语言列表中选择恰当的语言.要修改此列表: 1. 选择更多语言… 2. 在 语言编辑器对话框中选择 从以下列表中自动选择文档语言选项. 3. 单击指定…按钮. 4. 在 语言对话框中选择所需语言. ● 一种语言或…
1,基于Flume的Push模式(Flume-style Push-based Approach)      Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver. 1),需求 从集群中选择一台机器, 当Flume+Spark Streaming程序运行时,需要保证Spark的一个worker运行在同一台机器上. Flume可以通过…
在项目开发过程中,web项目的前后端分离开发,APP开发,需要由前端后端工程师共同定义接口,编写接口文档,之后大家都根据这个接口文档进行开发. 什么是knife4j 简单说knife4j就swagger的升级版API文档的一个框架,但是用起来比swagger方便多了,UI更加丰富. 界面欣赏 主页 接口文档 调试界面 参数实体 整合 knife4j 引入 maven 依赖 <dependency> <groupId>com.github.xiaoymin</groupId&g…
目录 Cacti+nagios监控部署步骤... 2 一.Cacti安装... 2 1需要安装的依赖软件包:... 2 2安装rrdtool 2 3启动数据库和httpd服务... 3 4将servername和ip对应写入hosts 3 5安装cacti 3 6创建cacti数据库并授权:... 3 7导入cacti的数据表... 3 8修改配置文件,提供php连接mysql的用户名.密码(如图)... 3 9登录网页按照向导提示完成安装:... 4 10 配置本机snmp. 6 11 通过W…
此为广告商内容使用最新版的dede cms建站 V5.7 sp1,经常注意后台的升级信息哦!一.安装DEDE的时候数据库的表前缀,最好改一下,不用dedecms默认的前缀dede_,随便一个名称即可.二.安装DEDE程序后,一定修改dede这个文件夹名称,也就是修改你的后台路径!三.后台管理员不要使用admin或者其他一类很容易被猜到的账号,后台登录开启验证码功能!四.安装好程序后务必删除install目录五.用不到的功能一概关闭,比如会员.评论等,如果没有必要通通在后台关闭.六.删除一些用不到…
创建从一个窗口弹出多个子窗口的结构叫MDI窗体结构 如果不按MDI结构管理,最简单的做法是: 在窗体A上添加菜单或按钮,在菜单或按钮事件中添加弹出B窗体代码: B b = new B(); b.show() 这样A与B没有任何关系,有多少个弹出窗口任务栏上就有多少个图标,父窗口最小化时其余窗口没有任何变化.这样比较凌乱. 但好处是弹出窗口的位置和大小与父窗口没有约束关系,弹出窗口可以在父窗口之外显示. 稍改进的方法(可能是比下方改进MDI还好的方法) B b = new B(); b.show(…
当一次更新一个文档无法满足我们的脚步时,我们可以选择一次更新多个文档,及在update的第四个参数的位置添上true,及做多文档更新,建议就算不做多文档更新也显式的在第四个参数上置false,这样明确易懂,也可以在默认参数变化时从容应对. 运行getLastError命令可以帮助我们获取反馈信息 db.count.update({"x":3},{$inc:{"x":2}},false,true) db.runCommand({getLastError:1}) { &…
插入测试数据 db.inventory.insertMany( [ { item: "journal", instock: [ { warehouse: "A", qty: 5 }, { warehouse: "C", qty: 15 } ] }, { item: "notebook", instock: [ { warehouse: "C", qty: 5 } ] }, { item: "pap…
环境:centos6.2 Hadoop2.2.0 hive0.12 hbase0.94 1>hadoop配好之后,跑任务老失败,yarn失败,报out of memory错误,然后怎么调整内存大小都不行,后来发现是can’t create new thread. 解决:在vi /etc/security/limits.conf 添加 hadoop - nofile 65535 hadoop - nproc  65535 2>yarn运行错误:mapreduce.shuffle set in y…
目录: 一.什么是Flume? 1)flume的特点 2)flume的可靠性 3)flume的可恢复性 4)flume 的 一些核心概念 二.flume的官方网站在哪里? 三.在哪里下载? 四.如何安装? 五.flume的案例 1)案例1:Avro 2)案例2:Spool 3)案例3:Exec 4)案例4:Syslogtcp 5)案例5:JSONHandler 6)案例6:Hadoop sink 7)案例7:File Roll Sink 8)案例8:Replicating Channel Sel…
关于hadoop和hive.hbase的整合就不说了,这里就是在hadoop2.2.0的环境下整合hbase和hive 因为hive0.12不支持hadoop2,所以还要替换一些hadoop的jar包,但是从0.13开始就方便多了 环境:centos6.6-x64.jdk1.7.hadoop2.2.0.hbase0.96.hive0.13.1 1.hadoop启动.hbase的安装.MySQL的安装 ... ... 2.hive的安装与配置 1)解压 2)把hbase中的一些包拷入hive li…
目录: 一.Thrift1和Thrift2的简要介绍 1) 写在前面 2) Thrift1和Thrift2的区别  二.Thrift0.9.2的安装 1) 安装依赖插件 2) Thrift0.9.2的编译  3) Thrift0.9.2编译后,配置成可执行文件 三.Hbase0.96.2的安装 1) Hbase的介绍 2) Hbase的安装 3) Hbase基于源码的Thrift生成接口文件 四.PHP和Golang使用Thrift1和Thrift2访问Hbase 1) PHP基于Thrift1…
处理大量多页文档时,通常都会首先扫描所有文档,然后才进行分析和识别.但是,要正确保留每个纸质文档的原始格式,ABBYY FineReader 12必须将每个文档作为单独 FineReader 文档进行处理.ABBYY FineReader 包括将已扫描页面分组到单独文档中的工具. 要将ABBYY FineReader 12 文档拆分为多个文档: 1.在文件菜单上,单击拆分 FineReader文档,或在页面面板上选择页面,右键单击所选页面,然后单击将页面移动至新文档. 2.在打开的对话框中,通过…
---------------------------------------- 博文作者:迦壹 博客地址:Nginx日志导入到Hive,同步Hbase,设置RowKey为autoincrement(ID自增长) 转载声明:可以转载, 但必须以超链接形式标 明文章原始出处和作者信息及版权声明,谢谢合作! ---------------------------------------   目录: 一.Nginx的相关配置,以及测试数据 二.Hadoop中创建使用目录 三.Hive的日志表创建,并同…
这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的<Flume-1.4.0和Hbase-0.96.0整合>文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了.那么为什么今天还要特意提一下Flume-0.9.4和Hbase-0.96整合?这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和H…
在使用Flume的时候,请确保你电脑里面已经搭建好Hadoop.Hbase.Zookeeper以及Flume.本文将以最新版的Hadoop-2.2.0.Hbase-0.96.0.Zookeeper-3.4.5以及Flume-1.4.0为例进行说明.如何安装分布式的Hadoop.Hbase.Zookeeper请参见本博客的<Hadoop2.2.0完全分布式集群平台安装与设置>.<Hbase 0.96.0分布式安装手册>.<Zookeeper 3.4.5分布式安装手册>:如…
来自:http://blog.csdn.net/iam333/article/details/18770977 最近由于业务需要,需要将flume的数据插入HBase-0.96,利用flume的实时日志收集,实现数据的实时存储.正如前文所 述,flume-ng即flume-1.4.0版本和hbase-0.96结合相对比较容易配置,只需要做一些相关配置,实现自己的 HbaseEventSerializer类,重新编译flume-ng-hbase-sink部分源码并打包即可.但是因为公司以前业务的日…
背景介绍 分布式系统是指一组独立的计算机,通过网络协同工作的系统,客户端看来就如同单台机器在工作.随着互联网时代数据规模的爆发式增长,传统的单机系统在性能和可用性上已经无法胜任,分布式系统具有扩展性强.可用性高.廉价高效等优点得以广泛应用. 但与单机系统相比,分布式系统在实现上要复杂很多.CAP理论是分布式系统的理论基石,它提出以下3个要素: Consistency(强一致性):任何客户端都可以访问到同一份最新的数据副本. Availability(可用性): 系统一直处于可服务状态,每次请求都…
说明:部署的过程中请保证每个命令都有在相应的节点执行,并且执行成功,此文档已经帮助几十人(仅包含和我取得联系的)快速部署k8s高可用集群,文档不足之处也已更改,在部署过程中遇到问题请先检查是否遗忘某个步骤,文档中每个步骤都是必须的. 经测验此文档也适合高可用部署k8s v.12,只需修改对应版本号就可. 1.部署架构 详细架构: 2.基本配置 主机名 IP地址 说明 组件 k8s-master01 ~ 03 192.168.20.20 ~ 22 master节点 * 3 keepalived.n…
1. 开发背景 现有开源缓存代理中间件有twemproxy.codis等,其中twemproxy为单进程单线程模型,只支持memcache单机版和redis单机版,都不支持集群版功能. 由于twemproxy无法利用多核特性,因此性能低下,短连接QPS大约为3W,长连接QPS大约为13W,同时某些场景时延抖动厉害. 为了适应公有云平台上业务方的高并发需求,因此决定借助于twemproxy来做二次开发,把nginx的高性能.高可靠.高并发机制引入到twemproxy中,通过master+多work…
1. 开发背景 现有开源缓存代理中间件有twemproxy.codis等,其中twemproxy为单进程单线程模型,只支持memcache单机版和redis单机版,都不支持集群版功能. 由于twemproxy无法利用多核特性,因此性能低下,短连接QPS大约为3W,长连接QPS大约为13W,同时某些场景时延抖动厉害. 为了适应公有云平台上业务方的高并发需求,因此决定借助于twemproxy来做二次开发,把nginx的高性能.高可靠.高并发机制引入到twemproxy中,通过master+多work…
1. 开发背景 现有开源缓存代理中间件有twemproxy.codis等,其中twemproxy为单进程单线程模型,只支持memcache单机版和redis单机版,都不支持集群版功能. 由于twemproxy无法利用多核特性,因此性能低下,短连接QPS大约为3W,长连接QPS大约为13W,同时某些场景时延抖动厉害. 为了适应公有云平台上业务方的高并发需求,因此决定借助于twemproxy来做二次开发,把nginx的高性能.高可靠.高并发机制引入到twemproxy中,通过master+多work…
在正式环境中,搭建高可靠(ha)的系统是必须的. 例如oralce的rac,apache集群,windows服务器集群 本文不再赘言ha的重要性. 本文主要是对 http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html#Administrative_commands 的翻译,外加一些其它参考和个人的感悟. ---原文相当长 译注:ha-high ava…
本文主要参考 http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 主要内容是对该文章的翻译,部分内容参考其他的网络文章. 1.简介 hadoop分布式文件系统(HDFS)是一个分布式文件系统,运行于普通的硬件之上(例如pc或者廉价刀片服务器).HDFS和现有的分布式文件系统有许多相似之处.然而,不同之处也是很明显的. HDFS是高容错,并用于部署在低成本的硬件之上.HDFS为应用…
hbase是基于hadoop的hdfs框架做的分布式表格存储系统,所谓表格系统就是在k/v系统的基础上,对value部分支持column family和column,并支持多版本读写. hbase的工作原理是保证系统中key全局有序存储,每个regionserver负责的某一个key range,并在regionserver中数据量过大的时候由master负责通知其分列成2个key range,并将其中一个key range交给其他regionserver维护,通过修改meta表生效从而达到了自…
简介 [from http://www.open-open.com/lib/view/open1390717631132.html] hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作.在hadoop1时代,只有一个NameNode.如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了.这是hadoop1中的单点问题,也是hadoop1不可靠的表现,如图1所示.hadoop2就解决了这个问题. 图1 hadoop2.2.0中HDFS的高可靠指的是可以同时…