SparkStreaming+Kafa+HBase

1. 总结一些概念:

安装zookeeper3.4.6

cp zoo_sample.cfg zoo.cfg
vim zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/opt/software/zookeeper-3.4.6/data
dataLogDir=/opt/software/zookeeper-3.4.6/logs
clientPort=2181
server.1=pc.apache:2888:3888

将zookeeper加入环境变量;
在mkdir data目录， vim myid  插入1,  mkdir logs

zkServer.sh start

安装kafka 0.10.2

vim server.properties

broker.id=0

port=9092

host.name=pc.apache

log.dirs=/opt/software/kafka_2.11-0.10.2.0/data

num.network.threads=3

num.io.threads=8

socket.send.buffer.bytes=102400

socket.receive.buffer.bytes=102400

socket.request.max.bytes=104857600

zookeeper.connect=pc.apache:2181

num.partitions=3

num.recovery.threads.per.data.dir=1

log.retention.hours=168

log.segment.bytes=1073741824

log.retention.check.interval.ms=300000

zookeeper.connection.timeout.ms=6000

将kafka添加进环境变量, 启动服务:

nohup kafka-server-start.sh /opt/software/kafka_2.11-0.10.2.0/config/server.properties> /opt/software/kfk.out &

创建分区

kafka-topics.sh --create --zookeeper pc.apache:2181 --replication-factor 1 --partitions 3 --topic k1

设置测试用生产者：

vim producer.properties

bootstrap.servers=pc.apache:9092

设置测试用消费者:

vim consumer.properties

zookeeper.connect=pc.apache:2181

kafka-console-producer.sh --broker-list pc.apache:9092 --topic k1

kafka-console-consumer.sh --bootstrap-server pc.apache:9092 --topic k1 --from-beginning

IDEA作为生产者，向kafka发送数据;

添加依赖:

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka_2.11</artifactId>

            <version>0.10.2.0</version>

        </dependency>

public class Productor implements Runnable {

    private final KafkaProducer<Integer, String> producer;

    private final String topic;

    private final Properties props = new Properties();

    public static void main(String[] args) {

        Thread t = new Thread(new Productor("k1"));

        t.start();

    }

    public Productor(String topic) {

        props.put("metadata.broker.list", "pc.apache:9092");

        props.put("bootstrap.servers", "pc.apache:9092");

        props.put("acks", "all");

        props.put("retries", 0);

        props.put("batch.size", 16384);

        props.put("linger.ms", 1);

        props.put("buffer.memory", 33554432);

        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        producer = new KafkaProducer<Integer, String>(props);

        this.topic = topic;

    }

    @Override

    public void run() {

        int messageNo = 1;

        while (true){

            String messageStr = "Message_" + messageNo;

            producer.send(new ProducerRecord<Integer, String>(topic, messageStr));

            messageNo++;

            try {

                sleep(3000);

            }catch (Exception e){

                System.out.println(e.toString());

            }

        }

    }

}

3. 安装HBase

为了解除HBase与Zookeeper的耦合性, 使用HBase自带的Zookeeper;

配置好hbase-site.xml后, 直接启动start-hbase.sh即可;

<property>

 <name>hbase.rootdir</name>

 <value>hdfs://pc.apache:8020/hbase</value>

</property>

<property>

  <name>hbase.cluster.distributed</name>

  <value>true</value>

</property>

  <property>

	<name>hbase.zookeeper.quorum</name>

	<value>pc.apache</value>

</property>

<property>

	<name>hbase.master</name>

	<value>hdfs://pc.apache:60000</value>

</property>

<property>

 <name>hbase.tmp.dir</name>

 <value>/opt/software/hbase-1.2.5/tmp</value>

</property>

<property>

 <name>hbase.zookeeper.property.dataDir</name>

 <value>/opt/software/hbase-1.2.5/zooData</value>

</property>

使用IDEA连HBase

将hbase-site.xml 放入classpath 放入classpath

添加依赖:

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-client</artifactId>

            <version>${hbase.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>${hbase.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase</artifactId>

            <version>${hbase.version}</version>

            <type>pom</type>

        </dependency>

private static Configuration config;

    static {

        config = HBaseConfiguration.create();

    }

即可创建连接;

SparkStreaming+Kafa+HBase的更多相关文章

sparkstreaming写入hbase表中总结
执行spark代码插入数据到hbase表中去的时候,遇到的错误 1. 缺少hadoop-mapreduce-client-core-2.5.1.jar包错误:java.lang.ClassNotFo ...
Spark-读写HBase，SparkStreaming操作，Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
Spark对接Kafka、HBase
本项目是为网站日志流量分析做的基础:网站日志流量分析系统,Kafka.HBase集群的搭建可参考:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),里面有关于该搭建过程本次对接Ka ...
spark+phoenix
phoenix作为查询引擎,为了提高查询效率,为phoenix表创建了二级索引,而数据是sparkstreaming通过hbase api直接向hbase插数据.那么问题来了,对于phoenix的二级 ...
sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到Hbase）
话不多说,可以看上篇博文,关于offset存储到zookeeper https://www.cnblogs.com/niutao/p/10547718.html 本篇博文主要告诉你如何将offset写 ...
大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
SparkStreaming运行出现 java.lang.NoClassDefFoundError: org/apache/htrace/Trace 错误
1.简介最近在摸索利用sparkstreaming从kafka中准实时的读取数据,并将在读取的过程中,可以做一个简单的分析,最后将分析结果写入hbase中. 2.出现的问题 (1)将从kafka中读 ...
《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
【SparkStreaming学习之四】 SparkStreaming+kafka管理消费offset
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...

随机推荐

【转载】网站服务器运维记实：阿里云1核2G突发性能t5服务器突然变得卡顿
阿里云突发性能服务器1核2G的t5服务器在高资源利用率的情况下运行一段时间后,发现服务器反应变得很慢,通过windows远程桌面连接上服务器后查看到CPU性能一直在90%到100%之间,无法降下来.前 ...
Oracle 11g设置IP访问限制
出于数据安全考虑,对Oracle数据库的IP做一些限制,只有固定的IP才能访问. 修改$ORACLE_HOME/network/ADMIN/sqlnet.ora文件增加以下内容(红色表示注释): # ...
[Go] golang使用github里的imap类库
1.在windows系统下,需要首先定义两个环境变量GOPATH和GOROOT, GOPATH是第三方类库的代码目录 , GOROOT是go的安装目录 2.按照我的定义 , 进入这个目录D:\gola ...
CentOS7 分布式安装 Hadoop 2.8
1. 基本环境 1.1 操作系统操作系统:CentOS7.3 1.2 三台虚拟机 172.20.20.100 master 172.20.20.101 slave1 172.20.20.102 sl ...
自定义控制台程序导出Dynamics 365实体信息到Excel中。
本人微信公众号:微软动态CRM专家罗勇 ,回复281或者20181116可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me!我的网站是 www.luoyong.me . 有时 ...
OPC协议解析-OPC UA OPC统一架构
1 什么是OPC UA 为了应对标准化和跨平台的趋势,为了更好的推广OPC,OPC基金会近些年在之前OPC成功应用的基础上推出了一个新的OPC标准-OPC UA.OPC UA接口协议包含了之前的 ...
自定义xUtils框架
xUtils是基于Afinal开发的目前功能比较完善的一个Android开源框架,最近又发布了xUtil3.0,在增加新功能的同时又提高了框架的性能.它的功能很强大,但是有时候我们只需要其中的一些功能 ...
Android为TV端助力反编译
http://blog.csdn.net/vipzjyno1/article/details/21039349/ apktool.bat d -f test.apk test 这条命令修改 ...
从头认识一下docker-附带asp.net core程序的docker化部署
从头认识一下docker-附带asp.net core程序的docker化部署简介在计算机技术日新月异的今天, Docker 在国内发展的如火如荼,特别是在一线互联网公司, Docker 的使用是 ...
MongoDB 创建索引的语法
1.为普通字段添加索引,并且为索引命名 db.集合名.createIndex( {"字段名": 1 },{"name":'idx_字段名'}) 说明: (1)索 ...

SparkStreaming+Kafa+HBase

SparkStreaming+Kafa+HBase的更多相关文章

随机推荐

热门专题