kafka写入hdfs

碰到的问题

　　（1）线程操作问题，因为单机节点，代码加锁就好了，后续再写

　　（2）消费者写hdfs的时候以流的形式写入，但是什么时候关闭流就是一个大问题了，这里引入了 fsDataOutputStream.hsync();

 hsync  保证 hdfs在写数据的时候被新的reader读到，保证数据被datanode持久化

生产者

 package com.xuliugen.kafka.demo;
 
 import org.apache.kafka.clients.producer.KafkaProducer;
 import org.apache.kafka.clients.producer.ProducerRecord;
 
 import java.util.Properties;
 
 public class ProducerDemo {
 
     // Topic
     private static final String topic = "tangsonghuai";
 
     public static void main(String[] args) throws Exception {
 
         Properties props = new Properties();
         props.put("bootstrap.servers", "192.168.15.140:9092");
         props.put("acks", "0");
         props.put("group.id", "1111");
         props.put("retries", "0");
         props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
         props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
 
         //生产者实例
         KafkaProducer producer = new KafkaProducer(props);
 
         int i = 1;
 
         // 发送业务消息
         // 读取文件 读取内存数据库 读socket端口
         while (i<50) {
             Thread.sleep(100);
             producer.send(new ProducerRecord<String, String>(topic, "key:" + i, "value:" + i));
             System.out.println("key:" + i + " " + "value:" + i);
             i++;
         }
     }
 }

消费者

 package com.xuliugen.kafka.demo;
 
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FSDataOutputStream;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.io.IOUtils;
 import org.apache.kafka.clients.consumer.ConsumerRecord;
 import org.apache.kafka.clients.consumer.ConsumerRecords;
 import org.apache.kafka.clients.consumer.KafkaConsumer;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.ByteArrayInputStream;
 import java.io.IOException;
 import java.net.URI;
 import java.util.*;
 
 public class ConsumerDemo {
     private static final Logger logger = LoggerFactory.getLogger(ConsumerDemo.class);
     private static final String topic = "tangsonghuai";
 
     public static void main(String[] args) throws IOException {
 
         Properties props = new Properties();
         props.put("bootstrap.servers", "192.168.15.140:9092");
         props.put("group.id", "1111");
         props.put("enable.auto.commit", "true");
         props.put("auto.commit.interval.ms", "1000");
         props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
         props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
 
         KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);
 
         consumer.subscribe(Arrays.asList(topic));
         int i = 0;
         String uri = "hdfs://192.168.15.140:9000/";
         Configuration configuration = new Configuration();
         configuration.set("dfs.client.block.write.replace-datanode-on-failure.policy", "NEVER");
 
         FileSystem fs = FileSystem.get(URI.create(uri), configuration);
         final String pathString = "/d1/tangsonghuai";
         final FSDataOutputStream fsDataOutputStream = fs.append(new Path(pathString));
         while (true) {
             ConsumerRecords<String, String> records = consumer.poll(1000);
             for (ConsumerRecord<String, String> record : records) {
                 System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
 //                HashMap<String, String> hmap= new HashMap<String, String>();
 //                hmap.put(record.key(),record.value());
 
                 fsDataOutputStream.write((record.offset()+","+record.key() + "," + record.value()+"\n").getBytes());
                 fsDataOutputStream.hsync();
                 i++;
                 if (i == 70) {
                     fsDataOutputStream.close();
                     consumer.close();
                 }
 
 //                IOUtils.copyBytes(new ByteArrayInputStream(record.value().getBytes()),
 //                        fsDataOutputStream,configuration, true);
             }
         }
 
     }
 }

pom.xml

 <?xml version="1.0" encoding="UTF-8"?>
 <project xmlns="http://maven.apache.org/POM/4.0.0"
          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
     <modelVersion>4.0.0</modelVersion>
 
     <groupId>com.xuliugen.kafka</groupId>
     <artifactId>kafka.demo</artifactId>
     <version>1.0-SNAPSHOT</version>
 
     <dependencies>
         <dependency>
             <groupId>org.apache.kafka</groupId>
             <artifactId>kafka-clients</artifactId>
             <version>2.0.0</version>
         </dependency>
 
         <dependency>
             <groupId>org.slf4j</groupId>
             <artifactId>slf4j-log4j12</artifactId>
             <version>1.7.12</version>
         </dependency>
         <dependency>
             <groupId>org.slf4j</groupId>
             <artifactId>slf4j-api</artifactId>
             <version>1.7.12</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-common</artifactId>
             <version>2.8.5</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-hdfs</artifactId>
             <version>2.8.5</version>
         </dependency>
 
     </dependencies>
 
 </project>

kafka写入hdfs的更多相关文章

Mysql增量写入Hdfs（一） --将Mysql数据写入Kafka Topic
一. 概述在大数据的静态数据处理中,目前普遍采用的是用Spark+Hdfs(Hive/Hbase)的技术架构来对数据进行处理. 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后存储到 ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
Kafka到Hdfs的数据Pipeline整理
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka ...
Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了.实时应用场景可以使用Storm,它是一 ...
[转载] Kafka+Storm+HDFS整合实践
转载自http://www.tuicool.com/articles/NzyqAn 在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统 ...
Mysql增量写入Hdfs（二） --Storm+hdfs的流式处理
一. 概述上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到hdfs的过程,由于storm写入hdfs的可定制东西有些多,我们先不从kafka读取,而先 ...
Kafka Connect HDFS
概述 Kafka 的数据如何传输到HDFS?如果仔细思考,会发现这个问题并不简单. 不妨先想一下这两个问题? 1)为什么要将Kafka的数据传输到HDFS上? 2)为什么不直接写HDFS而要通过Kaf ...

随机推荐

Exp1 PC平台逆向破解
本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串. 该程序同时包含另一个代码片段,getShell,会返 ...
Java使用AES算法进行加密解密
一.加密 /** * 加密 * @param src 源数据字节数组 * @param key 密钥字节数组 * @return 加密后的字节数组 */ public static byte[] En ...
JGUI源码：JS菜单动态绑定(8)
我们知道Jquery绑定事件后的新添加的对象是不响应事件的,为了解决这个问题,动态添加的对象需要从新绑定,使用一个init方法实现代码如下 //Accordion封装 (function($) { J ...
hibernate自定义校验Valid
步骤: 1.定义注解: import javax.validation.Constraint; import javax.validation.Payload; import java.lang.an ...
[C++] const与指针的关系
首先快速复习一些基础. 考虑下面的声明兼定义式: int p = 10; p的基础数据类型是int. 考虑下面的声明兼定义式: const int a = 10; a的基础数据类型是int,a是一个常 ...
#1 macos和windows下对多Python环境配置的记录
为啥会发现环节配置的问题因为scrapy的setting前期走弯路的时候,碰到了修改了Windows下的Python中的scrapy的默认setting,但是我电脑上还有anaconda,而且我是使 ...
DOS:第二天
今天介绍 dir ------------ dir (directory,目录)是一个条列档案及目录的命令行界面指令,在CP/M.VMS.DOS.OS/2.Singularity及Microsoft ...
【实验四】[bx]和loop的使用
四.实验结论任务一: (1) ①当我写 mov ax,b800h时,编译报错了. ②清屏后运行 (2)将源代码程序中字数据0403H→修改为0441H,再次运行,图案发生了变化. 任务二: (1) ...
mysql字符集设置注意事项
mysql字符集设置必须是在具体的某一个数据库情况下才能进行设置否则会报错.
小程序git发布
微信小程序提交项目: 1.码云上创建一个项目 xiaochengxu 2.本地创建一个文件夹,然后在控制台使用 cd 文件夹名字 (将文件拉到控制台) 3.使用 git init 命令 ,初始化一个g ...

kafka写入hdfs

kafka写入hdfs的更多相关文章

随机推荐

热门专题