问题描述: 我之前使用kafka的命令删除了改topic: ./kafka-topics.sh --delete --zookeeper [zookeeper server]  --topic [topic name] kafka是启用了自动创建topic功能的(之气那测试过可以使用),发布消息到该topic上,此时报错,感觉没删除干净,只是标记为删除状态. 抛出异常信息为: WARN clients.NetworkClient: Error while fetching metadata wi…
Structured Streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink. ForeachWriter实现: 以写入redis为例 package com.dx.streaming.producer; import org.apache.spark.sql.ForeachWriter; import org.apache.spark.sql.Row; import redis.clients.jedis.Jed…
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.>配置好虚拟机,正在使用中,让它强制断电后,启动起来发现ip无法访问,而且重启网络失败: 执行:systemctl restart network.service 出现异常:Failed to start LSB: Br…
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.> 如何安装hadoop2.9.0请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0> 如何配置zookeeper3.4.12 请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(八)安装zook…
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后重建. 域名 ip master 192.168.0.120 slave1 192.168.0.121 slave2 192.168.0.122 2)Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果,在全文检索及新词发展如此快的互联网时代,I…
参考<在Kafka中使用Avro编码消息:Consumer篇>.<在Kafka中使用Avro编码消息:Producter篇> 在了解如何avro发送到kafka,再从kafka解析avro数据之前,我们可以先看下如何使用操作字符串: producer: package com.spark; import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.Produ…
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数,返回一个值.比如:len(),isnull() UDAF:是聚合函数,输入一组值,返回一个聚合结果.比如:max(),avg(),sum() Spark编写UDF函数 下边的例子是在spark2.0之前的示例:例子中展示只有一个参数输入,和一个参数输出的UDF. package com.dx.str…
#文档元数据 一个文档不仅仅包含它的数据 ,也包含 元数据 —— 有关 文档的信息. 三个必须的元数据元素如下:## _index    文档在哪存放 ## _type    文档表示的对象类别 ## _id   文档唯一标识# 索引文档 #通过使用 index API ,文档可以被 索引 —— 存储和使文档可被搜索 .但是首先,我们要确定文档的位置.正如我们刚刚讨论的,一个文档的 _index . _type 和 _id 唯一标识一个文档. 我们可以提供自定义的 _id 值,或者让 index…
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container. spark-submit提交脚本: [spark@master work]$ more submit.sh #! /bin/bash jars="" for…
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.> 如何安装hadoop2.9.0请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0> 如何配置hadoop2.9.0 HA 请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十)安装hadoo…