查看kafka的topic数据

2024-08-18

kafka 清除topic数据脚本

原 kafka 清除topic数据脚本 2018年07月25日 16:57:13 pete1223 阅读数:1028 #!/bin/sh param=$1 echo "=============" echo ${param} echo "kafka-topics.sh --zookeeper localhost:2181 --delete --topic ${param}" kafka-topics.sh

kafka删除topic数据

一.概述生产环境中,有一个topic的数据量非常大.这些数据不是非常重要,需要定期清理. 要求:默认保持24小时,某些topic 需要保留2小时或者6小时二.清除方式主要有3个: 1. 基于时间 2. 基于日志大小 3. 基于日志起始偏移量详情,请参考链接: https://blog.csdn.net/u013256816/article/details/80418297 接下来,主要介绍基于时间的清除! kafka版本为: 2.11-1.1.0 zk版本为: 3.4.13 三.ka

kafka全部数据清空与某一topic数据清空

1. Kafka全部数据清空 kafka全部数据清空的步骤为: 停止每台机器上的kafka: 删除kafka存储目录(server.properties文件log.dirs配置,默认为“/tmp/kafka-logs”)全部topic的数据目录: 删除zookeeper上与kafka相关的znode节点: 重启kafka.如果删除topic还在则需要重启zookeeper: 这里以192.168.187.201 node1.192.168.187.202 node2.192.168.187.20

mysql+canal+kafka+elasticsearch构建数据查询平台

1. 实验环境 CPU:4 内存:8G ip:192.168.0.187 开启iptables防火墙关闭selinux java >=1.5 使用yum方式安装的java,提前配置好JAVA_HOME环境变量 vim /etc/profile.d/java.sh #!/bin/bash export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk # 路径根据实际情况而定 export PATH=$PATH:$JAVA_HOME/bin source /et

kafka 删除topic清空数据

原 kafka 删除topic清空数据 2018年11月20日 18:17:50 Ming! 阅读数:1391 版权声明:版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq_39657597/article/details/84307541 一般情况下,是不会删除数据的.到达一定时间后,kafka会自动删除.如果一定要删除可以删除topic在重建topic了 No. 1: 如果需要被删除topic 此时正在被程序 produce和consu

Kafka日志及Topic数据清理

由于项目原因,最近经常碰到Kafka消息队列拥堵的情况.碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log.但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况. 在介绍手动删除操作之前,先简单的介绍一下Kafka消费Offset原理. 一.Kafka消费Offset 在通过Client端消费Kafka中的消息时,消费的消息会同时在Zookeeper和Kafka Log中保存,如

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据

将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": "userlog", "fields": [ {"name": "ip","type": "string"}, {"name": "identity"

Kafka学习笔记之Kafka自身操作日志的清理方法(非Topic数据)

0x00 概述本文主要讲Kafka自身操作日志的清理方法(非Topic数据),Topic数据自己有对应的删除策略,请看这里. Kafka长时间运行过程中,在kafka/logs目录下产生了大量的kafka-request.log.*和server.log.*文件,其中*代表日期和时间,比如kafka-request.log.2018-12-08-03和server.log.2018-12-06-03,这些文件对磁盘空间的消耗非常大,需要定期备份或者清理.目前没有发现kafka自身提供了这些操作

kafka删除topic及其相关数据

1.删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录 2.Kafka 删除topic的命令是: ./bin/kafka-topics --delete --zookeeper [zookeeper server] --topic [topic name] 如果kafaka启动时加载的配置文件中server.properties没有配置delete.topic.enable=true,那么

（一）kafka修改topic分区的位置

(一)kafka修改topic分区的位置环境:kafka_2.10-0.8.2.1 + JDK1.7.0_80 1. 查看分区topic的分区分布 $ le-kafka-topics.sh --describe --topic http_zhixin_line1 结果如下: [hadoop@sdf-nimbus-perf project]$ le-kafka-topics.sh --describe --topic http_zhixin_line1 Topic:http_zhixin_lin

kafka删除topic的方法及我在kafka上边的一些经验

我在本地做kafka的producer调试,每隔一段时间后,所使用的topic管道就会堆积数据,而且我这边使用的是 kafka bin 下的consumer命令单独消费的,每次都是 --from-beginning,,启动后有一堆数据,感觉麻烦,,,所幸抽出点时间来,,看看怎么干掉他下边来看俩种常见的方法:见下文! ------------------------------------------------------------------------------------

如何使用kafka增加topic的备份数量，让业务更上一层楼

本文由云+社区发表一.困难点建立topic的时候,可以通过指定参数 --replication-factor 设置备份数量.但是,一旦完成建立topic,则无法通过kafka-topic.sh 或者命令修改replica数量. 二.解决办法实际上,我们可以考虑一种 "另类" 的办法:可以利用 kafka-reassign-partitions.sh 命令对所有分区进行重新分布,在做分区重新分布的时候,通过增加每个分区的replica备份数量来达到目的. 本文将介绍如何利

spark-streaming集成Kafka处理实时数据

在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL. 前提条件安装 1)spark:我使用的yarn-client模式下的spark,环境中集群客户端已经搞定 2

Flume和Kafka完成实时数据的采集

Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中,一般都是结合起来使用的.可以使用它们两者结合起来收集实时产生日志信息,这一点是很重要的.如果,你不了解flume和kafka,你可以先查看我写的关于那两部分的知识.再来学习,这部分的操作,也是可以的. 实时数据的采集,就面临一个问题.我们的实时数据源,怎么产生呢?因为我们可能想直接获取实时的数据流不是那么的方便.我前面写过一篇文章,关于实时数据流的python产生器,文章地址:http://blog.csdn

[转帖]kafka 如何保证数据不丢失

kafka 如何保证数据不丢失 https://www.cnblogs.com/MrRightZhao/p/11498952.html 一般我们在用到这种消息中件的时候,肯定会考虑要怎样才能保证数据不丢失,在面试中也会问到相关的问题.但凡遇到这种问题,是指3个方面的数据不丢失,即:producer consumer 端数据不丢失 broker端数据不丢失下面我们分别从这三个方面来学习,kafka是如何保证数据不丢失的一.producer 生产端是如何保证数据不丢失的 1.ack的配置策略

Kafka学习笔记之如何永久删除Kafka的Topic

0x00 问题描述使用kafka-topics --delete命令删除topic时并没有真正的删除,而是把topic标记为:“marked for deletion”,导致重新创建相同名称的Topic时报错“already exists”. 0x01 问题复现 1. 登录Kafka集群所在的服务器,创建一个test的topic [root@cdh1 ~]# kafka-topics --create --zookeeper 192.168.2.13: --replication-factor

kafka修改topic副本数

工作案例: 大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险.需要立刻把副本数改为3个. 开始干活,首先想到的是下面的命令: ${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --partitions $2 --alter${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --

Kafka连接器建立数据管道

1.概述最近,有同学留言咨询Kafka连接器的相关内容,今天笔者给大家分享一下Kafka连接器建立数据管道的相关内容. 2.内容 Kafka连接器是一种用于Kafka系统和其他系统之间进行功能扩展.数据传输的工具.通过Kafka连接器能够简单.快速的将大量数据集移入到Kafka系统,或者从Kafka系统中移出,例如Kafka连接器可以低延时的将数据库或者应用服务器中的指标数据收集到Kafka系统主题中.另外,Kafka连接器可以通过作业导出的方式,将Kafka系统主题传输到二次存储和查询系统中

Spark Streaming消费Kafka Direct方式数据零丢失实现

使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候,重启程序,而程序的消费方式是Direct,所以在程序down掉的这段时间Kafka上的数据是消费不到的,虽然可以设置offset为smallest,但是会导致重复消费,重新overwrite hive

【帖子】怎么彻底删除kafka的topic，然后重建？

怎么彻底删除kafka的topic,然后重建? 网上都说用kafka-run-class.shkafka.admin.DeleteTopicCommand 命令删除topic,但是并没有成功,用kafka-topics.sh命令查看依然可以查看到topic,应该怎样才能彻底删除topic? 2016-01-01 添加评论分享 2 个回复 OpenSkill - OpenSkill官方账号赞同来自: Ansible .being **kafka 0.8.1.1以及之前版本**都无法使用类似

查看kafka的topic数据

热门专题