Kafka 消息存储及检索(作者：杜亦舒)

Kafka 消息存储及检索原创 2016-02-29 杜亦舒性能与架构 Kafka是一个分布式的消息队列系统,消息存储在集群服务器的硬盘Kafka中可以创建多个消息队列,称为topic,消息的生产者向topic中发布消息,消息的消费者从topic中获取消息消息是海量的,为了消息的读写性能,topic被分为多个部分,称为partition,kafka把每个topic的每个partition均匀的分布在集群中的不同服务器上所以从整体来看,Kafka的逻辑关系就是:生产者向topic中的某个par…

Kafka 快速起步(作者：杜亦舒)

Kafka 快速起步原创 2017-01-05 杜亦舒性能与架构主要内容:1. kafka 安装.启动2. 消息的生产.消费3. 配置启动集群4. 集群下的容错测试5. 从文件中导入数据,并导出到文件单机示例安装 tar -xzf kafka_2.10-0.10.1.1.tgz cd kafka_2.10-0.10.1.1 启动 > bin/zookeeper-server-start.sh \ config/zookeeper.properties > bin/kafka-ser…

Kafka消息存储原理

kafka消息存储机制 (一)关键术语复习一下几个基本概念,详见上面的基础知识文章. Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker能够组成一个Kafka集群. Topic:一类消息,比如page view日志.click日志等都能够以topic的形式存在.Kafka集群能够同一时候负责多个topic的分发. Partition:topic物理上的分组.一个topic能够分为多个partition,每一个partition是一个有序的队列. Segm…

kafka消息存储与partition副本原理

消息的存储原理: 消息的文件存储机制: 前面我们知道了一个 topic 的多个 partition 在物理磁盘上的保存路径,那么我们再来分析日志的存储方式.通过 ll /tmp/kafka-logs/testTopic-0/ 命令找到对应 partition 下的日志内容: kafka 是通过分段的方式将 Log 分为多个 LogSegment,LogSegment 是一个逻辑上的概念,一个 LogSegment 对应磁盘上的一个日志文件和一个索引文件,其中日志文件是用来记录消息的.索引文件是用…

OpenResty 作者章亦春访谈实录

[软件简介] OpenResty (也称为 ngx_openresty)是一个全功能的 Web 应用服务器.它打包了标准的 Nginx 核心,很多的常用的第三方模块,以及它们的大多数依赖项. 通过众多进行良好设计的 Nginx 模块,OpenResty 有效地把 Nginx 服务器转变为一个强大的 Web 应用服务器,基于它开发人员可以使用 Lua 编程语言对 Nginx 核心以及现有的各种 Nginx C 模块进行脚本编程,构建出可以处理一万以上并发请求的极端高性能的 Web 应用. Ope…

kafka 消息存储分析

kafka 可以支持海量数据发送,轻轻松松QPS过十万,如果JVM内存存储这一块如果不够优秀,根本无法支持这么庞大的QPS. 存储架构(这里这是落地数据,并木有涉及到序列化发送数据到broker) RecordAccumulator : 此类充当将记录累积到MemoryRecords RecordBatch:按TOPIC-PARTITION维度记录要发送的数据 MemoryRecords:需要发送的数据暂存储的地方通过MemoryRecords属性,我们可以还原存储过程,利用compresso…

Kafka 消息存储机制

Kafka 消息以 Partition 作为存储单元,那么在 Partition 内消息是以什么样的格式存储的呢,如何处理 Partition 中的消息,又有哪些安全策略来保证消息不会丢失呢,这一篇我们一起看看这些问题. Partition 文件存储方式每个 Topic 的消息被一个或者多个 Partition 进行管理,Partition 是一个有序的,不变的消息队列,消息总是被追加到尾部.一个 Partition 不能被切分成多个散落在多个 broker 上或者多个磁盘上. 它作为消息管理…

Kafka 快速起步

Kafka 快速起步原创 2017-01-05 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计主要内容:1. kafka 安装.启动2. 消息的生产.消费3. 配置启动集群4. 集群下的容错测试5. 从文件中导入数据,并导出到文件单机示例安装 tar -xzf kafka_2.10-0.10.1.1.tgz cd kafka_2.10-0.10.1.1 启动 > bin/zookeeper-server-start.sh \confi…

Kafka 高可用设计

Kafka 高可用设计 2016-02-28 杜亦舒 Kafka在早期版本中,并不提供高可用机制,一旦某个Broker宕机,其上所有Partition都无法继续提供服务,甚至发生数据丢失对于分布式系统,当集群规模上升到一定程度后,宕机的可能性大大提高,对高可用性就有了非常高要求Kafka在0.8版本提供了高可用机制,主要是增加了Partition的复制设计引入Partition的Replication之后,同一个Partition的就有了多个副本,把这些副本均匀的分布到多个Broker上,就保证…

Mysql 压力测试工具 mysqlslap

转载至文章作者:杜亦舒链接:https://www.sdk.cn/news/4512 来源:SDK.cn 摘要:mysqlslap 是 Mysql 自带的压力测试工具,可以模拟出大量客户端同时操作数据库的情况,通过结果信息来了解数据库的性能状况 mysqlslap 是 Mysql 自带的压力测试工具,可以模拟出大量客户端同时操作数据库的情况,通过结果信息来了解数据库的性能状况 mysql slap 的一个主要工作场景就是对数据库服务器做基准测试例如我们拿到了一台服务器,准备做为数据库服务器,…

分布式消息队列 Kafka

分布式消息队列 Kafka 2016-02-25 杜亦舒 Kafka是一个高吞吐量的.分布式的消息系统,由Linkedin开发,开发语言为scala具有高吞吐.可扩展.分布式等特点适用场景活动数据统计活动数据包括页面访问量(Page View).被查看内容方面的信息.搜索情况等内容先以日志的形式存储,然后周期性地对这些文件进行统计分析运营数据统计收集服务器的性能数据(CPU.内存.IO使用率 --),之后进行统计Linkedin就是基于这类需求开发出了Kafka,所以kafka最适合的场景为…

Kafka是如何实现高吞吐率的

Kafka是如何实现高吞吐率的原创 2016-02-27 杜亦舒性能与架构 Kafka是分布式消息系统,需要处理海量的消息,Kafka的设计是把所有的消息都写入速度低容量大的硬盘,以此来换取更强的存储能力,但实际上,使用硬盘并没有带来过多的性能损失kafka主要使用了以下几个方式实现了超高的吞吐率顺序读写 kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写Kafka官方给出…

MaxScale：实现MySQL读写分离与负载均衡的中间件利器

1. MaxScale 是干什么的? 配置好了 MySQL 的主从复制结构后,我们希望实现读写分离,把读操作分散到从服务器中,并且对多个从服务器能实现负载均衡. 读写分离和负载均衡是MySQL集群的基础需求,MaxScale 就可以帮着我们方便的实现这些功能. 2.MaxScale 的基础构成 MaxScale 是MySQL的兄弟公司 MariaDB 开发的,现在已经发展得非常成熟.MaxScale 是插件式结构,允许用户开发适合自己的插件. MaxScale 目前提供的插件功能分为5类: 认…

快速认识ELK中的L - Logstash

快速认识ELK中的L - Logstash 原创 2016-12-07 杜亦舒简介 Logstash 是一个开源的数据采集引擎. Logstash 就像是一个管子,左面接数据源接收数据,右面接存储目的地,管子中间有过滤器,对接收到的数据进行过滤,只存储符合要求的数据. 例如左面可以对接日志文件.Reids.Kafka -- 右面可以对接 Elasticsearch.Kafka.MongoDB-- 所以 Logstash 的核心构成就是 input.filter.output. Logsta…

Hadoop 集群搭建 mark

Hadoop 集群搭建原创 2016-09-24 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计目标在3台服务器上搭建 Hadoop2.7.3 集群,然后测试验证,要能够向 HDFS 上传文件,并成功运行 mapreduce 示例程序搭建思路 (1)准备基础设施准备3台服务器,分别命名为 master.slave1.slave2 互相配置为 SSH 免密码登录,并都安装好 JAVA 环境 (2)安装配置 hadoop 在 master…

服务发现与负载均衡 dubbo zk原理

服务发现与负载均衡拓展阅读 : dubbo 原理概念图 2016-03-03 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计内容整理自文章“实施微服务,我们需要哪些基础框架” 作者杨波微服务架构是由一系列职责单一的细粒度服务构成的分布式网状结构,服务之间通过轻量机制进行通信这时候必然引入一个服务注册发现问题,服务提供方要注册通告服务地址,服务的调用方要能发现目标服务,同时服务提供方一般以集群方式提供服务,也就引入了负载均衡和健康检查问题…

分布式协调服务ZooKeeper工作原理

分布式协调服务ZooKeeper工作原理原创 2016-02-19 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计大数据处理框架Hadoop.Redis分布式服务Codis.淘宝的分布式消息中间件MetaMQ …… 他们都使用ZooKeeper做为基础部件,可以看出ZooKeeper的强大 ZooKeeper是什么 ZooKeeper(ZK)是一个分布式开源协调服务框架,是Google的Chubby一个开源的实现,是hadoop的一个子项目…

Redis 实例排除步骤

Redis 应用案例 - 在问题中不断成长原创 2017-02-05 杜亦舒本文翻译整理自 Andy Grunwald 发布的一篇文章,写的是作者所在公司使用 Redis 时遇到的问题,以及处理过程,在不断解决调整中积累了很多 Redis 的使用经验背景产品类型:酒店搜索技术选型:前端 PHP + 后端 Java,都会用到 Redis Redis 使用场景:缓存.数据持久化前的临时存储 2010年开始应用 Redis,PHP 对其操作时使用的是 Predis 这个客户端库 2013年…

HDFS 核心原理

HDFS 核心原理 2016-01-11 杜亦舒 HDFS(Hadoop Distribute File System)是一个分布式文件系统文件系统是操作系统提供的磁盘空间管理服务,只需要我们指定把文件放到哪儿,从哪个路径读取文件句可以了,不用关心文件在磁盘上是如何存放的当文件所需空间大于本机磁盘空间时,如何处理呢?一是加磁盘,但加到一定程度就有限制了二是加机器,用远程共享目录的方式提供网络化的存储,这种方式可以理解为分布式文件系统的雏形,可以把不同文件放入不同的机器中,空间不足了可以继续加机器…