kafka文档翻译(一)】的更多相关文章

原文来自(http://kafka.apache.org/documentation.html) 本文只做简单的翻译,水平有限,仅供学习交流使用 如有错误,欢迎点评指正 1  准备开始 1.1 介绍 kafka是一个分布式的,分区的,复用的日志提交服务.它以一种独特的设计方式提供消息传递系统的功能. 首先让我们回顾一些基本的消息术语 * kafka在不同的类别中维持消息,这些类别被称为主题(topic) * 我们把发布消息给kafka topic的程序称为生产者(producer) * 我们称那…
简介 Kafka擅长于做什么? 它被用于两大类应用: 在应用间构建实时的数据流通道 构建传输或处理数据流的实时流式应用 几个概念: Kafka以集群模式运行在1或多台服务器上 Kafka以topics的形式存储数据流 每一个记录包含一个key.一个value和一个timestamp Kafka有4个核心API: Producer API:用于应用程序将数据流发送到一个或多个Kafka topics Consumer API:用于应用程序订阅一个或多个topics并处理被发送到这些topics中的…
下面是博主的公众号,后续会发布和讨论一系列分布式消息队列相关的内容,欢迎关注. --------------------------------------------------------------------------------------------------------- Design 1. Motivation 我们设计Kafka用来作为统一的平台来处理大公司可能拥有的所有实时数据源.为了做到这点,我们必须思考大量的使用场景. 它必须有高吞吐去支持大数据流,例如实时日志聚合.…
IMPLEMENTATION 1. API Design Producer APIs Producer API封装了底层两个Producer: kafka.producer.SyncProducer kafka.producer.async.AsyncProducer class Producer { /* Sends the data, partitioned by key to the topic using either the */ /* synchronous or the async…
摘要:Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写.Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素. 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决. 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案.Kafka的目的是通过Hadoop的并行加载机制来统一线…
Apache Kafka是一个分布式流平台.准确的说是什么意思呢?我们认为流平台具有三种关键能力: 1.让你对数据流进行发布订阅.因此他很像一个消息队列和企业级消息系统. 2.让你以高容错的方式存储数据流. 3.让你在数据流出现时处理他们. kafka擅长什么?他通常被用在两大类应用: 1.构建一个能可靠的在系统或应用之间获取数据的实时的数据流管道. 2.构建一个能转换或响应数据流的实时流应用. 为了更好的理解kafka是如何做到上面的事,下面我们深入探索kafka的各种姿势. 首先了解几个概念…
最近工作中用到了两个很给力的项目,一个是Kafka,一个是Strom.本着自我学习并方便他人的目的,我会将我觉得比较有用的英文文档翻译在此(保留系统专有名词不作翻译). 1kafka介绍 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算. Apache Kafka是一个开源消息系统,由Scala写成. Kafka是一个分布式消息队列:生产者.消费者的功能.它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现. Kafka对消息保存…
http://ifeve.com/flink-quick-start/ http://vinoyang.com/2016/05/02/flink-concepts/ http://wuchong.me/blog/2016/05/09/flink-internals-understanding-execution-resources/ 并行数据流 程序在Flink内部的执行具有并行.分布式的特性.stream被分割成stream partition,operator被分割成operator sub…
[TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计.本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结.(如有任何纰漏…
前言 最新项目中要用到消息队列来做消息的传输,之所以选着 Kafka 是因为要配合其他 java 项目中,所以就对 Kafka 了解了一下,也算是做个笔记吧. 本篇不谈论 Kafka 和其他的一些消息队列的区别,包括性能及其使用方式. 简介 Kafka 是一个实现了分布式的.具有分区.以及复制的日志的一个服务.它通过一套独特的设计提供了消息系统中间件的功能.它是一种发布订阅功能的消息系统. 一些名词 如果要使用 Kafka ,那么在 Kafka 中有一些名词需要知道,文本不讨论这些名词是否在其他…