Samza文档翻译 : Architecture】的更多相关文章

http://samza.incubator.apache.org/learn/documentation/0.7.0/introduction/architecture.html Samza由三层组成: A streaming layer 消息流层 An execution layer 执行层 A processing layer 处理层 Samza自身提供了对所有三个层的支持: Streaming : Kafka Execution: YARN Processing: Samza API 这…
此页介绍啊Samza的一些高层级概念. Streams Samza处理Streams(流).流由同一类型的不可变的消息组成.例如,一个流可以是对一个网站的所有点击,或者对一个数据库表的所有更新,或者一个服务产生的所有日志,或者其它类型的消息数据.消息可以被追加到一个流上或者从一个流读出来.一个流可以有任意数量的消费者,并且从一个流读消息并不会把消息从其中删除(所有每息都可以有效地广播到其它消费者).消息可以有选择地拥有一个相关连的key用做分区partitioning,分区的问题接下来会提到.…
http://samza.incubator.apache.org/learn/documentation/0.7.0/comparisons/introduction.html 这里有一些使得Samza和其它流处理项目不同的高层设计决策. The Stream Model 流模型 流是Samza job的输入和输出.Samza有非常强的流模械型——不仅是一个简单的消息交换系统.Samza中的stream是一个分区的.每个分区有序的.可重放的.多订阅者的,无损的消息序列.(A stream in…
这一页提供了关于流处理的背景知识,描述什么是Samza,以及它为何而生. what is messaging?什么叫消息? 消息系统是用来实现近实时异步计算的一种流行方式.当事件发生时,消息可以被放在消息队列里(ActiveMQ, RabbitMQ),发布-订阅系统(Kestrel, Kafka)里,或者日志汇集系统(Flume,Scribe)里.下游的消费者从这些系统里读消息,进行处理,或者根据消息内容采取行动.   假如你有一个网站,并且每次有人加载一个网页,就发送发一个"用户查看了页面&q…
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Large Data Sets(大数据集) Simple Coherency Model(简单一致性模型) "Moving Computation is Cheaper than Moving Data&q…
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Large Data Sets(大数据集) Simple Coherency Model(简单一致性模型) “Moving Computation is Cheaper than Moving Data”(…
The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is to have a global ResourceManager (RM) and per-application ApplicationMaster (AM). An application i…
Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw stream of data flowing through the ingest pipeline is not desired behaviour in many production environments because this may result in leaking sensit…
zhuan :https://www.linkedin.com/pulse/100-open-source-big-data-architecture-papers-anil-madan Big Data technology has been extremely disruptive with open source playing a dominant role in shaping its evolution. While on one hand it has been disruptiv…
http://engineering.linkedin.com/data-streams/apache-samza-linkedins-real-time-stream-processing-framework http://samza.incubator.apache.org/ 前两年一直在使用Kafka, 虽说Kafka一直说可用于online分析, 但是实际在使用的时候会发现问题很多, 比如deploy, 调度, failover等, 我们也做了一些相应的工作 Samza算是把这个补全了,…