本文主要讲Facebook扩展spark替换hive的过程中积累的经验和教训. 浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html. 实时实体排名在Facebook上以各种方式使用.对于这些在线服务平台中的一些原始特征值是通过Hive离线生成的,并且数据被加载到实时查询系统中.多年前构建的旧的基于Hive的基础架构是资源密集型的计算架构,并且难以维护,因为…
原文地址:http://blog.jobbole.com/?p=89446 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的.一段时间之后,我做了一个有趣的数据科学项目,它试着去 预测在泰坦尼克号上幸存.对于进一步了解Spark内容和编程来说,这被证明是一个很好的方式.对于任何有追求的.正在思考如何着手的Spark开发人员,我都非常推荐这个项目. 今天,Spark已经被很多巨头使用,包括Amazon.eBay以及Yahoo!.很多组织都在拥…
今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ,正印证了"微软在不断通过.NET Core补齐各领域开发,真正实现一种语言的跨平台"这句话.那么我们今天就来看看这个 .NET for Apache Spark到底是个什么鬼? 作者:依乐祝 原文链接:https://www.cnblogs.com/yilezhu/p…
What is Spark Apache Spark is a cluster computing framework, similar to Apache Hadoop. Wikipedia has a great description of it: Apache Spark is an open source cluster computing framework originally developed in the AMPLab at University of California,…
什么是.NET for Apache Spark? 分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark for Apache Spark   今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ,正印证了“微软在不断通过.NET Core补齐各领域开发,真正实现一种语言的跨平台”这句话.那…
Spark版本:1.1.0 本文系以开源中国社区的译文为基础,结合官方文档翻译修订而来,转载请注明以下链接: http://www.cnblogs.com/zhangningbo/p/4117981.html http://www.oschina.net/translate/spark-tuning 目录 数据序列化 内存优化 确定内存消耗 优化数据结构 序列化RDD存储 优化内存回收 其他考虑因素 并行度 Reduce任务的内存用量 广播”大变量“ 总结 因为大多数Spark程序都具有“内存计…
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久性 Checkpointing Accumulators, Broadcas…
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图 创建Datasets RDD的互操作性 使用反射推断Schema 以编程的方式指定Schema Aggregatio…
[编者按]时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能.易于使用等特性.然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结(虽然有些地方基于的是Spark 1.0版本,但仍然值得阅读)—— Apache Spark:An Engine for Large-Scale Data Processing,由OneAPM工程师翻译. 本文聚焦Apache…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 目标 市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据.但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构.我们将利用Apache Spark(Core,SQL,Streaming),Apache Parquet,Twitter Stream等实时流数据快速访问历史数据.还包括清晰的代码和直观的演示! 简史 Apache Hadoop的丰富历…