Spark 实践】的更多相关文章

Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算.Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算. Spark核心概念简介 1.RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算.比如用Spark做统计词频,即拿到一串文字进行WordCount,可以把这个文字数据load到RDD之后,调用map.reducebyKey 算子,最后执行count动作触发…
写这篇小总结是因为前段时间是自己业余时间对Spark相关进行了些探索,接下来可能有别的同事一起加入,且会去借用一些别的服务器资源,希望可以借此理下思路. 实践Spark的原因 在之前Spark简介及安装的文章前面,介绍了Spark在大数据处理领域的一个定位,以及AMP实验室构建的生态圈,总之我定义Spark为一个值得研究的东西,包括他的实现语言Scala,底层的资源管理Mesos/YARN.对于Spark的实践,我理了下思路,大致有以下几个阶段: 1.看paper,官网等网上的资源介绍,了解熟悉…
本文基于<Spark 最佳实践>第6章 Spark 流式计算. 我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景.比如百度统计,它可以做流量分析.来源分析.网站分析.转化分析.另外还有特定场景分析,比如安全分析,用来识别 CC 攻击. SQL 注入分析.脱库等.这里我们简单实现一个类似于百度分析的系统. 代码见 https://github.com/libaoquan95/WebLogAnalyse 1.模拟生成 web log 记录…
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表现,以及处理后的效果总结. 调优前首先要对spark的作业流程清楚: Driver到Executor的结构: Master: Driver |-- Worker: Executor |-- job |-- stage |-- Task Task 一个Stage内,最终的RDD有多少个partitio…
1. HBase安装部署操作 a) 解压HBase安装包tar –zxvf hbase-0.98.0-hadoop2-bin.tar.gzb) 修改环境变量 hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_71/c) 修改配置文件 hbase-site.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="config…
1.前言 上接 YFCC 100M数据集分析笔记 和 使用百度地图api可视化聚类结果, 在对 YFCC 100M 聚类出的景点信息的基础上,使用 Spark MLlib 提供的 ALS 算法构建推荐模型. 本节代码可见:https://github.com/libaoquan95/TRS/tree/master/Analyse/recommend 数据信息:https://github.com/libaoquan95/TRS/tree/master/Analyse/dataset 2.数据预处…
本文基于<Spark 高级数据分析>第4章 用决策树算法预测森林植被集. 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c4/rdf 1.获取数据集 本 章 用 到 的 数 据 集 是 著 名 的 Covtype 数 据 集, 该 数 据 集 可 以 在 线 下 载(http://t.cn/R2wmIsI),包含一个 CSV 格式的压缩数据文件 covtype.data.gz,附带一个描述数据文件的信息文件 covty…
本文基于<Spark 高级数据分析>第3章 用音乐推荐和Audioscrobbler数据 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c3/recommend 1.获取数据集 本 章 示 例 使 用 Audioscrobbler 公 开 发 布 的 一 个 数 据 集. Audioscrobbler 是 last.fm 的 第一个音乐推荐系统. last.fm 创建于 2002 年,是最早的互联网流媒体广播站点之一.…
本文基于<Spark 高级数据分析>第2章 用Scala和Spark进行数据分析. 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c2/Into 1.获取数据集 数据集来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的. 我们要分析的数据集来源于一项记录关联研究,这项研究是…
原文链接:https://www.cnblogs.com/stillcoolme/p/10160397.html 1 业务需求 最近做的24小时书店大数据平台中的一个需求:获取一段时间内只在晚上进店,而白天没有进店的顾客. 输入是指定的开始日期.结束日期.夜出开始时间(nightTimeS).夜出结束时间(nightTimeE).通过userName可以区分一个顾客. 2 业务实现 2.1 第一版 只统计了晚上出现的顾客 下面代码是最开始的实现,有些问题需要改进: 只将晚上出现过的客户统计起来,…