Spark实战记录】的更多相关文章

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~PipelineExample winutils.exe java.lang.NullPointException~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 在运行Spark ML管道 PipelineExample 样例代码的时候报错,这个错误之前我也遇到过,知道是本地环境未配置,当时我以为需要安装Hadoop.Spark的安装程序什么的就嫌麻烦跳过了,现在不得不解决的时候发现还是很简单的.只需要下载spark-2.1…
1. RDD-(Resilient Distributed Dataset)弹性分布式数据集      Spark以RDD为核心概念开发的,它的运行也是以RDD为中心.有两种RDD:第一种是并行Collections,它是Scala collection,可以进行并行计算:第二种是Hadoop数据集,它是并行计算HDFS文件的每条记录,凡是Hadoop支持的文件系统,都可以进行操作.这两种RDD都以同样的方式处理. 1.1 RDD之并行Collections         并行Collecti…
上篇文章中,已经介绍了celery和RabbitMQ的安装以及基本用法. 本文将从工程的角度介绍如何使用celery. 1.配置和启动RabbitMQ 请参考celery+RabbitMQ实战记录. 2. 安装和使用celery 2.1 创建虚拟环境,并安装celery $ mkdir celery_demo $ cd celery_demo $ virtualenv -p python3 venv3 $ ./venv3/bin/pip install celery 项目的目录结构说明: --…
搜索引擎 升级 Elasticsearch 集群数量实战记录 现在线上有一个elasticsearch集群搜索服务有三台elasticsearch实例(es1.es2.es3),打算将其升级为5台(增加es4.es5).这篇文章主要是对整个操作的过程记录,以及出现的问题总结,包括移动数据量所需要的时间.因为,一开始由于不知道线上数据量全部分配完需要多少时间,如果从凌晨开始操作,到早上8点都还没有同步完,这样会影响到白天线上业务的正常使用. 准备阶段 线上es集群使用的是阿里云服务器,copy其中…
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交网络.电子商务,地图等领域.对于图计算的两个核心问题:图存储模式和图计算模型,Spark GraphX给出了近乎完美的答案, 而Spark GraphX作为图计算领域的屠龙宝刀,对Pregel  API的支持更是让Spark GraphX如虎添翼.Spark GraphX可以轻而易举的完成基于度分布…
re实战记录 针对网页中的空格符 一般使用的.,但是它不能匹配\n,所以使用[\s\S]或者[\d\D]匹配所有字符 import re l1=r''' <div class="thumb"> <a href="/article/122164169" target="_blank"> <img src="//pic.qiushibaike.com/system/pictures/12216/12216416…
项目git:https://github.com/yixiaoyang/ruby 为熟悉Rails的基本特性创建的工程,本博文仅作更新记录. (1)2013.10.1-2013.10.5 Ruby基本语法demo若干 创建rails Demo/First工程,了解基本的REST操作及MVC架构. 创建demo工程的数据资源间的多重关联 创建rails Sample工程 创建Sample工程的rspec自动化测试 instant '@title' virible with Embedded Rub…
Spark的分布式架构 如我们所知,spark之所以强大,除了强大的数据处理功能,另一个优势就在于良好的分布式架构.举一个例子在Spark实战--寻找5亿次访问中,访问次数最多的人中,我用四个spark节点去尝试寻找5亿次访问中,次数最频繁的ID.这一个过程耗时竟然超过40分钟,对一个程序来说,40分钟出结果这简直就是难以忍耐.但是在大数据处理中,这又是理所当然的.当然实际中不可能允许自己的程序在简单的仅处理五亿次访问中耗费如此之大的时间,因此考虑了分布式架构.(PS:当然处理5亿次请求的示例中…
一.通过RDD实战电影点评系统 日常的数据来源有很多渠道,如网络爬虫.网页埋点.系统日志等.下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:uers.dat.ratings.dat和movies.dat. 其中,uers.dat的格式如下: UserID::Gender::Age::Occupation::Zip-code ,这个文件里共有6040个用户的信息,每行中用“::”隔开的详细信息包括ID.性别(F.M分别表示女性.男性).年龄(使用…
最近,为了解放运营人力,需要对某国企的系统进行自动化操作.该系统使用的是https,需要加载证书,而且非得用IE才行,firefox无法正常的加载证书.而selenium启动的IE是纯净的,不会加载任何东西.关于selenium如何能够支持对https的系统进行测试,这个还需要研究.而对这个系统进行自动化操作,只是个权宜之计,所以不打算在这上面浪费过多的成本,前段时间对sikuli也做了一些了解,这回就考虑使用sikuli迅速开发一个脚本,顺便进行一次实战的检查. 1.安装 1)下载sikuli…