Spark入门级小玩

【Spark入门级小玩】的更多相关文章

·背景随着周边吐槽hadoop的声音渐渐多起来之后,spark也逐渐进入了大家的视野.之前,笔者有粗略的写过一篇spark的安装和性能比较[http://www.cnblogs.com/zacard-orc/p/3526007.html],加上这两天重读着大学时候的一些基础书籍,感觉IT领域大局势就像DNA的结构一样.百家齐鸣却又万象归一,就像APP与H5的战争一样,内存计算及磁盘计算在各领风骚数十年后,可能渐渐也有了一丝明朗的阳光,同时也给了一次屌丝走向高富帅的机会.这次再写一篇,不做枯燥理…

【原】小玩node+express爬虫-2

上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk is cheap,show me the code! [原]小玩node+express爬虫-1:http://www.cnblogs.com/xianyulaodi/p/6049237.html 抓取页面分析我们的目标: 1.抓取电影天堂首页,获取左侧最新电影的169条链接 2.抓取169部新…

hugo小玩

hugo小玩 1. 安装 install from source by brew install pre-built-binary 2. 下载源码 $ go get github.com/magefile/mage $ go get -d github.com/gohugoio/hugo $ cd ${GOPATH:-$HOME/go}/src/github.com/gohugoio/hugo $ mage vendor $ mage install 疑难点: 依赖该项目依赖了贼多的外部库可…

Spark SQL 小文件问题处理

在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情. 大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性: 1. Spark SQL写Hive或者直接写入HDFS,过多的小文件会对NameNode内存管理等产生巨大的压力,会影响整个集群的稳定运行 2. 容易导致task数过多,如果超过参数spark.driver.max…

【原】小玩node+express爬虫-1

最近开始重新学习node.js,之前学的都忘了.所以准备重新学一下,那么,先从一个简单的爬虫开始吧. 什么是爬虫百度百科的解释: 爬虫即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 通俗一点讲: 把别人网站的信息给弄下来,弄到自己的电脑上.然后再做一些过滤,比如筛选啊,排序啊,提取图片啊,链接什么的.获取你需要的信息. 如果数据量很大,而且你的算法又比较叼,并且可以给别人检索服务的话,那么你的爬虫就是一个小百度或者小谷歌…

canvas入门级小游戏《开关灯》思路讲解

游戏很简单,10行10列布局,每行每列各10盏灯,游戏初始化时随机点亮其中一些灯,点击某盏灯,其上下左右的灯及本身状态反转,如果点击前是灭着的,点击后即点亮,将所有灯全部点亮才算过关.游戏试玩: 下面说说大概思路: 生成画布创建canvas画布,先是生成10*10阵列的100盏灯,每盏灯之间的间隔为margin = 5px,第一盏灯圆心坐标为它的半径"R, R",第一行第二盏灯坐标为3R+margin,以此类推得出灯坐标计算公式:第一行第i盏灯横坐标(2*i + 1)*R + i*m…

spark+kafka 小案例

(1)下载kafka的jar包 http://kafka.apache.org/downloads spark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0 (2)Consumer代码 package com.sparkstreaming import org.apache.spark.SparkConf import org.apache.spark.streaming.Seconds import org.apache…

Spark原理小总结

1.spark是什么? 快速,通用,可扩展的分布式计算引擎 2.弹性分布式数据集RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错.位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度. RDD的属性 1)一组分片(Partition),即数据集的基本组…

Git小玩

早就听说了GitHub的强大. 一直没有机会去看, 在公司实习的几个月里也没机会接触SVN和Git, 可是抱着对Linus大神的崇敬, 和开源的崇敬之情. 趁着不忙的几天, 来学习一下Git. 希望以后可以用到. 事实上Git还是十分好学. 用不了多久, 你就能体会到它的高效简洁之美! 这里我是在本地虚拟机Centos来学习. . . 仅仅是学习他的简单原理和操作, 并没有真正的尝试项目. 同一时候借鉴了网上一些有经验的前辈们的理解.. 来自己操作和学习非常多地方简单的样例我都有做图解,…

hadoop spark合并小文件

一.输入文件类型设置为 CombineTextInputFormat hadoop job.setInputFormatClass(CombineTextInputFormat.class) spark val data = sc.newAPIHadoopFile(args(1), classOf[CombineTextInputFormat], classOf[LongWritable], classOf[Text], hadoopConf) .map { //TODO } (hadoop…