二、spark入门之spark shell：文本中发现5个最常用的word

【二、spark入门之spark shell：文本中发现5个最常用的word】的更多相关文章

二、spark入门之spark shell：文本中发现5个最常用的word

scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.isEmpty).map((_,1)).reduceByKey(_+_).map{case (word,count) =>(count,word)}.sor…

三、spark入门：文本中发现5个最常用的word，排除常用停用词

package com.yl.wordcount import java.io.File import org.apache.spark.{SparkConf, SparkContext} import scala.collection.Iteratorimport scala.io.Source /** * wordcount进行排序并排除停用词 */object WordCountStopWords { def main(args: Array[String]) { val conf = n…

一、spark入门之spark shell：wordcount

1.安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile.flatMap(_.split(" ")).filter(!_.isEmpty).map((_,1)).reduceByKey(_+_).collect(…

Spark入门：Spark运行架构(Python版)

此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/ 基本概念 *  RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型: *  DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系: *  Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为…

【CDN+】 Spark入门---Handoop 中的MapReduce计算模型

前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://spark.apache.org/ 给出了如下概念 Apache Spark™ is a unified analytics engine for large-scale data processing. Apache Spark™是用于大规模数据处理的统一分析引擎.当然,它也适用于AI人工智能. A…

Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http://mirror.bit.edu.cn/apache/maven/maven-3/ 2. 使用ssh工具把maven包上传到/home/hadoop/upload目录 3. 解压缩apache-maven…

Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS6.5 64位,单核 l 虚拟机运行环境: Ø JDK:1.7.0_55 64位位) Ø Scala:2.10.4 Ø Spark:1.1.0(需要编译) Ø Hive:0.13.1…

【Spark篇】---Spark中transformations算子二

一.前述今天继续整理几个Transformation算子如下: mapPartitionWithIndex repartition coalesce groupByKey zip zipWithIndex 二.具体细节 mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值. java代码: package com.spark.spark.transformations; import java.util.ArrayList; import…

Spark下载与入门（Spark自学二）

2.1 下载Spark 略 2.2 Spark中Python和Scala的shell Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互,并且处理过程的分发由Spark自动控制完成. 降低shell日志级别:conf目录下创建名为log4j.properties文件,将log4j.properties.template文件中内容复制到log4j.properties文件,找到log4j.rootCategory=INFO, console,将其改为log4j.roo…

Spark入门（二）--如何用Idea运行我们的Spark项目

用Idea搭建我们的Spark环境用IDEA搭建我们的环境有很多好处,其中最大的好处,就是我们甚至可以在工程当中直接运行.调试我们的代码,在控制台输出我们的结果.或者可以逐行跟踪代码,了解spark运行的机制.因此我们选择了idea,当然Idea不是首选,当然也可以用其他工具.因为我们的Spark程序用scala和java写,需要有java环境来作为支撑.因此任何能够支撑java程序的开发工具,应该都能够搭建我们的Spark程序.我这里是MAC环境下,当然如果你是windows不用担心,这里只…