spark Basic code demo

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

hdfs dfs -put README.md ./

val file=sc.textFile("hdfs:///user/hadoop/README.md").filter(line=>line.contains("spark"))

val wordcount=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map（(_,1)）.reduceByKey(_+_)

wordcount.saveTextFile("/data/result")

//sort by count

val wordcount2=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))

wordcount2.saveAsTextFile("/data/wordcount2")

//启动hive metasotre service SPARK sql show

nohup hive --service metastore > metastore.log 2>&1 &

注意：如果要使用hive，需要将hive-site.xml文件复制到conf/下

pssh " cp /app/hive/lib/mysql-connector-java-5.1.6-bin.jar /app/spark141/lib/"

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

hiveContext.sql("use test")

hiveContext.sql("show tables").collect().foreach(println)

spark-sql --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

just like use hive , write sql

use test

show tables

//parallelize show

val num=sc.parallelize(1 to 10)

val alpha=sc.parallelize('a' to 'z')

val num2=num.map(_*2).collect().foreach(println)

val num3=num.map(_%3==0).collect().foreach(println)

val num3=num.filter(_%3==0).collect().foreach(println)

num.reduce(_+_)

num.reduce(_*_)

num.reduceByKey(_+_)

num.sortBy(x=>x,false)

//K-V演示

val kv1=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

kv1.sortByKey().collect //注意sortByKey的小括号不能省 asc

kv1.sortByKey(false).collect //desc

//how to sort by value?

kv1.map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1)).collect

kv1.sortBy(x=>x).collect

kv1.groupByKey().collect

kv1.reduceByKey(_+_).collect

val kv2=sc.parallelize(List(("A",4),("A",4),("C",3),("A",4),("B",5)))

kv2.distinct.collect

kv1.union(kv2).collect

val kv3=sc.parallelize(List(("A",10),("B",20),("D",30)))

kv1.join(kv3).collect

kv1.cogroup(kv3).collect

val kv4=sc.parallelize(List(List(1,2),List(3,4)))

kv4.flatMap(x=>x.map(_+1)).collect

spark Basic code demo的更多相关文章

penpyxl basic function demo code
Openpyxl basic function demo code demo code: #!/usr/bin/env python # -*- coding: utf-8 -*- "&qu ...
spark source code 分析之ApplicationMaster overview（yarn deploy client mode）
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别网上有一些非常好的资料,请移步: https://blog.cloud ...
python spark 决策树入门demo
Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. ...
Setup Spark source code environment
1. Install Java and set JAVA_HOME 2. Install Eclipse Juno Java IDE, Scala plugin and Scala Test 3. D ...
spark mllib prefixspan demo
./bin/spark-submit ~/src_test/prefix_span_test.py source code: import os import sys from pyspark.mll ...
parquet code demo
http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/c ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
spark 1.3.0下的问题
1.在spark SQL的一个test中无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new or ...
Spark Streaming初步使用以及工作原理详解
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多 ...

随机推荐

jQuery实现隐藏标签
要求:用户进入该页面时,品牌列表默认是精简显示,用户可以单击商品列表下方的“显示全部品牌”按钮来显示全部的品牌. <%@ Page Language="C#" Inherit ...
回文串---吉哥系列故事——完美队形II
HDU 4513 Problem Description 吉哥又想出了一个新的完美队形游戏! 假设有n个人按顺序站在他的面前,他们的身高分别是h[1], h[2] ... h[n],吉哥希望从中挑出 ...
python pip 升级每个包
pip本身不自带升级所有包的功能, 但可以通过下面的脚本实现. import pip from subprocess import call for dist in pip.get_installed ...
非线性数据拟合-nls
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
高效构建Web应用教你玩转Play框架 http://www.anool.net/?p=577
Play 框架是一个完整的Web应用开发框架,覆盖了Web应用开发的各个方面.Play 框架在设计的时候借鉴了流行的 Ruby on Rails 和 Grails 等框架,又有自己独有的优势.使用 P ...
Ajax基本知识
1.创建xhr对象 var xmlhttp; if (window.XMLHttpRequest){// code for IE7+, Firefox, Chrome, Opera, Safari x ...
SharePoint 禁用本地回环的两个方法
有两种方法中,若要变通解决此问题,请根据您的具体情况使用下列方法之一. 方法 1: 指定主机名 (如果需要 NTLM 身份验证,请首选方法) 指定的主机名的映射到环回地址,并可以连接到 Web 站点在 ...
Sublime Text 最佳插件列表(转)
Package Control 安装方法首先通过快捷键 ctrl+` 或者 View > Show Console 打开控制台,然后粘贴相应的 Python 安装代码. Sublime Tex ...
Pinyin Comparison 拼音辨别 V1.1.2
App Store: Pinyin Comparison 拼音辨别做了一新个图标,至少比上一个好多了.拼音应用的图标大多千篇一律,这回尝试做个不一样的. 简化了首页颜色,首页的黑色换成了金色,看着更 ...
IOS开发--常用工具类收集整理（Objective-C）（持续更新）
前言:整理和收集了IOS项目开发常用的工具类,最后也给出了源码下载链接. 这些可复用的工具,一定会给你实际项目开发工作锦上添花,会给你带来大大的工作效率. 重复造轮子的事情,除却自我多练习编码之外,就 ...

spark Basic code demo

spark Basic code demo的更多相关文章

随机推荐

热门专题