spark Basic code demo】的更多相关文章

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar hdfs dfs -put README.md ./ val file=sc.textFile("hdfs:///user/hadoop/README.md").filter(line=>line.cont…
Openpyxl basic function demo code demo code: #!/usr/bin/env python # -*- coding: utf-8 -*- """ summary description - openpyxl basic功能练习 - https://openpyxl.readthedocs.io/en/default/usage.html :REQUIRES: :TODO: :AUTHOR: Pengtao.Fan :ORGANIZA…
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别 网上有一些非常好的资料,请移步: https://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/ 然而还是不如直接看source code来的真切,参考spark source code(2.1.0) 简单解释下如下图片: master 即为App…
Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. from pyspark.mllib.tree import DecisionTree, DecisionTreeModel from pyspark.mllib.util import MLUtils # Load and parse the data file into an RDD of L…
1. Install Java and set JAVA_HOME 2. Install Eclipse Juno Java IDE, Scala plugin and Scala Test 3. Download spark1.0.0 4. Generate a workspace for eclipse [shaochen@linux spark-1.0.0]$ export http_proxy=proxy01.cd.intel.com:911[shaochen@linux spark-1…
./bin/spark-submit ~/src_test/prefix_span_test.py source code: import os import sys from pyspark.mllib.fpm import PrefixSpan from pyspark import SparkContext from pyspark import SparkConf sc = SparkContext("local","testing") print(sc)…
http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/ch3/parquet/ExampleParquetMapReduce.java…
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提供的启动文件,文件系统采用arm ubuntu.ip地址自上而下为192.168.1.1~5,hostname自上而下为spark1~5,另外由于sdka写入速度为2.3Mps,因而每个zybo卡另外配置一个Sandisk Cruzer Blade 32GB 作为usb拓展存储设备,写速度为4Mps…
1.在spark SQL的一个test中 无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new org.apache.spark.sql.SQLContext(sc) import sqlContext. val data=sc.textFile("hdfs://spark-master.dragon.org:8020/user/a.csv") case class Person(cna…
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Spark Streaming的工作原理以及如何使用. 一.流式计算 1.什么是流? Streaming:是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看…