scala Wordcount】的更多相关文章

scala wordcount   kmeans k-means算法的输入对象是d维向量空间的一些点,对一个d维向量的点集进行聚类. k-means聚类算法会将集合D划分成k个聚簇.…
package my.bigdata.scala08 import scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scala.io.Source /** scala word count * Created by lq on 2017/8/7. */object Task2 { /** * basic 核心是外部变量 + map.getOrElse */ def scalaWC0(): Unit…
数据样例: java,spark,hadoop,python,datax java,spark,hadoop,spark,python,datax java,spark,hadoop,python,datax java,spark,hadoop,spark,python java,spark,hadoop,spark,python,datax java,spark,hadoop,python,datax java,spark,hadoop,python,datax java,spark,hado…
Scala所需依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version> </dependency> Scala WordCount代码 val source: List[String] = Source.fromFile("./sr…
Flink为大数据处理工具,类似hadoop,spark.但它能够在大规模分布式系统中快速处理,与spark相似也是基于内存运算,并以低延迟性和高容错性主城,其核心特性是实时的处理流数据.从此大数据生态圈又再填一员...具体详解,还要等之后再分享,这里就先简要带过~ Flink的机制: 当Flink启动时,会拉起一个jobmanager和一个或多个taskManager,jobmanager作用就好比spark中的driver,taskManager的作用就好比spark中的worker. fl…
Scala简介    Scala是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性. Scala运行在Java虚拟机上,并兼容现有的Java程序. Scala源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库. 函数编程范式更适合用于Map/Reduce和大数据模型,它摒弃了数据与状态的计算模型,着眼于函数本身,而非执行的过程的数据和状态的处理.函数范式逻辑清晰.简单,非常适合用于处理基于不变数据的批量处…
本章节实现一个真正得wordcount 得spark程序. 一.从本地获得一个数据集 val speechRdd= sc.parallelize(scala.io.Source.fromFile("/home/hdfs/Data/WordCount/speech").getLines.toList) 二.把每一样变成多行 val wordMap=speechRdd.flatMap(line=>{ line.split(" ") }) 三.去掉特殊字符,并取消大…
1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从开发机传到远程的机器中 scp 开发机用户名@开发机ip地址:/home/XXXXX/文件 . #最后一个.表示cd的根目录下 object WordCount { def main(args: Ar…
1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz,不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下 下面的操作都在Hadoop用户下 drwxrwxrwx 13 hadoop hadoop 4096 4月   4 11:50 spark-2.1.0-bin-without-hadoop/ 添加Hadoop用户和用户组 $ su…
说明:前提安装好hadoop集群,可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一. scala 安装 1.下载 scala 安装包 :https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 2.上传 scala 安装包 [root@hadp-master local]# pwd/usr/local[root@hadp-master…
一.用Java开发wordcount程序 1.开发环境JDK1.6 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行(spark-submit常用参数说明,spark-submit其实就类似于hadoop的hadoop jar命令) pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3…
Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解释器(2.6或者更高版本),请注意Spark暂不支持Python 3. 下载Spark 首先下载Spark并解压,我们从下载预编译版本的Spark开始.在浏览器中访问 http://spark.apache.org/down loads.html 选择"Pre-built for Hadoop 2.…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2.maven下载大文件是多线程进行,而SBT是单进程),Maven编译成功前后花了3.4个小时. 1.1 编译Spark(SBT) 1.1.1 安装git并编译安装 1.  从如下地址下载git安装包 http://www.onlinedown.net/softdown/169333_2.htm http…
Introduction Spark provides a unified runtime for big data. HDFS, which is Hadoop's filesystem, is the most used storage platform for Spark as it provides const-effefctive storage for unstructured and semi-structured data on commodity hardware. Spark…
本文主要讲解spark 环境的搭建 主机配置  4核8线程,主频3.4G,16G内存 虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64bit) hadoop-2.6.0.tar.gz scala-2.10.4.tar spark-1.5.0-bin -hadoop-2.6.0.tgz (一)样本虚拟机的搭建 1)虚拟机安装ubuntu,每个分配3G内存,完成后后输入如下命令来获得root权限: #sudo passwd 2)ubu…
1.动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ jps8457 Jpsspark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群 spark@SparkSingleNode:/usr/loc…
1.以本地模式实战map和filter 2.以集群模式实战textFile和cache 3.对Job输出结果进行升和降序 4.union 5.groupByKey 6.join 7.reduce 8.lookup 1.以本地模式实战map和filter 以local的方式,运行spark-shell. spark@SparkSingleNode:~$ cd /usr/local/spark/spark-1.5.2-bin-hadoop2.6/binspark@SparkSingleNode:/u…
新的一年,新的开始,新的习惯,现在开始. 1.简介 Flink是德国一家公司名为dataArtisans的产品,2016年正式被apache提升为顶级项目(地位同spark.storm等开源架构).并且在2016年里,共发布了包括1.0.0版本在内的10个版本,发展速度可想而知.这次学习的是Flink的核心Feature,windows. //dataArtisans官网: http://data-artisans.com/ //apache Flink官网: http://flink.apac…
1. HBase安装部署操作 a) 解压HBase安装包tar –zxvf hbase-0.98.0-hadoop2-bin.tar.gzb) 修改环境变量 hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_71/c) 修改配置文件 hbase-site.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="config…
1 读取本地文件 ./spark-shell scala> val textFile=sc.textFile("file:///home/hadoop/wordfile1.txt")textFile: org.apache.spark.rdd.RDD[String] = file:///home/hadoop/wordfile1.txt MapPartitionsRDD[3] at textFile at <console>:24 scala> textFile…
1.基础环境搭建 1.1运行环境说明 1.1.1硬软件环境 主机操作系统:Windows 64位,四核8线程,主频3.2G,8G内存 虚拟软件:VMware Workstation Pro 虚拟机操作系统:CentOS7 64位,单核,2G内存 1.1.2集群网络环境 集群包含三个节点,节点之间可以免密码SSH访问,节点IP地址和主机名分布如下: 序号 IP地址 机器名 核数/内存 用户名 1 192.168.1.61 hadoop1 1核/2G hadoop 2 192.168.1.62 ha…
spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易. 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素. 也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容. 在 Scala 中读取一个文本文件 val inputFile = "file:///home/common/coding/coding/Scala/word-count/test.segmented" val textFi…
1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作进行求值. Spark 中的 RDD 就是一个不可变的分布式对象集合.每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上. object WordCount { def main(args: Array[String]) { val inputFile = "file:///home/…
Spark 简介 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce).这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度. Hadoop只是实现Spark的方法之一.Spark以两种方式使用Hadoop - 一个是存储,另一个是处理.由于Spark具有自己的集群管理计算,因此它仅使用Hadoop进行存储. Apache Spark是一种快速的集群计算技术,专为快速计算而设计.它基于Hadoop Ma…
前提是已经安装了Hadoop ============================ SetUp Spark=============================Configuration spark-env.sh HADOOP_CONF_DIR=/opt/data02/hadoop-2.6.0-cdh5.4.0/etc/hadoop JAVA_HOME=/opt/modules/jdk1.7.0_67 SCALA_HOME=/opt/modules/scala-2.10.4 ######…
前言:要学习spark程序开发,建议先学习spark-shell交互式学习,加深对spark程序开发的理解.spark-shell提供了一种学习API的简单方式,以及一个能够进行交互式分析数据的强大工具,可以使用scala编写(scala运行与Java虚拟机可以使用现有的Java库)或使用Python编写. 1.启动spark-shell spark-shell的本质是在后台调用了spark-submit脚本来启动应用程序的,在spark-shell中已经创建了一个名为sc的SparkConte…
早上一上班就想新建一个web项目玩玩,没想到一敲命令创建就失败了,真是出师不利.各种折腾无果,当然我也可以用eclipse直接创建的,就是不甘心被这破问题给耍了.刚刚才发现问题原因,这个结果我也是醉了,太坑爹了. 问题现象: E:\workspace>mvn archetype:generate -DarchetypeCatalog=internal -DgroupId=com.wulinfeng.memcache -DartifactId=memcache-view -DarchetypeAr…
来自:http://my.oschina.net/scipio/blog/284957#OSC_h5_11 目录[-] 1.准备文件 2.加载文件 3.显示一行 4.函数运用 (1)map (2)collecct (3)filter (4)flatMap (5)union (6) join (7)lookup (8)groupByKey (9)sortByKey 1.准备文件 wget http://statweb.stanford.edu/~tibs/ElemStatLearn/dataset…
在hadoop下创建文件夹 bin/hdfs dfs -mkdir -p /usr/hadoop/spark/ touch wc.input  写一些文本进去. 上传到hdfs上  bin/hdfs dfs -put wc.input /usr/hadoop/spark/ 查看是否上传成功  bin/hdfs dfs -text  /usr/hadoop/spark/wc.input 检测hdfs是否脱离安全模式 [root@hadoop-spark hadoop]# bin/hdfs dfsa…
查看下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.4.0-src.tar.gz 解压hadoop-2.6.0-cdh5.4.0-src.tar.gz 在etc/hadoop下修改下面文件 修改salves为主机名hostname hadoop-spark.dragon.org Configuration#环境变量    hadoop-env.sh        export JAVA_HOME=/opt/modules…