scala 编写wordCount】的更多相关文章

Windows Eclipse Scala编写WordCount程序: 1)无需启动hadoop,因为我们用的是本地文件.先像原来一样,做一个普通的scala项目和Scala Object. 但这里一定注意版本是2.10.6,因为缺省的不好使.改的方法是:右击项目/properties/Scala Compiler. 2)像spark的java版WordCount项目一模一样导包,什么都一样.(导包的方法和原来普通的java项目一样) 例:5.1 package comimport org.ap…
加载文件 scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> f1.flatMap(x=>x.split()).collect //每个数字以'-'分割,并数字为key,给每个key赋值1 res10: Array[(String, Int)] = Array((,), (,), (,), (,), (,), (,), (,), (,), (,), (,), (,), (,), (,), (,…
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```object WordCount { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder() .a…
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机,就会和附近的基站尝试建立连接,而每一次建立连接和断开连接都会被记录到移动运营商的基站服务器的日志中. 虽然我们不知道手机用户所在的具体位置,但是根据基站的位置就可以大致判断手机用户的所处的地理范围,然后商家就可以根据用户的位置信息来做一些推荐广告. 为了便于理解,我们简单模拟了基站上的一些移动用户…
本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序. 第一步 下载安装PyCharm 下载Pycharm PyCharm的下载地址(Linux版本).下载完成后你将得到一个名叫:pycharm-professional-2018.2.4.tar.gz文件.我们选择的是正版软件,学生可申请免费使用.详细信息请百度. 安装PyCharm 执行以下命令解压文件: cd ~/下载 tar -xvf pycharm-professional-2018.2.4.tar.gz Shell…
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…
1.创建scala maven项目 选择骨架的时候为org.scala-tools.archetypes:scala-aechetype-simple 1.2 2.导入包,进入spark官网Documentation选择第二个-选择自己的spark版本-选择programming guides-选择第二个-查看spark版本对应的依赖的版本 将pom中的内容为: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs…
折腾了半天.终于编写成功了第一个自己的mapreduce程序,并通过打jar包的方式运行起来了. 运行环境: windows 64bit eclipse 64bit jdk6.0 64bit 一.工程准备 1.新建java project 2.导入jar包 新建一个user library 把hadoop文件夹里的hadoop-core和lib包里的所有包都导入进来,以免出错. 二.编码 1.主要是计算单词的小程序,测试用 package com.hirra; import java.io.IO…
一.程序概述 1.此次编写的程序为邹欣老师<构建之法>科书2.4.2 wordcount程序. 2.我写的wordcount程序要实现的功能整体可以总结为: ① 统计word文档中的字符数.单词数: ② 统计word文档中的符号数,即除了数字和字母以外的符号,像标点符号,括号等: ③ 统计行数并且输出每一行的类别,即是代码行还是注释行: ④ 程序有界面.选择功能和返回退出功能. 3.编程工具:VC++ 6.0: 编程语言:C/C++. 二.程序执行及调试 1.运行程序,需要输入所要统计文本文档…
本文发表于本人博客. 前面几次讲了关于Hadoop的环境搭建.HDFS操作,今天接着继续.本来Hadoop源码中就有一个例子WordCount,但是今天我们来自己实现一个加深对这个Mapper.Reducer的理解,如有不对欢迎指正. 我们先来梳理一下思路,对于自定义Mapper以及Reducer,我们先要覆盖其map以及reduce函数,然后按照相关步骤比如设置输入文件目录.输入文件格式化类.设置自定义Mapper.分区.排序.分组.规约.设置自定义Reducer等等.这里我们把输入文件的使用…