worldcount】的更多相关文章

以前的公司和现在的公司,都用到了hadoop和hdfs.一直没入门,今天照着官网写了一个hadoop worldcount demo 1. hadoop是一个框架,什么是框架,spring是一个框架.mybatis是一个框架,框架是把系统中通用的功能写进去,减少开发工作量.比如基于spring boot开发一个web应用,直接写一个java类,加一些注解,打成jar包,java -jar demo.java即完成应用开发. spring boot也是基于java serlet.tomcat.je…
合作者:201631062501,201631062129 代码地址:https://gitee.com/guilinyunya/WorldCount 伙伴博客地址:https://www.cnblogs.com/guilinyunya/p/9800347.html#at 本次作业地址:https://edu.cnblogs.com/campus/xnsy/2018Systemanalysisanddesign/homework/2188 结对PSP表格,设计过程以及代码说明详见伙伴博客(开头已…
首先在hadoop中建立input文件夹放几个文件,里边写点东西.比如我放了三个,分别写的是 第一个 hello hadoop bye hadoop 第二个 hello world bye world 第三个 hello bigdata 然后就有下边这段代码做单词统计: import java.io.File; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import o…
前言:最近一段时间比较忙,也是比较懒了吧,好长时间没写博客了,新的一年到来,给自己一个小目标,博客坚持写下去,分享一下这历程!废话不多说,开始正题咯(希望大家喜欢!) 首先这算是一个scala程序的入门程序,但是并不是针对零基础的,需要了解一定的scala基础,如果有Java基础的同学看起来估计会好一点.如果有必要的话,后面补一篇比较 详细的适合新手的零基础scala“教程”吧! 首先说明一下,Scala Actor是scala 2.10.x版本及以前版本的Actor.Scala在2.11.x版…
RandomSentenceSpout //数据源,在已知的英文句子中,随机发送一条句子出去. public class RandomSentenceSpout extends BaseRichSpout { //用来收集Spout输出的tuple private SpoutOutputCollector collector; private Random random; //该方法调用一次,主要由storm框架传入SpoutOutputCollector @Override public vo…
合作者:201631062222,201631062232 代码地址:https://gitee.com/biubiubiuLYQ/ceshi_secend 本次作业链接地址:https://edu.cnblogs.com/campus/xnsy/2018softwaretest2398/homework/2187 一.互审代码情况: 1.高级功能测试: 发现的问题:无法打开result.txt,output.txt(存储输出结果)等文件,经判断这些文件都是gbk编码,原程序未指定编码格式. 修…
码云项目地址 PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 20 20 Estimate 估计这个任务需要多少时间 60 70 Development 开发 60 60 Analysis 需求分析 (包括学习新技术) 30 20 Design Spec 生成设计文档 20 20 Design Review 设计复审 (和同事审核设计文档) 15 20 Coding Standard 代码规范 (为目前的开发制定合适的规范) 10 10 Design 具…
Spark的核心就是RDD,对SPARK的使用入门也就是对RDD的使用,包括action和transformation 对于Java的开发者,单单看文档根本是没有办法理解每个API的作用的,所以每个SPARK的新手,最好按部就班直接学习scale,  那才是一个高手的必经之路,但是由于项目急需使用,没有闲工夫去学习一门语言,只能从JAVA入门的同学,  福利来了.... 对API的解释: 1.1 transform l  map(func):对调用map的RDD数据集中的每个element都使用…
正在学习storm的大兄弟们,我又来传道授业解惑了,是不是觉得自己会用ack了.好吧,那就让我开始啪啪打你们脸吧. 先说一下ACK机制: 为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪. 这里面涉及到ack/fail的处理,如果一个tuple处理成功是指这个Tuple以及这个Tuple产生的所有Tuple都被成功处理, 会调用spout的ack方法: 如果失败是指这个Tuple或这个Tuple产生的所有Tuple中的某一个tuple处理失败, 则会调…
前言: 从IT跨度到DT,如今的数据每天都在海量的增长.面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”. 1.问题描述 将所有不同文件里面的关键词进行存储,并实现快速检索.下面假设有3个文件的数据如下: file1.txt:MapReduce is simple file2.txt:mapReduce is powerful is simple file3.txt:Hello MapReduce bye M…
2. MapReduce 简介 MapReduce 实际上是分为两个过程 map 过程 : 数据的读取 reduce 过程 : 数据的计算 并行计算是一个非常复杂的过程, mapreduce是一个并行框架. 在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段.这两个阶段分别用两个函数表示,即map函数和reduce函数 我们可以看下典型的官方列子 开发 用idea 开发开发 pom.xml 添加依赖 <dependenc…
一.安装jdk jdk版本最好是1.7以上,设置好环境变量,安装过程,略. 二.安装Maven 我选择的Maven版本是3.3.3,安装过程,略. 编辑Maven安装目录conf/settings.xml文件, <!-- 修改Maven 库存放目录--> <localRepository>D:\maven-repository\repository</localRepository> 三.安装Idea 安装过程,略. 四.创建Spark项目 1.新建一个Spark项目,…
最近在学习spark相关知识.准备搭建eclipse开发环境.在安装过程中遇到的问题记录下来. 首先在scala网站上下载了scalaIDE:http://scala-ide.org/download/prev-stable.html 下载完成后,新建scala项目,在项目上右键, 选择properties, 添加spark的jar包. 编写wordcount 程序, package example import org.apache.spark._ import SparkContext._…
http://www.cnblogs.com/kaizhangzhang/p/3495438.html 在win7下运行hadoop-1.1.2 worldcount代码的时候出现下面的错误,折腾了差不多一天的时间,才明白导致http://www.cnblogs.com/kaizhangzhang/p/3494753.html这个错误的原因,一下是错误的完整信息: eclipse显示: 13/12/28 15:44:00 WARN mapred.JobClient: No job jar fil…
我先试试这个Open Live Writer能不能用. 再在ScribeFire中修改一下已经发布的文章试试看. 这两个写博客的地方都没有原始的编辑器方便,可以插入代码,选择文章的分类.所以以后还有这个编辑器吧. 昨天搞定第一个简单的topology,今天看一个稍微复杂一点的topology,基本上和昨天的一样,这个代码是我在学习极客学院的storm实战的时候,自己照着写下来的. 这个Topology有一个spout输入,三个bolt处理,加上一个topology的类,一共是五个类.[还需要一个…
.caret,.dropup>.btn>.caret{border-top-color:#000 !important}.label{border:1px solid #000}.table{border-collapse:collapse !important}.table td,.table th{background-color:#fff !important}.table-bordered th,.table-bordered td{border:1px solid #ddd !imp…
推荐慕课网视频:http://www.imooc.com/video/10055 ====Storm的起源. Storm是开源的.分布式.流式计算系统 什么是分布式呢?就是将一个任务拆解给多个计算机去执行,让许多机器共通完成同一个任务, 把这个多机的细节给屏蔽,对外提供同一个接口.同一个服务,这样的系统就是分布式系统. 在多年以前并没有非常范用的分布式系统,即使存在,也都是限定在指定的领域, 当然,也有人尝试从中提取出共通的部分,发明一个通用的分布式系统,但是都没有很好的结果. 后来,Googl…
关于Storm tick 1. tick的功能 Apache Storm中内置了一种定时机制——tick,它能够让任何bolt的所有task每隔一段时间(精确到秒级,用户可以自定义)收到一个来自__systemd的__tick stream的tick tuple,bolt收到这样的tuple后可以根据业务需求完成相应的处理. Tick功能从Apache Storm 0.8.0版本开始支持,本文在Apache Storm 0.9.1上测试. 2. 在代码中使用tick及其作用 在代码中如需使用ti…
环境:centos7+hadoop2.5.2 1.使用ECLIPS具打包运行WORDCOUNT实例,统计莎士比亚文集各单词计数(文件SHAKESPEARE.TXT). ①WorldCount.java 中的main函数修改如下: public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "word count…
什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Spark™is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎.如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的. Spark解决了什么问题? 在这里不得不…
demo1: package main import "fmt" func print() { for i := 1; i < 10; i++ { for j := 1; j <= i; j++ { fmt.Printf("%d * %d = %d ", j, i, i*j) } fmt.Println() } } func main() { print() } 分析: 1.基本的99乘法表打印练习 demo2: package main import…
Mapreduce前提工作 简单的来说map是大数据,reduce是计算<运行时如果数据量不大,但是却要分工做这就比较花时间了> 首先想要使用mapreduce,需要在linux中进行一些配置: 1.在notepad++里修改yarn-site.xml文件,新添加 <property> <name>yarn.resourcemanager.hostname</name> <value>192.168.64.141</value> &l…
Spark中三大数据结构:RDD:  广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递 自己定义一些RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的. 传递一个方法 class Search(query: String){ // extends Serializable //过滤出包含字符串的数据 def isMatch(s: Strin…
Spark的前世今生   基础语法详解   3.条件控制与循环   4.函数入门   5.函数入门之默认参数   6.函数入门之边长参数   7.函数入门之过程lazy值和异常   8.数组操作之Array.ArrayBuffer以及遍历数组   9.数组转换   10.Map与Tuple   11.面向对象编程   11.1 object类 object 相当于单个实例,通常在里面放一些静态或者method,第一次调用object的方法时,就回执行object的constructor,也就是o…
WordCountBolt public class WordCountBolt extends BaseBasicBolt { private Map<String,Integer> counters = new ConcurrentHashMap<String, Integer>(); /** * 该方法只会被调用一次,用来初始化 * @param stormConf * @param context */ @Override public void prepare(Map s…
网盘下载地址 链接: https://pan.baidu.com/s/19qWnP6LQ-cHVrvT0o1jTMg 密码: 44hs Hadoop伪分布式配置  Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件. Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site…
mapreduce实现一个简单的单词计数的功能. 一,准备工作:eclipse 安装hadoop 插件: 下载相关版本的hadoop-eclipse-plugin-2.2.0.jar到eclipse/plugins下. 二,实现: 新建mapreduce project map 用于分词,reduce计数. package tank.demo; import java.io.IOException; import java.util.StringTokenizer; import org.apa…
合作者:201631062327,201631062128码云地址:https://gitee.com/LIUJIA6/WordCount3 一:项目说明 本次项目是在上次作业WorldCount的基础上,利用结对编程的思想,完成对WorldCount项目的功能扩展 -s 递归处理目录下符合条件的文件.(实现)-a 返回更复杂的数据(代码行 / 空行 / 注释行).(实现)空行:本行全部是空格或格式控制字符,如果包括代码,则只有不超过一个可显示的字符,例如“{”.其中,代码行:本行包括多于一个字…
第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章 运行 Spark Streaming第3章 架构与抽象第4章 Spark Streaming 解析4.1 初始化 StreamingContext4.2 什么是 DStreams4.3 DStream 的输入4.3.1 基本数据源4.3.2 高级数据源4.4 DStream 的转换4.4.1 无状态转化操作…
spark是基于scala写的,虽然spark有java API,或者python API,但是scala算是正统吧. 而且scala的语法书写起来十分的爽,不想java那样笨重,python不太了解,不给予评价. 接下来看下spark版的wordcount,相对与hadoop的mapreduce要简单许多. /** * Spark简单入门 worldCount */ object SparkWC { def main(args: Array[String]): Unit = { // 创建sp…