WordCount 的实现与测试】的更多相关文章

1.GitHub地址       https://github.com/noblegongzi/WordCount 2.PSP表格 PSP2.1 PSP 阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 30 50 · Estimate · 估计这个任务需要多少时间 600 840 Development 开发 600 840 · Analysis · 需求分析 30 40 · Design Spec · 生成设计文档 20 30 · Design Review · 设计复审…
一.开头 (1)合作者:201631062627,201631062427 (2)代码地址:https://gitee.com/catchcatcat/WordCount.git 二.正文 (1)基本功能 统计file.c的字符数(实现) int CharacterCount(char *Character) { //字符个数的计算 FILE *file = fopen(Character, "r"); assert(file != NULL); //容错处理 char charact…
Github项目地址:https://github.com/792450735/wc PSP表格: PSP2.1表格[1] PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 15 20 · Estimate · 估计这个任务需要多少时间 870 1090 Development 开发 800 1040 · Analysis · 需求分析 (包括学习新技术) 90 90 · Design Spec · 生成设计文档 30 30 · Design Review…
GitHub地址 https://github.com/jiaxuansun/wordcount PSP表格 PSP PSP阶段 预估耗时(分钟) 实际耗时(分钟) Planning 计划 10 5 ·Estimate 估计这个任务需要多少时间 10 5 Development 开发 510 500 ·Analysis 需求分析 (包括学习新技术) 40 30 ·Design Spec 生成设计文档 20 20 ·Design Review 设计复审 (和同事审核设计文档) 10 10 ·Cod…
WordCount 一.开头 (1)合作者:201631107110,201631083416 (2)代码地址:https://gitee.com/zhaoxiaoqin/WordCount.git (3)本次作业链接地址:https://www.cnblogs.com/zhaoxiaoqin/articles/9824449 二.正文 1.项目完成情况: 1.1 基本功能(完成) wc.exe -c input.c     //返回文件 file.c 的字符数 wc.exe -w  input…
1.新建MR工程 依次点击 File → New → Ohter…  选择 “Map/Reduce Project”,然后输入项目名称:mrdemo,创建新项目:     2.(这步在以后的开发中可能会用到,但是现在不用,现在直接新建一个class文件即可)创建Mapper和Reducer依次点击 File → New → Ohter… 选择Mapper,自动继承Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>       创建Reducer的过程同Mapper…
MapReduce 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,如果有大量小文件,就会产生大量的 MapTask,处理小文件效率非常低. CombineTextInputFormat:用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理. CombineTextInputFormat 切片机制过程包括:虚拟存储过程和切片过程二部分 假设 setMaxInputSplitSize 值为 4M,有如下四…
MapReduce 默认使用 TextInputFormat 进行切片,其机制如下 (1)简单地按照文件的内容长度进行切片 (2)切片大小,默认等于Block大小,可单独设置 (3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 例如: (1)输入数据有两个文件: filel.txt 320M file2.txt 10M (2)经过 FilelnputFormat(TextInputFormat为其实现类)的切片机制运算后,形成的切片信息如下: filel.txt.splitl--0~1…
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) sc.textFile("test_wo…
cdh的mr样例算法的jar包在 [zc.lee@ip---- hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH--.cdh5./lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip---- hadoop-0.20-mapreduce]$ ll total drwxr-xr-x root root Jan bin -rw-r--r-- root root Jan CHANGES.txt drwxr-…