【WordCount】实现(重做)

【【WordCount】实现(重做)】的更多相关文章

【WordCount】实现(重做)

Gitee项目地址: https://gitee.com/LIUJIA6/wordcount_implementation 需求说明: WordCount的需求可以概括为:对程序设计语言源文件统计字符数.单词数.行数,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件.可执行程序命名为:wc.exe 解题思路: 读完需求说明,知道需要实现字符,单词以及行数的统计.本次使用了基础语言c语言,由于在面向对象编程中遇到了问题,于是转而使用面向过程方法. 程序设计: 变量初始…

结对第2次作业——WordCount进阶需求

作业题目链接队友链接 Fork的同名仓库的Github项目地址具体分工玮哥负责命令参数判断.单词权重统计,我只负责词组词频统计(emmmm). PSP表格预估耗时(分钟) 实际耗时(分钟) Planning 计划 Estimate 估计这个任务需要多少时间 880 1170 Development 开发 Analysis 需求分析 (包括学习新技术) 100 120 Design Spec 生成设计文档 20 10 Design Review 设计复审 10 10 Coding Stan…

Spark大数据处理之从WordCount看Spark大数据处理的核心机制（2）

在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源. Spark的应用场景 Spark主要针对两种场景: 机器学习,数据挖掘,图应用中常用的迭代算法(每一次迭代对数据执行相似的函数) 交互式数据挖掘工具(用户反复查询一个数据子集) Spark在spark-submit外,还提供了spark-shell,它就是专门用来做交互数据挖掘的工具 MapReduce等框架并不明确支持迭代中间结果/数据子集的共享,…

hadoop 2.7.3本地环境运行官方wordcount

hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式)来运行. 参考: hadoop docs 1 hadoop 安装 java环境 yum install java-1.8.0-openjdk hadoop下载压缩包并安装 mkdir ~/hadoop/ cd ~/hadoop/ # http://apache.fayea.com/hadoop…

Hadoop3 在eclipse中访问hadoop并运行WordCount实例

前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么. 通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是: 1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功. http://www.cnblogs.com/Pur…

Eclipse 执行成功的 Hadoop-1.2.1 WordCount 源码

万事开头难.最近在学习Hadoop,先是搭建各种版本环境,从2.2.0到2.3.0,再到1.2.1,终于都搭起来了,折腾了1周时间,之后开始尝试使用Eclipse编写小demo.仅复制一个现成的WordCount到Eclipse中执行竟然也出现各种错误,一一解决之后也是几个小时过去了. 为避免他人也耽误时间在这些问题上,现将运行成功后的源码分享. 先看下效果图: 图1. 运行成功的截图图2. 项目结构视图图3. 修改后的代码将Hadoop安装目录下WordCount源码拷贝过来之后需要做图…

软件工程：Wordcount程序作业

由于时间的关系,急着交作业,加上这一次也不是那么很认真的去做,草草写了“Wordcount程序”几个功能,即是 .txt文件的读取,能计算出文件内容的单词数,文件内容的字符数,及行数. 这次选用C来做,调试加写代码做了不到半个点,也就这么回事了吧. 那么直接看成果吧: 这是text.txt测试文件. int num_word=, num_line=,num_char=,flag; fp=fopen("text.txt","a"); if(fp==NULL){ pri…

Spark源码编译并在YARN上运行WordCount实例

在学习一门新语言时,想必我们都是"Hello World"程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapReduce实现WordCount,当前内存分布式计算框架Spark因为其计算速度之快,并且可以部署到Hadoop YARN中运行,已经受到各大公司的青睐,Spark社区提供了一些编译好的jar包,但是其中没有适配Hadoop-2.2.0的jar包,为了避免版本问题,需要自己编译指定hadoop版本的Spark ja…

MapReduce剖析笔记之一：从WordCount理解MapReduce的几个阶段

WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path…

Oracle丢失重做日志的几种场景恢复

实验环境:RHEL6.4 + Oracle 11.2.0.4 一.丢失重做日志组中成员 1.1 故障模拟 1.2 处理方法 1.3 实际处理过程二.丢失重做日志组 2.1 丢失INACTIVE重做日志组 2.2 丢失ACTIVE重做日志组 2.3 丢失CURRENT重做日志组 Reference 环境准备 SQL> set linesize 160 SQL> col member for a80 SQL> select * from v$logfile; GROUP# STATUS T…