MIT6.824食用过程
MIT6.824食用过程
Lab1 MapReduce
一、介绍
本实验使用Go语言构建一个mapreduce库,以及一个容错的分布式系统。第一部分完成一个简单的mapreduce程序,第二部分写一个提交到mapreduce workers 的master 并且要能够处理workers 的错误。 库的接口和容错的方法跟mapreduce paper里面描述的类似。
二、环境搭建 vscode&&go
1. 安装golang
2. 安装git
3.安装cntlm
代理工具,用来给git 和 go 配置代理,下载文件。
git config --global http.proxy http:china\\username:password@proxy:8080
git config --global https.proxy https:china\\username:password@proxy:8080
测试: $ git clone https://github.com/dotcloud/docker.git 如果报错ssl certificate。。。
执行 $ git config --global http.sslVerify false
再执行git clone即可
4. 在vscode 里面下载go插件
三、实验说明
map/reduce实现支持两种操作模式:顺序执行、分布式执行。前者是指一次执行一个task,当所有的map task
执行完才轮到reduce task
程序源码在mapreduce 目录下
通过调用master.go来启动job,可以设置顺序执行和分布式执行
程序执行流程如下:
- 输入包括:输入文件,map函数,reduce函数,reduce task的数量
- 启动rpc server(master_rpc.go) 然后等待workers 注册 (master.go -> register)
- schedule.go -> schedule()决定如何分配任务给workers 以及如何处理失败
3.1 第一部分 编写map/reduce 的输入和输出
$ cd src/mapreduce
$ go test -run Sequential
$ go test -v -run Sequential // debug mode (将common.go里面的debugEnabled改为true)
修改src/mapreduce 下的common_map.go 中的doMap() 函数和 common_reduce.go 中的doReduce() 函数
其中doMap() 函数实现:
- 读取inputfile,根据reduce task 的个数(nReduce) 生成相应个数的中间文件
- 命名格式为 mrtmp.[jobName]-[mapTasknum]-[reduceTasknum] 比如 mrtmp.test-0-0
duReduce()函数功能:
- 读取doMap() 生成的中间文件
- 并且将nMap个文件进行合并 排序 并且输出
- 输出文件名为 mrtmp.[jobName]-res-[reduceTasknum] 比如: mrtmp.test-res-0
3.2 第二部分 实现MapFunc 和 ReduceFunc
实现src/main/wc.go 中的MapF() 和 ReduceF()
其中MapF(inputfile string, contents string) 功能:
inputfile 是输入的文件名 不用考虑
contents 为 inputfile 的内容,调用 strings.FieldsFunc 来完成分词功能
代码如下:
words := strings.FieldsFunc(contents, func(c rune) bool {
return !unicode.IsLetter(c)
})
var result = make([]mapreduce.KeyValue, 0)
for _, w := range words {
kv := mapreduce.KeyValue{w, "1"}
result = append(result, kv)
}
示例
func main() {
f := func(c rune) bool {
return !unicode.IsLetter(c) && !unicode.IsNumber(c)
}
fmt.Printf("Fields are: %q", strings(" foo1;bar2,baz3...", f))
}
ReduceF(key string, values []string)功能:
key 代表每一个键的内容
values 是key对应的 values列表
实现:需要统计value的总数
count := strconv.Itoa(len(values))
return count
3.3 分布式mapreduce任务
schedule() 函数通过读取registerChan 来获取workers集合
MIT6.824食用过程的更多相关文章
- Mit6.824 Lab1-MapReduce
前言 Mit6.824 是我在学习一些分布式系统方面的知识的时候偶然看到的,然后就开始尝试跟课.不得不说,国外的课程难度是真的大,一周的时间居然要学一门 Go 语言,然后还要读论文,进而做MapRed ...
- MIT-6.824 MapReduce
概述 MapReduce是由JeffreyDean提出的一种处理大数据的编程模型,用户定义map和reduce函数,map函数处理原始数据生成一系列键值对中间数据,reduce函数并合相同key的键值 ...
- 【MIT-6.824】Lab 1: MapReduce
Lab 1链接:https://pdos.csail.mit.edu/6.824/labs/lab-1.html Part I: Map/Reduce input and output Part I需 ...
- MIT-6.824 Raft协议
摘要 raft是一种比paxos容易理解的一致性算法,实现起来比paxos简单许多.本文前部分描述算法的细节,后部分尝试探讨下该算法的原理. 算法描述 raft算法之所以简单的原因之一是它将问题分解成 ...
- MIT-6.824 操作系统 汇总
MIT-6.828-JOS-环境搭建 ELF文件格式 lab1:C, Assembly, Tools, and Bootstrapping lab2:Memory management lab3:Us ...
- MIT6.824 分布式系统实验
LAB1 mapreduce mapreduce中包含了两个角色,coordinator和worker,其中,前者掌管任务的分发和回收,后者执行任务.mapreduce分为两个阶段,map阶段和red ...
- MIT-6.824 Lab 3: Fault-tolerant Key/Value Service
概述 lab2中实现了raft协议,本lab将在raft之上实现一个可容错的k/v存储服务,第一部分是实现一个不带日志压缩的版本,第二部分是实现日志压缩.时间原因我只完成了第一部分. 设计思路 如上图 ...
- MIT 6.824 : Spring 2015 lab1 训练笔记
源代码参见我的github: https://github.com/YaoZengzeng/MIT-6.824 Part I: Word count MapReduce操作实际上就是将一个输入文件拆分 ...
- MIT 6.824 : Spring 2015 lab3 训练笔记
摘要: 源代码参见我的github:https://github.com/YaoZengzeng/MIT-6.824 Lab3: Paxos-based Key/Value Service Intro ...
随机推荐
- 实验五 遇到的问题:openssl: error while loading shared libraries: libssl.so.1.1
遇到的问题 命令行:linux@ubuntu64-vm:~/exp/exp5$ openssl enc -aes-128-cbc -in test_aes.txt -out out.txt -pass ...
- ubuntu之路——day11.6 多任务学习
在迁移学习transfer learning中,你的步骤是串行的sequential process 在多任务学习multi-task learning中,你试图让单个神经网络同时做几件事情,然后这里 ...
- 面向SOA服务架构的案例分析的研究
随着互联网应用的不断发展,网络业务的种类.数量不断增加,计算机网络管理的研究重 点正在由过去的个别资源监控.应用可用性阶段,向着如何通过网络获得所需业务.业务流程的优化.保障业务服务水平方向发展.但这 ...
- MySQL枚举类型enum字段在插入不在指定范围的值时, 是否是"插入了enum的第一个值"?
刚刚在看<<深入浅出MySQL>>一书的"ENUM类型"一节, 以下面的代码举例, 得出结论: "还可以看出对于不在ENUM指定范围内的值时, 并 ...
- go语言读写文件
package main import ( "fmt" "io/ioutil" "os" ) func main() { filename ...
- Mac 打开、编辑 .bash_profile 文件
export PATH=${PATH}:/Users/loaderman/Library/Android/sdk/platform-tools export PATH=${PATH}:/Users/l ...
- openresty开发系列3--nginx的平滑升级
openresty开发系列3--nginx的平滑升级 nginx服务器从低版本升级为高版本,如果强行停止服务,会影响正在运行的进程. 平滑升级不会停掉正在运行中的进程,这些进程会继续处理请求.但不会接 ...
- 003-结构型-04-外观模式(Facade)
一.概述 Facade模式也叫外观模式,是由GoF提出的23种设计模式中的一种.Facade模式为一组具有类似功能的类群,比如类库,子系统等等,提供一个一致的简单的界面.这个一致的简单的界面被称作fa ...
- 在EXE和DLL中,FindResource的区别
转载:https://blog.csdn.net/ithzhang/article/details/7995102 在EXE和DLL中,FindResource的区别 以下的代码在EXE中,执行无误. ...
- linux6 x86-64 RPM包安装mysql5.7.20
注意版本和此次更新时间 2017-12-03 版本:mysql-5.7.20-1.el6.x86_64 环境:linux6.x 官方下载地址: wget https://dev.mysql.co ...