MIT6.824食用过程

Lab1 MapReduce

一、介绍

本实验使用Go语言构建一个mapreduce库,以及一个容错的分布式系统。第一部分完成一个简单的mapreduce程序,第二部分写一个提交到mapreduce workers 的master 并且要能够处理workers 的错误。 库的接口和容错的方法跟mapreduce paper里面描述的类似。

二、环境搭建 vscode&&go

1. 安装golang

2. 安装git

3.安装cntlm

代理工具,用来给git 和 go 配置代理,下载文件。

git config --global http.proxy http:china\\username:password@proxy:8080

git config --global https.proxy https:china\\username:password@proxy:8080

测试: $ git clone https://github.com/dotcloud/docker.git 如果报错ssl certificate。。。

执行 $ git config --global http.sslVerify false

再执行git clone即可

4. 在vscode 里面下载go插件

三、实验说明

map/reduce实现支持两种操作模式:顺序执行、分布式执行。前者是指一次执行一个task,当所有的map task

执行完才轮到reduce task

程序源码在mapreduce 目录下

通过调用master.go来启动job,可以设置顺序执行和分布式执行

程序执行流程如下:

  • 输入包括:输入文件,map函数,reduce函数,reduce task的数量
  • 启动rpc server(master_rpc.go) 然后等待workers 注册 (master.go -> register)
  • schedule.go -> schedule()决定如何分配任务给workers 以及如何处理失败

3.1 第一部分 编写map/reduce 的输入和输出

$ cd src/mapreduce

$ go test -run Sequential

$ go test -v -run Sequential // debug mode (将common.go里面的debugEnabled改为true)

修改src/mapreduce 下的common_map.go 中的doMap() 函数和 common_reduce.go 中的doReduce() 函数

其中doMap() 函数实现:

  • 读取inputfile,根据reduce task 的个数(nReduce) 生成相应个数的中间文件
  • 命名格式为 mrtmp.[jobName]-[mapTasknum]-[reduceTasknum] 比如 mrtmp.test-0-0

duReduce()函数功能:

  • 读取doMap() 生成的中间文件
  • 并且将nMap个文件进行合并 排序 并且输出
  • 输出文件名为 mrtmp.[jobName]-res-[reduceTasknum] 比如: mrtmp.test-res-0

3.2 第二部分 实现MapFunc 和 ReduceFunc

实现src/main/wc.go 中的MapF() 和 ReduceF()

其中MapF(inputfile string, contents string) 功能:

  • inputfile 是输入的文件名 不用考虑

  • contents 为 inputfile 的内容,调用 strings.FieldsFunc 来完成分词功能

    • 代码如下:

    • words := strings.FieldsFunc(contents, func(c rune) bool {
      return !unicode.IsLetter(c)
      })
      var result = make([]mapreduce.KeyValue, 0)
      for _, w := range words {
      kv := mapreduce.KeyValue{w, "1"}
      result = append(result, kv)
      }
    • 示例

    • func main() {
      f := func(c rune) bool {
      return !unicode.IsLetter(c) && !unicode.IsNumber(c)
      }
      fmt.Printf("Fields are: %q", strings(" foo1;bar2,baz3...", f))
      }

ReduceF(key string, values []string)功能:

  • key 代表每一个键的内容

  • values 是key对应的 values列表

  • 实现:需要统计value的总数

  • count := strconv.Itoa(len(values))
    return count

3.3 分布式mapreduce任务

schedule() 函数通过读取registerChan 来获取workers集合

MIT6.824食用过程的更多相关文章

  1. Mit6.824 Lab1-MapReduce

    前言 Mit6.824 是我在学习一些分布式系统方面的知识的时候偶然看到的,然后就开始尝试跟课.不得不说,国外的课程难度是真的大,一周的时间居然要学一门 Go 语言,然后还要读论文,进而做MapRed ...

  2. MIT-6.824 MapReduce

    概述 MapReduce是由JeffreyDean提出的一种处理大数据的编程模型,用户定义map和reduce函数,map函数处理原始数据生成一系列键值对中间数据,reduce函数并合相同key的键值 ...

  3. 【MIT-6.824】Lab 1: MapReduce

    Lab 1链接:https://pdos.csail.mit.edu/6.824/labs/lab-1.html Part I: Map/Reduce input and output Part I需 ...

  4. MIT-6.824 Raft协议

    摘要 raft是一种比paxos容易理解的一致性算法,实现起来比paxos简单许多.本文前部分描述算法的细节,后部分尝试探讨下该算法的原理. 算法描述 raft算法之所以简单的原因之一是它将问题分解成 ...

  5. MIT-6.824 操作系统 汇总

    MIT-6.828-JOS-环境搭建 ELF文件格式 lab1:C, Assembly, Tools, and Bootstrapping lab2:Memory management lab3:Us ...

  6. MIT6.824 分布式系统实验

    LAB1 mapreduce mapreduce中包含了两个角色,coordinator和worker,其中,前者掌管任务的分发和回收,后者执行任务.mapreduce分为两个阶段,map阶段和red ...

  7. MIT-6.824 Lab 3: Fault-tolerant Key/Value Service

    概述 lab2中实现了raft协议,本lab将在raft之上实现一个可容错的k/v存储服务,第一部分是实现一个不带日志压缩的版本,第二部分是实现日志压缩.时间原因我只完成了第一部分. 设计思路 如上图 ...

  8. MIT 6.824 : Spring 2015 lab1 训练笔记

    源代码参见我的github: https://github.com/YaoZengzeng/MIT-6.824 Part I: Word count MapReduce操作实际上就是将一个输入文件拆分 ...

  9. MIT 6.824 : Spring 2015 lab3 训练笔记

    摘要: 源代码参见我的github:https://github.com/YaoZengzeng/MIT-6.824 Lab3: Paxos-based Key/Value Service Intro ...

随机推荐

  1. vue后台_纯前端实现excel导出/csv导出

    之前的文件下载功能一般是由前后端配合实现,由于项目需要,纯前端实现了一把excel的导出功能: 一.excel导出 1.安装依赖库 xlsx:这是一个功能强大的excel处理库,但是上手难度也很大,还 ...

  2. JWT Claims

    JWT Claims “iss” (issuer)  发行人 “sub” (subject)  主题 “aud” (audience) 接收方 用户 “exp” (expiration time) 到 ...

  3. Oracle审计表AUD$处理方法

    Oracle版本:11.2.0,其他版本要测试DBMS_AUDIT_MGMT能否成功 1. 查询表,然后truncate select count(*) from aud$; truncate tab ...

  4. 【转】反编译获取任何微信小程序源码(完)

    一.前言最近在学习微信小程序开发,半个月学习下来,很想实战一下踩踩坑,于是就仿写了一个阿里妈妈淘宝客小程序的前端实现,过程一言难尽,差不多两周时间过去了,发现小程序的坑远比想象的要多的多!!在实际练手 ...

  5. 启动项目报错:Unsupported major.minor version 52.0

    解决方案: 确保Build Path或者电脑配置的环境变量版本号,和pom中的一致 Exception in thread "main" java.lang.Unsupported ...

  6. 【Java.Regex】用正则表达式查找Java文件里的字符串

    代码: import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; imp ...

  7. GIS地理工具案例教程——批量去除多边形的重叠部分

    GIS地理工具案例教程--批量去除多边形的重叠部分 商务合作,科技咨询,版权转让:向日葵,135-4855__4328,xiexiaokui#qq.com 问题:几乎所有的手工生产的数据,都存在多边形 ...

  8. snmpwalk 安装与使用详解-windows下

    snmpwalk是SNMP的一个工具,它使用SNMP的GETNEXT请求查询指定OID(SNMP协议中的对象标识)入口的所有OID树信息,并显示给用户.通过snmpwalk也可以查看支持SNMP协议( ...

  9. linux(centos7.0以上版本)安装 mysql-5.7.24-linux-glibc2.12-x86_64.tar 版本的mysql

      1:查看 linux下是否有老版本的mysql(有删除) 查找old mysql:rpm -qa | grep mysql 卸载:卸载命令:rpm –ev {包名}——:rpm -ev mysql ...

  10. weui 导航悬浮固定

    <style> .none{display: none} #toolbar { display: flex; justify-content: center; align-items: c ...