暑假闲得蛋痒,混混沌沌,开始看《Data-Intensive Text Processing with mapReduce》,尽管有诸多单词不懂,还好六级考多了,虽然至今未过;再加上自己当研究僧有一段时间了,经书尚且能懂;故本书大概内容及技术还是理解的。一种闲散的心态开始了对一本技术型书籍的啃读。

此外,看到本校论坛上的技术帖如此冷清,八卦帖依然火爆…..堂堂985+211理工学校的猛男,悍妹,难道都思春去了;实在不给力。闲话少说,开帖(尼玛,最近键盘总是在码字到某个字符的时候突然卡死,弃之,转手写,以后再码上)。

《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言

Mapreduce是一种分布式的程序设计模式。作者首先提出了“Why”,答案是:大数据。那就先来说说数据。

数据的产生:大数据时代,比如咱们的搜索行为、购物习惯、看片类型、社交等,就在各巨头的服务器上存在,并且爆炸式增长。

数据的管理:随着硬件的发展,数据中心越来越多,有能力存了,但是真正会用的公司也就那么几家。

数据的分析:即数据挖掘,用于商业智能、统计学习、决策等。也说本人最感兴趣的。

例子:词性标志。(前言用了大量自然语言处理(NLP)例子, 推荐一本正在看的书,中科院宗成庆的《统计自然语言处理》,超新星视频有他的课程,校园网免费,可在实验室高速下载,而后慢慢学习研究,当然里面还有很多丰富的课程,没事的时候,别老泡图书馆,看视频,学得更快。天文地理,文学艺术,我已经把感兴趣的下得差不多了)

机器如何对输入的语句进行断句(专业讲就是分词,且标出每个词的词性,是名词,还是其他)。首先要有语料库,如果可能,就是人类有史以来所以的文字记载,这就是数据啊,量够大吧,根据统计获得各种断句的概率分布,属于这样切分的概率是多少,那样的概率是多少,就是分类问题。但是语言博大精深,如果碰到一个词有可能有多种词性,就要考虑上下文的关系,这就是多元的语言模型了建立条件概率,根据庞大的语料库,单机计算犹如慢慢长夜,基于群集的分布式处理才能实现高效,mapreduce就派上用场了。

总之,数据驱动一切。而此书主要针对文本型的密集数据进行处理,此外作者还总结了几个有意思的观点:

1). 至少对于文本数据,其研究有三要素:数据本身、特征(数据的表示,或者说模型)以及算法(求解模型的数学方法);我们说数据就是点,点连成线就是建了模型,而点如何成线就要万能的Mathematics,然后根据你输入的点,就可以根据模型拿到你想要的。

2). 数据量越大,学习的准确率越高,引发了争议:只要有足够的数据,机器存储量够大、运行速度够快,算法并不重要。机器学习算法的研究者可以歇菜了。尼玛,研究了两年的算法难道就白费了,还好只是争议,况且目前数据和硬件还无法实现。

3). 平滑处理。大数据的处理,离不开统计。数据缺失时有发生,以前没被雷劈过并表示你下雨打手机一定安全。在语音识别、机器翻译时候的,平滑处理显得尤为重要。

说了一大堆why后,就讲到了what?不是的。是渐渐扯远了,只为吸引你。

  1. 云计算

从传统的并行计算(MPI)、网格计算到效用计算(提供服务的计算模型)。云的最高境界,即一切的一切均抽象为服务。当前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce设计模型恰是一种Powerful的抽象手段,将What和How分离,你只需享受终端的各种服务,怎么做的,那是云端的事情。这让我常想起广告中的一些词,如“联所未连”、“智慧地球”。

2.  强大的思想

1).横向拓展,非纵向延伸——普通pc机就能搭建庞大的群集,无需高性能计算机,成本低;

2).容错性。当出现down机时,自动重新分配节点,依然能正确提供服务,神不知鬼不觉;

3).计算本地化,尽量存储与计算的分离,减少过多的网络传输;

4).数据大而密集,采用批处理,顺序读取,避免随机读取。尽管对固态硬盘而言,两种读取差不多,但是固态硬盘的缺陷也很明显,容量小,成本高,还短命;

5).对开发者而言,So easy,再也不用考虑过多的实现细节了,只需描述你要做什么,怎么做大多是系统封装好了的;

6)扩展能力,数据增大,可扩展群集。当数据固定,增加节点,执行更快,具有线性加速比。

3.   与众不同

随着存储成本下降,hadoop开源发展,云服务变得简单,大数据无非就是存储、算法处理、可视化。Mapreduce在存储与算法间键搭起桥梁。群集的数据中心正如一台超级电脑,冯氏计算机模型将不再高效。

4.   此书的内容

此书主要针对密集文本进行分析,提出算法设计及应用。基于hadoop的Mapreduce开源实现,但不会探讨hadoop的api使用,如需了解,推荐《hadoop权威指南》(目前也在艰难的啃读当中)。

结束语:

今日获悉,长沙又将迎来创纪录的持续高温天气,酷暑已超过寂寞,实在难耐,祝各位凉快!

《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言的更多相关文章

  1. 《Data-Intensive Text Processing with mapReduce》读书笔记之二:mapreduce编程、框架及运行

    搜狐视频的屌丝男士第二季大结局了,惊现波多野老师,怀揣着无比鸡冻的心情啊,可惜随着剧情的推进发展,并没有出现期待中的屌丝奇遇,大鹏还是没敢冲破尺度的界线.想百度些种子吧,又不想让电脑留下污点证据,要知 ...

  2. 《JAVA 程序员面试宝典(第四版)》读书笔记之前言

    工作五年了一直在小的软件公司混,总感觉自己的专业知识没有太大的提升.当然了中间也换了一两家公司,面试的公司就很多家,总感觉正规的软件公司(无论大小)对于基础知识的考核都非常重视,而不管你说你之前服务过 ...

  3. <Python Text Processing with NLTK 2.0 Cookbook>代码笔记

    如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...

  4. HDFS Federation (读书笔记)

    HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和 块/存储管理(Block Storage). 命名空间管理(Namespac ...

  5. 【vue.js权威指南】读书笔记(第一章)

    最近在读新书<vue.js权威指南>,一边读,一边把笔记整理下来,方便自己以后温故知新,也希望能把自己的读书心得分享给大家. [第1章:遇见vue.js] vue.js是什么? vue.j ...

  6. WPF,Silverlight与XAML读书笔记第四十七 - Silverlight与浏览器

    说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 这部分内容主要介绍Silverlight与浏 ...

  7. WPF,Silverlight与XAML读书笔记第四十五 - 外观效果之模板

    说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 模板允许用任何东西完全替换一个元素的可视树, ...

  8. AngularJS in Action读书笔记6(实战篇)——bug hunting

    这一系列文章感觉写的不好,思维跨度很大,原本是由于与<Angularjs in action>有种相见恨晚而激发要写点读后感之类的文章,但是在翻译或是阐述的时候还是会心有余而力不足,零零总 ...

  9. 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...

随机推荐

  1. UIScrollView的坑--UINavigationController Push后位置变化

    今天在使用UIScrollView的时候遇到了一个问题,记录一下.如果这个记录有幸被您搜索到,或许对您有些帮助. 今天有这样一个需求: 在一个由导航条控制的页面中.需要显示一些信息,目前已经有10多行 ...

  2. EasyUI datagrid 分页Json字符串格式

    //EasyUI datagrid 分页Json字符串格式 //{"total":xx,"rows":[{...},{...}]} total:总数 rows: ...

  3. 安装Redis完整过程

    概述    首先报告一下我系统的版本: [root@firefish init.d]# cat /etc/issue 系统版本信息如下: 引用 CentOS release 6.4 (Final) K ...

  4. web页面浮动回到顶部功能和浮动广告

    实现测试浮动回到顶部 法一:用js实现<%@ Page Language="C#" AutoEventWireup="true" CodeBehind=& ...

  5. js常用函数(不断添加中。。。)

    /************************************************* Function: getColor Description: 根据输入的数字返回一个颜色值 In ...

  6. 【转】notepad++ 应用学习 -- 列模式,十六进制模式

      Notepad++ 顾名思义,是一个比notepad(Windows下叫记事本)的功能更强的编辑器. 总以为notepad++小巧轻盈,而且开源,要比UE(UltraEdit)好用.因为她支持的视 ...

  7. 使用头文件cfloat中的符号常量获知浮点类型数据的表数范围---gyy整理

    使用头文件cfloat中的符号常量获知浮点类型数据的表数范围 cfloat头文件包含了系统的浮点数的长度限制 头文件climits中的符号常量是获知整型数据的表数范围,并不能获取浮点类型数据的表数范围 ...

  8. JSON格式转换成XML格式

    第一种方法: 需要使用命名空间System.Runtime.Serialization.Json 下面有JsonReaderWriterFactory XmlDictionaryReader read ...

  9. 【原创】ZYNQ学习笔记(一) HelloWorld实现

    拿过ZYNQ开发板,里面给了很多部件,果断从网上下载了手册,N多手册和原理图. 要比Spartan-6复杂多了,耐心地看了看,知道ZYNQ系列分为PS(系统)以及PL(逻辑)部分. 之前,自己一直在做 ...

  10. Mongodb的范式化和反范式化

    如果是涉及到一对多的数据格式,可使用文档引用范式化数据. 在一个,User对象中,如果涉及到工作信息或者联系地址的,这些信息会频繁的进行访问,可使用嵌入式文档对数据进行反范式化.