《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假闲得蛋痒,混混沌沌,开始看《Data-Intensive Text Processing with mapReduce》,尽管有诸多单词不懂,还好六级考多了,虽然至今未过;再加上自己当研究僧有一段时间了,经书尚且能懂;故本书大概内容及技术还是理解的。一种闲散的心态开始了对一本技术型书籍的啃读。
此外,看到本校论坛上的技术帖如此冷清,八卦帖依然火爆…..堂堂985+211理工学校的猛男,悍妹,难道都思春去了;实在不给力。闲话少说,开帖(尼玛,最近键盘总是在码字到某个字符的时候突然卡死,弃之,转手写,以后再码上)。
《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
Mapreduce是一种分布式的程序设计模式。作者首先提出了“Why”,答案是:大数据。那就先来说说数据。
数据的产生:大数据时代,比如咱们的搜索行为、购物习惯、看片类型、社交等,就在各巨头的服务器上存在,并且爆炸式增长。
数据的管理:随着硬件的发展,数据中心越来越多,有能力存了,但是真正会用的公司也就那么几家。
数据的分析:即数据挖掘,用于商业智能、统计学习、决策等。也说本人最感兴趣的。
例子:词性标志。(前言用了大量自然语言处理(NLP)例子, 推荐一本正在看的书,中科院宗成庆的《统计自然语言处理》,超新星视频有他的课程,校园网免费,可在实验室高速下载,而后慢慢学习研究,当然里面还有很多丰富的课程,没事的时候,别老泡图书馆,看视频,学得更快。天文地理,文学艺术,我已经把感兴趣的下得差不多了)
机器如何对输入的语句进行断句(专业讲就是分词,且标出每个词的词性,是名词,还是其他)。首先要有语料库,如果可能,就是人类有史以来所以的文字记载,这就是数据啊,量够大吧,根据统计获得各种断句的概率分布,属于这样切分的概率是多少,那样的概率是多少,就是分类问题。但是语言博大精深,如果碰到一个词有可能有多种词性,就要考虑上下文的关系,这就是多元的语言模型了建立条件概率,根据庞大的语料库,单机计算犹如慢慢长夜,基于群集的分布式处理才能实现高效,mapreduce就派上用场了。
总之,数据驱动一切。而此书主要针对文本型的密集数据进行处理,此外作者还总结了几个有意思的观点:
1). 至少对于文本数据,其研究有三要素:数据本身、特征(数据的表示,或者说模型)以及算法(求解模型的数学方法);我们说数据就是点,点连成线就是建了模型,而点如何成线就要万能的Mathematics,然后根据你输入的点,就可以根据模型拿到你想要的。
2). 数据量越大,学习的准确率越高,引发了争议:只要有足够的数据,机器存储量够大、运行速度够快,算法并不重要。机器学习算法的研究者可以歇菜了。尼玛,研究了两年的算法难道就白费了,还好只是争议,况且目前数据和硬件还无法实现。
3). 平滑处理。大数据的处理,离不开统计。数据缺失时有发生,以前没被雷劈过并表示你下雨打手机一定安全。在语音识别、机器翻译时候的,平滑处理显得尤为重要。
说了一大堆why后,就讲到了what?不是的。是渐渐扯远了,只为吸引你。
- 云计算
从传统的并行计算(MPI)、网格计算到效用计算(提供服务的计算模型)。云的最高境界,即一切的一切均抽象为服务。当前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce设计模型恰是一种Powerful的抽象手段,将What和How分离,你只需享受终端的各种服务,怎么做的,那是云端的事情。这让我常想起广告中的一些词,如“联所未连”、“智慧地球”。
2. 强大的思想
1).横向拓展,非纵向延伸——普通pc机就能搭建庞大的群集,无需高性能计算机,成本低;
2).容错性。当出现down机时,自动重新分配节点,依然能正确提供服务,神不知鬼不觉;
3).计算本地化,尽量存储与计算的分离,减少过多的网络传输;
4).数据大而密集,采用批处理,顺序读取,避免随机读取。尽管对固态硬盘而言,两种读取差不多,但是固态硬盘的缺陷也很明显,容量小,成本高,还短命;
5).对开发者而言,So easy,再也不用考虑过多的实现细节了,只需描述你要做什么,怎么做大多是系统封装好了的;
6)扩展能力,数据增大,可扩展群集。当数据固定,增加节点,执行更快,具有线性加速比。
3. 与众不同
随着存储成本下降,hadoop开源发展,云服务变得简单,大数据无非就是存储、算法处理、可视化。Mapreduce在存储与算法间键搭起桥梁。群集的数据中心正如一台超级电脑,冯氏计算机模型将不再高效。
4. 此书的内容
此书主要针对密集文本进行分析,提出算法设计及应用。基于hadoop的Mapreduce开源实现,但不会探讨hadoop的api使用,如需了解,推荐《hadoop权威指南》(目前也在艰难的啃读当中)。
结束语:
今日获悉,长沙又将迎来创纪录的持续高温天气,酷暑已超过寂寞,实在难耐,祝各位凉快!
《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言的更多相关文章
- 《Data-Intensive Text Processing with mapReduce》读书笔记之二:mapreduce编程、框架及运行
搜狐视频的屌丝男士第二季大结局了,惊现波多野老师,怀揣着无比鸡冻的心情啊,可惜随着剧情的推进发展,并没有出现期待中的屌丝奇遇,大鹏还是没敢冲破尺度的界线.想百度些种子吧,又不想让电脑留下污点证据,要知 ...
- 《JAVA 程序员面试宝典(第四版)》读书笔记之前言
工作五年了一直在小的软件公司混,总感觉自己的专业知识没有太大的提升.当然了中间也换了一两家公司,面试的公司就很多家,总感觉正规的软件公司(无论大小)对于基础知识的考核都非常重视,而不管你说你之前服务过 ...
- <Python Text Processing with NLTK 2.0 Cookbook>代码笔记
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...
- HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和 块/存储管理(Block Storage). 命名空间管理(Namespac ...
- 【vue.js权威指南】读书笔记(第一章)
最近在读新书<vue.js权威指南>,一边读,一边把笔记整理下来,方便自己以后温故知新,也希望能把自己的读书心得分享给大家. [第1章:遇见vue.js] vue.js是什么? vue.j ...
- WPF,Silverlight与XAML读书笔记第四十七 - Silverlight与浏览器
说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 这部分内容主要介绍Silverlight与浏 ...
- WPF,Silverlight与XAML读书笔记第四十五 - 外观效果之模板
说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 模板允许用任何东西完全替换一个元素的可视树, ...
- AngularJS in Action读书笔记6(实战篇)——bug hunting
这一系列文章感觉写的不好,思维跨度很大,原本是由于与<Angularjs in action>有种相见恨晚而激发要写点读后感之类的文章,但是在翻译或是阐述的时候还是会心有余而力不足,零零总 ...
- 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...
随机推荐
- c++: 获取delete[]中的数组大小
看一个小例子: 1 #include <iostream> 2 3 using namespace std; 4 5 class A { 6 public: 7 A() { ...
- HeadFirst设计模式之装饰者模式
一. 1.The Decorator Pattern attaches additional responsibilities to an object dynamically.Decorators ...
- 编程添加"作为服务登录”权利(包括例子和API)
搜索"log on as a service programmatically" https://msdn.microsoft.com/en-us/library/windows/ ...
- Ado.Net小练习02(小项目CUID
前台界面: 后台代码: namespace ado.net小项目cuid { public partial class Form1 : Form { //连接字符串 ...
- Ubuntu 12.04搭建Andorid编译环境
1.安装JDK,Android 5.0开始,开始使用OpenJDK 1.7,4.4等低版本是Oracke JDK1.6 install java environment // install open ...
- Android 常用UI控件之TabHost(5)Tab栏在底部且在最上层也不盖tab页
tab栏在底部 <TabHost android:id="@android:id/tabhost" android:layout_width="match_pare ...
- 14条建议,使你的IT职业生涯更上一层楼
摘要:升值为企业IT部门的领导者,是大部分IT技术人员职业生涯的最终追求.但从一般大众中脱颖而出,并非易事.仅仅把本职工作干好远远不够,还需要IT技术人员展示出投身于技术发展的奉献精神及伴随技术发展而 ...
- jquery网页倒计时效果,秒杀,限时抢购!
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
- (转载) ExtJs大比拼JQuery:Dom文档操作
此次不生产水,做一次搬运工. http://www.cnblogs.com/lipan/archive/2011/12/07/2269815.html
- [swustoj 917] K-lucky-number
K-lucky-number(0917) 问题描述 K-lucky-number is defined as add up the number of each bit is a multiple o ...