读<大数据日知录:架构与算法>有感
前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽。在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, 高不可攀, 也没想着深入学习。
之后, 一次偶然的机会, 在csdn官方博客上看到了这种一个活动
[置顶] 话题讨论&征文--谈论大数据时我们在谈什么
于是, 从下载试读样章, 到正式读书, 開始了学习大数据的过程...
到今天, 差点儿相同两周过去了, 马马虎虎过了一遍, 感触颇多。 以下简单评价下我看完后对这本书的认识。
(ps: 在此之前, 我对大数据等全然没有概念, 接下去的言论, 仅仅是个人的观点, 不喜勿喷)
本书前言中提到:
"从传统IT 业到互联网、互联网到移动互联网,从以智能手机和Pad 为主要终端载体的移动互联网到可穿戴设备的移动互联网。然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必定有越来越多、形态越来越丰富的超量数据不断产生。而大数据明显是由此衍生出来的明白且必定的发展趋势。 "
-----<大数据日知录:架构与算法>
看到这, 给我一种感觉, 大数据无处不在, 大数据高贵冷艳...直到如今, 我才干确定, 它确实是这样!
读完最大的感受是有助于建立大数据技术的总体大局观。
这书从大数据基本理论、各种架构组件以及算法几个角度归纳了眼下常见的大数据技术,理论部分讲的还挺透彻。也包含了方方面面的技术点,真挺全面,能够当个工具书。
这本书蕴涵的的内容比較多——从大数据的存储结构、内容管理,讲到集群任务调度、分布式数据通信、流行的各类新式数据库的介绍,还有基于机器学习技术的大数据实现以及大数据挖掘应用范例等内容,既包罗万象,又深入浅出。17个章节, 17个不同内容, 尽管有所差别, 可是密切相关, 它们分别从大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术, 从不同角度描写叙述了同一个知识--"大数据",可见作者张俊林扎实的功底。尽管我不是专业从事大数据行业的, 可是仅凭我的一些计算机知识, 也能把这本书读下来, 可见作者写作水平之高。
17章中, 我看的最认真的应该是图数据库(毕竟是样章, 最早看), 等我看完之后, 个人觉得这是书中的一个亮点, (不然也不会拿来当样章), 相同的, 数据结构、集群资源管理这两章也非常不错。 就说图数据库这一章吧, 有完整的理论归纳也有详细小样例,体系感强,也好理解。
喜欢这本书的另外一个理由是图文并茂, 比方在介绍TAO的跨数据中心架构的时候, 给了一张非常直观的图,例如以下。我想这比写再多的文字描写叙述都管用。另外, 在介绍一些知识点的时候, 总会举出非常贴切的样例, 便于读者理解。
比方介绍图的时候, 引入Facebook关系图来描写叙述, 十分贴切。
"Facebook是眼下世界上最著名的社交站点, 假设从数据抽象的角度来看, Facebook的社交图不仅包含好友之间的关系, 还包含人与实体以及实体与实体之间的关系, 每一个用户, 每一个页面, 每张图片, 每一个应用。每一个地点以及每一个评论都能够作为独立的实体......"
另外, 看的比較蛋疼的一章应该是机器学习这一章了。
内容尽管非常有用。覆盖了多数经常使用的互联网应用,也是实际使用中的经常使用算法,但缺点也非常明显,感觉对于刚開始学习的人(就像我这样从没学习过的...)有点深,要具备一些主要的机器学习知识恐怕才干理解。
所以我想等先看一些入门书籍过后, 再来又一次读读这个章节。
另外, 每一个章节前面都有一小段歌词, 尽管我没看出有什么名堂, 可是感觉挺好的, 重拾好心情, 開始一个新章节的学习。
最后呢, 借用之前学习大数据看到的一段话: "大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心。在以云计算为代表的技术创新大幕的衬托下,这些原本非常难收集和使用的数据開始easy被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造很多其它的价值。"
假设, 你想从理论方面学习大数据
(理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的总体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈)
或者, 你想从技术方面学习大数据
(技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从採集、处理、存储到形成结果的整个过程。)
再不然, 你想从实践方面学习大数据
(实践是大数据的终于价值体现。在这里分别从互联网的大数据。政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图)。
我都觉得, <大数据日知录:架构与算法>是一本你值得一读的书,。
非常庆幸,我能静下心看了这本书。
读<大数据日知录:架构与算法>有感的更多相关文章
- 《大数据日知录》读书笔记-ch1数据分片与路由
目前主流大数据存储使用横向扩展(scale out)而非传统数据库纵向扩展(scale up)的方式.因此涉及数据分片.数据路由(routing).数据一致性问题 二级映射关系:key-partiti ...
- 一. 数据分片和路由 <<大数据日知录>> 读书笔记
本章主要讲解大数据下如何做数据分片,所谓分片,即将大量数据分散在不同的节点,同时每个存储节点还要做副本备份. 而一般的抽象分片方法是, 先将数据映射到一个分片空间,这是多对一的关系,即一个数据分片区间 ...
- 《大数据日知录》读书笔记-ch15机器学习:范型与架构
机器学习算法特点:迭代运算 损失函数最小化训练过程中,在巨大参数空间中迭代寻找最优解 比如:主题模型.回归.矩阵分解.SVM.深度学习 分布式机器学习的挑战: - 网络通信效率 - 不同节点执行速度不 ...
- 《大数据日知录》读书笔记-ch2数据复制与一致性
CAP理论:Consistency,Availability,Partition tolerance 对于一个分布式数据系统,CAP三要素不可兼得,至多实现其二.要么AP,要么CP,不存在CAP.分布 ...
- 《大数据日知录》读书笔记-ch16机器学习:分布式算法
计算广告:逻辑回归 千次展示收益eCPM(Effective Cost Per Mille) eCPM= CTR * BidPrice 优化算法 训练数据使用:在线学习(online learning ...
- 《大数据日知录》读书笔记-ch11大规模批处理系统
MapReduce: 计算模型: 实例1:单词统计 实例2:链接反转 实例3:页面点击统计 系统架构: 在Map阶段还可以执行可选的Combiner操作,类似于Reduce,但是在Mapper sid ...
- 《大数据日知录》读书笔记-ch3大数据常用的算法与数据结构
布隆过滤器(bloom filter,BF): 二进制向量数据结构,时空效率很好,尤其是空间效率极高.作用:检测某个元素在某个巨量集合中存在. 构造: 查询: 不会发生漏判(false negativ ...
- 二. 大数据常用的算法和数据结构 <<大数据日知录>> 读书笔记
基本上是hash实用的各种举例 布隆过滤器 Bloom Filter 常用来检测某个原色是否是巨量数据集合中的成员,优势是节省空间,不会有漏判(已经存在的数据肯定能够查找到),缺点是有误判(不存在的数 ...
- 我读《大数据时代的IT架构设计》
架构设计是一门艺术,对架构的掌握要通过多看,多学,多交流,多积累,从实战架构上总能吸收到很好的营养,这边书虽然 (一).hadoop技术处理电信行业的上网日志 根据上网的url或未知url爬取内容,进 ...
随机推荐
- 冒泡排序BubbleSort
/** * * @author Administrator * 功能:交换式排序之冒泡排序 */ package com.test1; import java.util.Calendar; publi ...
- Android ExpandableListView使用+获取SIM卡状态信息
ExpandableListView 是一个可以实现下拉列表的控件,大家可能都用过QQ,QQ中的好友列表就是用ExpandableListView实现的,不过它是自定义的适配器.本篇 博客除了要介绍E ...
- BZOJ_1601_[Usaco2008_Oct]_灌水_(最小生成树_Kruskal)
描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1601 有\(n\)个田地需要灌溉,每个田地可以自己引水,花费为\(w[i]\),或者连接其他被 ...
- Zookeeper的一致性协议:Zab(转)
Zookeeper使用了一种称为Zab(Zookeeper Atomic Broadcast)的协议作为其一致性复制的核心,据其作者说这是一种新发算法,其特点是充分考虑了Yahoo的具体情况:高吞吐量 ...
- linux下passwd命令设置修改用户密码
1.passwd 简单说明: 我们已经学会如何添加用户了,所以我们还要学习设置或修改用户的密码:passwd命令的用法也很多,我们只选如下的几个参数加以说明:想了解更多,请参考man passwd或p ...
- tcxtreelist Properties的使用(TcxImageComboBoxProperties)
TcxImageComboBoxProperties(MID_Comp.Properties).Items.Clear; 这样就可以使用属性了. if lstPaper.FocusedNode.Val ...
- Tdxtreelist 行变色
ACanvas.Font.Color := clRed; //如果有加印的 变颜色
- [转]优化数据库大幅度提高Oracle的性能
几个简单的步骤大幅提高Oracle性能--我优化数据库的三板斧. 数据库优化的讨论可以说是一个永恒的主题.资深的Oracle优化人员通常会要求提出性能问题的人对数据库做一个statspack,贴出数据 ...
- SQL Server查询性能优化——覆盖索引(一)
覆盖索引又可以称为索引覆盖. 解释一: 就是select的数据列只用从索引中就能够取得,不必从数据表中读取,换句话说查询列要被所使用的索引覆盖. 解释二: 索引是高效找到行的一个方法,当能通过检索索引 ...
- 【HTML】Intermediate1:Span&Div
1.HTML is all bout applying meaning to content. The span & div tags apply no meaning at all=mean ...