(转载请注明出处：http://blog.csdn.net/buptgshengod)

1.參会有感

首先还是非常感谢CSDN能给我票，让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票（看到网上卖一千多一张呢）。

还是得从国家会议中心说起，两年前lz以前在那当过IDF的志愿者，当时是纯体力劳动，负责给參会人员发一些杂志什么的，当时苦逼的为了多蹭一个盒饭躲到柜子后面直到开饭。真没想到两年后能够以来宾的身份參加国家会议中心的大会（尽管午餐还是苦逼的盒饭吧），这次真的能够走进主会议场聆听专家们的报告。说实话，一进主会议场看到几千个码农，都是差点儿相同的装扮，真的有点小震撼。

听了几个院士和运营商老总的报告，最震撼的还是微软副总裁王亚勤先生的演讲，感觉挺震撼的。不得不说微软就是微软（大家能够搜搜这段演讲看一下），他说的有一句话非常有意思“从互联网让我们从物理变为虚拟，如今云让我们从虚拟变回物理”（没看懂的能够留言讨论哈）。

參加这次大会不是为了学一个算法或是什么，应该是从宏观上了解云的发展。李德毅院士说：云就是计算P级数据的能力。确实，随着数据过剩的时代已经到来。数据成了解决这个问题的基础，算法是解决这个问题的工具，云就是我们的途径。

2.云就在身边

以下写下我近期在操作阿里云的一些感受，博主參加了阿里的天猫大数据竞赛，靠着抱大腿战术成功入围S2，阿里给每一个进入S2阶段的队伍开设了server端的账号。先秀一下，阿里云端的虚拟机界面，（苦逼的xp）

以下一行黑色的就是阿里云odps的命令行工具，在里面能够进行数据库操作，主要是sql语句。我的理解是这个odps就是hadoop的改版，不知道这样的说法对不正确。

记得当年，我们寝室的czx问我们几个什么是云，旭哥说了：“我认为云就是分布式。”

（1）MR

分布式就是将大量的数据运算依照一定规则分配到云上的无数个server上，并行完毕，这样就能够极大地提高运算效率。然而，怎样分配，计算完又怎样将数据汇总，这就依赖于MapReduce了，这里简称MR。

MR来源于google的一篇论文，MR分为mapper和reducer，mapper是将数据分割为key，value对的形式，reducer是对每一个key的value的逻辑进行计算。driver负责一些传入传出的数据入口。上个图吧，这是我在阿里server上的一个MR程序

写好的MR程序，export成为jar文件，再传到云上，将数据库的table输入就能够实现相应的算法了。

（2）udf

udf就是实现云端的sql的function函数。举个样例，比方说有个表，里面的数据是412142=>3522。我们想以中间的箭头符号为分隔，获取412142或是3522.由于sql中是没有相似于splite的函数的。所以我们要写一个sql的function实现这个功能。这个function我们用java写好，仅仅要将生成的jar文件放到云端，就能够调用。

以上是我对于云的一些感受和看法，欢迎大家留言讨论！

云计算大会有感—MapReduce和UDF的更多相关文章

小编接地气——第六届中国云计算大会攻略Q&A
2014年5月20-23日,第六届中国云计算大会在北京召开. 花个1000多元,在工作日请假来參加大会,不能让大家白跑一趟而是物有所值. 小编写了大会攻略Q&A,分享给各位 Q:为什么要參加关 ...
为什么说2017全球云计算大会中国站（Cloud Connect China 2017）不得不参加？
2017全球云计算大会中国站将继续关注全球云计算产业现状及最热门的领域,设立主题论坛.2017全球云计算大会中国站将于2017年9月5-7日在上海世博展览馆.正如去年9月活动现场所预告的,2017年除 ...
参加微软Ignite大会有感
很有幸作为MVP参加了本次微软中国的年度技术大会(Ignite).跳出技术领域,这次会议给我最大的感受是态度.这几年不论是开源现有技术,还是黑科技的发布,都给人感觉微软在逐渐变得cool,但是cool ...
參加北京bluemix云计算大会偶记
我就不写散文了.博客也要轻量化. 记录心路历程吧. 这是一次ibm的技术大会.也是传道大会,洗脑大会.会议主题看起来非常多,占领了北京国际饭店的三层,作为一个老ibm bp感受非常多. 1.北京的创业 ...
云计算(6)--一些MapReduce的例子
例1:文件的字符串查找这里reduce不做merge的工作,因为每行都是不一样的,不能merge. 与传统的grep程序相比,使用MapReduce可以加快处理,因为1它是Distributed的, ...
2014 BDTC 參会有感
中国大数据技术大会(Big Data Technology Conference,BDTC)是眼下国内最具影响.规模最大的大数据领域的技术盛会. 大会的前身是Hadoop中国云计算大会(Hadoop ...
2016中国大数据技术大会（ BDTC ）共商大数据时代发展之计
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...
2014 BDTC 参会有感
中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响.规模最大的大数据领域的技术盛会.大会的前身是Hadoop中国云计算大会(Hadoop i ...
海量数据挖掘MMDS week1: MapReduce
http://blog.csdn.net/pipisorry/article/details/48443533 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...

随机推荐

C语言位域——精妙使用内存
参考链接 https://blog.csdn.net/yanbober/article/details/8697967 https://blog.csdn.net/Tommy_wxie/artic ...
elasticsearch文档学习
1.集群节点(一个elasticsearch实体) 索引主节点 :集群级别变更,新增或移除节点,索引: 主节点不参与文档级别搜索和变更. 分片(shard):一个完整的搜索引擎,lucene ...
set IDENTITY_INSERT on 和 off 的设置
qlserver 批量插入记录时,对有标识列的字段要设置 set IDENTITY_INSERT 表名 on,然后再执行插入记录操作;插入完毕后恢复为 off 设置格式: set IDENTITY ...
MySQL 存储过程入门
存储过程是带有逻辑的SQL语句,优点是执行效率高.缺点是可移植性差 1.存储过程语法 DELIMITER $ --声明结束符 CREATE PROCEDURE pro_test() --创建存储过程 ...
WeifenLuo.WinFormsUI.Docking"的使用
要用 WeifenLuo.WinFormsUI.Docking 首先要下载: WeifenLuo.WinFormsUI.Docking 在当前工程“解决方案 - 引用”中 >> 右击引用 ...
.gitignore文件如何编写？
.gitignore文件即项目中不需要被追踪(track)且上传到git系统的文件 <1>忽略文件的原则 a.忽略操作系统自动生成的文件,比如缩略图等 b.忽略编译生成的中间文件.可执行 ...
PHP array_key_exists() 函数(判断某个数组中是否存在指定的 key)
定义和用法 array_key_exists() 函数判断某个数组中是否存在指定的 key,如果该 key 存在,则返回 true,否则返回 false. 语法 array_key_exists(ke ...
Hive（十）Hive性能调优总结
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单 ...
day5模块学习--yaml文件处理
yaml文件处理(http://pyyaml.org/wiki/PyYAMLDocumentation) 摘要: 本文讲的是yaml在python上的使用教程详解, YAML是一种容易人类阅读 ...
C语言：输入10个整数，找出其中绝对值最小的数
1 输入10个整数,找出其中绝对值最小的数(10分) 题目描述输入10个整数,找出其中绝对值最小的数输入十个整数输出绝对值最小的数样例输入 -10 -2 30 40 50 60 70 80 ...