国内首家!腾讯主导Apache Hadoop新版本发布

 

https://blog.csdn.net/weixin_34194317/article/details/88811258

腾讯也挖了很多大数据的牛人啊..

近日,腾讯主导的Apache Hadoop2.8.4最新版本发布,为国内科技公司迈出了国际开源领域贡献的重要一步。

2006年Apache Hadoop发布,2008年Hadoop成为Apache顶级项目。在那时,中国移动、百度、淘宝等都已经开始使用Hadoop技术。Hadoop现在早已成为Apache软件基金会的金牌项目之一。不仅如此,它还孕育了包括HBase、Hive、ZooKeeper等一系列知名Apache顶级项目,它们一开始都是以Apache Hadoop子项目的形式在社区运作、为开发者熟知的。

这次腾讯主导发布的Apache Hadoop2.8.4版本,涉及20多个大大小小的特性和优化,清单如下:

负责这一版本整体进度的Release Manager,是来自腾讯云产品部大数据及人工智能产品中心的专家研究员堵俊平,他同时也是Apache Hadoop社区PMC的成员。

Apache软件基金会推崇PMC制度,每个开源项目都是一个PMC,即项目管理委员会,可以自行决定技术发展方向和社区运作模式,但需要公开信息,并定期向Apache的董事会汇报,以便董事会监督。

成为PMC的成员可是非常不容易的事,必须要一步步“打怪升级”。要实现从一个普通的Developer到PMC Member的跨越,除了码代码以外,开源社区的组织能力也要强,是不是帅呆了?

堵俊平,腾讯T4大数据技术专家,曾任EMC,VMware资深研发工程师,Hortonworks美国YARN团队负责人。深耕云计算,大数据方向10余年,在多个社区均享有极高知名度,包括Apache Hadoop社区Committer & PMC,并领导hadoop 2.6、2.8等应用非常广泛的社区release。曾领导开发多个Hadoop在云平台上优化与拓展的项目与产品。目前在腾讯致力于领导腾讯云大数据及人工智能产品研发工作。

小编采访了一下这位男神,接下来就让他给大家讲一下,这次新版本发布过程中的小细节吧。

Q:很多人可能听说过“开源”,但了解不多,您可以简单介绍一下吗?

A:开源可以理解为“向公众开放源代码”。近几年来热度不减的大数据,就是由开源的软件来驱动整个产业生态的。这里就不得不提到一个里程碑式的开源产品——hadoop:从谷歌的三篇论文,到雅虎的hadoop,开启了如今的大数据时代。

过去的系统软件主要是由闭源软件来驱动的。虽然像操作系统涌现出Linux这样优秀的软件,但后面的数据库和应用服务器,仍然几乎都是从闭源产品去驱动的。

hadoop诞生后的这十年来,一直都是大数据生态的核心,它改变了以往的软件形式,成为了最主流的开源项目之一。现在基本上各家数据平台团队,都是在hadoop生态系统上小修小改,去支持大数据相关的业务系统,可以认为它是开源的一个标准吧。

Q:与传统的闭源生态相比,开源有什么好处呢?

A:首先是避免“重复发明轮子”的问题,不同的个人和团体可以在公开的代码平台上集体创作,而不是封闭起来做重复的事情。其次是用户不必被绑架在特定的软件平台上,随时可以迁移应用和数据。最后是核心知识产权,比如以前的IOE,不只是没有“中国芯”的问题,上面的应用软件和系统软件可能随时面临被人封锁的危险,而开源就不会有这个问题,它完全公开透明。另外,开源也鼓励公司规划长线的技术投资,而不只是短线的利益操作。

Q:腾讯这次主导阿帕奇社区hadoop新版本的发布,在国内算是首次吗?

A:对,以前都是由微软、Hortonworks和Cloudera等国外大数据厂家轮流坐庄,而这个版本是第一次完全由国内的公司来支持的。从技术号召力或者对整个开源社区的影响力来说,可以鼓励国内的开发者和公司更积极地参与开源项目贡献,勇于承担更大的责任,更多地回馈开源社区。

Q:给整个社会也带来了哪些积极的影响呢?

A:首先,大数据软件属于基础技术,这次平台是由腾讯做技术主导的,在国内算是一个突破。其次,对于开发者社区来说,也是比较可靠的一个社区、最热门的项目。最后,对于普通人来说,也是可以从中受益的。因为基础平台能力的提高,也伴随着数据处理能力的提高,可以让大家的生活更方便。大数据时代到来之前,可能没有那么多面向数据的业务,比如地图业务、O2O业务、智能推荐系统等等。包括现在极具话题性的AI人工智能,如果没有大数据平台的进步,也是发展不起来的。

Q:之前是有技术难关的限制吗?

A:过去十年,中国的互联网公司发展很快,大家都以追求业务为主,在技术或开源方面做得不够,这是我们相较西方的短板。国内很多公司其实也尝试过开源,但它只有开源的代码,没有开源的社区,也就是自己觉得某个产品做得不错,就把源代码开放出来而已。

源代码的开放和开源社区是两回事,区别就是你这个开源的代码,其它第三方(尤其是你的生态合作伙伴)有没有能力来参与。

现在整个大数据的热潮,其实就是被几款开源的核心软件所推动的。中国的这些大公司在具备了经济实力之后,也开始以开源为手段想要构造一个更好的生态。这可能需要一个过程,但大家已经慢慢意识到这些基础软件跟开源结合的重要性了。

[转帖]2018年的新闻: 国内首家!腾讯主导Apache Hadoop新版本发布的更多相关文章

  1. 国内首家!腾讯云正式成为 FinOps 基金会顶级会员

    11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云将联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,为企业提供云财务管理的最佳解决方 ...

  2. 国内首家VR虚拟现实主题公园即将在北京推出

    近期,美国“The VOID”.澳洲“Zero Latency”两大虚拟现实主题乐园让许多爱好者兴奋至极,门票据说都已经预约到明年2月!在如此巨大的商机面前,谁将抢到国内VR虚拟现实主题公园第一块蛋糕 ...

  3. OneAlert:国内首家 SaaS 模式的云告警平台

    随着互联网行业的高速发展,企业 IT 应用环境日趋复杂.几分钟的故障就会严重到用户体验,那么如何有效降低IT故障带来的影响呢?权威数据表明,86%的企业认为建立有效的监控系统和告警系统.提升 IT 的 ...

  4. 国内首家MR头显公司于CES惊艳亮相

    在刚刚过去的CES2017大会上,我们看到了许多较为优秀的VR产品,而在这里面,有一家名不见经传的中国公司易瞳发布了一款兼具VR和AR功能的头显VMG-MARK.它的外观与联想VR和骁龙VR820等产 ...

  5. VR外包团队—国内首家VR虚拟现实主题公园即将在北京推出

    期,美国“The VOID”.澳洲“Zero Latency”两大虚拟现实主题乐园让许多爱好者兴奋至极,门票据说都已经预约到明年2月!在如此巨大的商机面前,谁将抢到国内VR虚拟现实主题公园第一块蛋糕? ...

  6. 巨杉数据库入选Gartner数据库报告,中国首家入选厂商

    SequoiaDB巨杉数据库入选Gartner数据库报告,成为国内首批入选Gartner报告的数据库厂商. “SequoiaDB, 总部位于中国广州,是一款分布式.多模型(Multimodel).高可 ...

  7. 比MySQL快6倍 深度解析国内首个云原生数据库POLARDB的“王者荣耀”

    随着移动互联网.电子商务的高速发展,被使用最多的企业级开源数据系统MySQL面临着巨大挑战——为迎接“双11"的高并发要提前做好分库分表;用户不断激增要将读写分离才能应对每天上亿次的访问,但 ...

  8. 深度解析国内首个云原生数据库POLARDB的“王者荣耀”

    随着移动互联网.电子商务的高速发展,被使用最多的企业级开源数据系统MySQL面临着巨大挑战--为迎接"双11"的高并发要提前做好分库分表;用户不断激增要将读写分离才能应对每天上亿次 ...

  9. 【百度地图API】——国内首款团购网站的地图插件

    原文:[百度地图API]--国内首款团购网站的地图插件 摘要: 本文介绍了一款应用在团购网站上的地图插件,适用于目前非常流行的团购网站.使用这款地图插件,无需任何编程技术,你就把商家的位置轻松地标注在 ...

随机推荐

  1. http 异步 接收 回传 数据文字和文件流

    public void HttpListenerStar() { try { HttpListener httpListener = new HttpListener(); httpListener. ...

  2. Linux环境下软件安装

    下载——解压缩: 把得到的目录放到一个不碍事的目录,我们可以设置隐藏目录: 查看可执行程序: 如何变成系统命令? PATH:一个可执行程序只要放到这些目录中任何一个就可以,就可以变成系统识别的命令,当 ...

  3. webpack官方文档分析(一):安装

    一:安装 1.首先要安装Node.js->node.js下载 2.本地安装 要安装最新版本或特定版本,运行如下: npm install --save-dev webpack npm insta ...

  4. Java当中的IO流(上)

    Java当中的IO流 在Java中,字符串string可以用来操作文本数据内容,字符串缓冲区是什么呢?其实就是个容器,也是用来存储很多的数据类型的字符串,基本数据类型包装类的出现可以用来解决字符串和基 ...

  5. BeautifulSoup4 提取数据爬虫用法详解

    Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据. 它基于 HTML DOM 的,会载入整个文档,解析整个 DOM树,因此时间和内存开销都会大 ...

  6. 记一次newApiHadoopRdd查询数据不一致问题

    现象: +----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+----- ...

  7. HNOI2012排队

    排列组合题(本文A(n,m)表示从n个元素里选m个的排列数). 首先,老师和女生有不能相邻的限制条件,应该用插空法.而且老师人数较少且固定,把老师和男生进行混合,对女生用插空. 我先来一手错误做法,n ...

  8. LeetCode 23. 合并K个排序链表(Merge k Sorted Lists)

    题目描述 合并 k 个排序链表,返回合并后的排序链表.请分析和描述算法的复杂度. 示例: 输入: [   1->4->5,   1->3->4,   2->6 ] 输出: ...

  9. zeppelin 无法连接一个已有的standalone模式的spark集群

    SparkInterpreter.java  这个文件里面读取master的属性有些问题: 原来代码中"master"属性的获取的地方应该是错了.设置和读取这个属性的对象不是同一个 ...

  10. MySQL 插件之 连接控制插件(Connection-Control)

    目录 插件介绍 插件安装 插件配置 插件介绍 MySQL 5.7.17 以后提供了Connection-Control插件用来控制客户端在登录操作连续失败一定次数后的响应的延迟.该插件可有效的防止客户 ...