经 10000+ 开发者公开票选,20+专家评审. 10+ 主编团打分,历经数月打磨,11 月 19 日,由InfoQ 发起并组织的[2020中国技术力量年度榜单评选]结果正式揭晓. 2020 年度十大开源新锐项目囊括了最近三年内,开源领域活跃度最高.最具创新性和发展潜质的项目,Apache DolphinScheduler(incubator) 经过层层环节的选拔,成功获得[十大开源新锐项目] InfoQ 海报 除了DolphinScheduler获奖外,还有 9 个优秀项目也同时获奖,值此机…
摘要: 据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景.目前,这项源自浙江.解决世界级难题的成果已拥有EB(百京)级别的数据存储能力.百PB(千兆)级的单日计算能力. 今日浙江省科学技术奖励大会正式召开,阿里云自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖. 阿里云MaxCompute获科技大奖 MaxCompute是国内最早自研的大数据计算平台之一.十年前,阿里云创始人王坚博士带领团队研发该平台,主要应…
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar…
早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目.由于时间关系,嘉宾现场分享的内容非常有限.凭着多年对行业研究和对解决方案的嗅觉与敏感性,意识到这个阿拉丁项目的完整性和独特性超出了以往我所接触过的所有 BI 领域的项目案例,很值得再次深入的探讨.学习与研究.对于很多公司在建设自身的 BI 或者大数据平台体系上,这个项目案例有很好的参考与借鉴意义.(另外一个我个人比较推崇的大数据建设的案例是美的的大数据平台建设案例.) 在…
数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch1.lucene (solr, elasticsearch 都是基于它) 2.sphinx3.elasticsearch 简单易用.天生分布式. 4.HBasene(注意HBase后面加了ne就是 HBase+lucene). solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询.但是solr云的方式部署进行了负载均衡,效率不会太差.应用查询…
昨天我们看了有关大数据Hadoop的一些知识点,但是要在学习大数据之前,我们还是要为大数据的环境做一些的部署. 那么,今天我们就来讲讲开启我们大数据之路的Linux,跟上我们的脚步yo~ Linux介绍 Linux是我们当前各大系统中一种自由和开源的OS,虽然市面上有各种各样的版本,但是他们拥有同一个内核.我们在这个内核上面,自己添加一些程序后,就是我们之后称之的开发版本. 其中包括了两大阵营,它们分别是:Redhat系列和Debian系列.我们看到的红帽,centos就是第一个阵营的,而ubu…
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算 第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本的计算模式,并且对于大规模数据的分析和处理是一种非常有效的方法.以下四个方面了解大数据处理平台Hadoop. 谷歌的解决方案 第一.我们需要计算节点去组成集群.这些点组成集群之后我们是通过网络将这些点连接到一起,从而完成计算和数据的分发. 在这样一种集群式的架构当中,我们是通过switch(交换机)…
提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧. ​ 在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视. ​ 还是那句话,商用版的解决方案暂时不在本文的讨论范围内,目前大数据流动公众号对于数据治理工具的研究还是在开源方向,希…
大数据技术的发展是一个非常典型的技术工程的发展过程,荣辛通过对于谷歌经典论文的盘点,希望可以帮助工程师们看到技术的探索.选择过程,以及最终历史告诉我们什么是正确的选择. 何为大数据   "大数据"这个名字流行起来到现在,差不多已经有十年时间了.在这十年里,不同的人都按照自己的需要给大数据编出了自己的解释.有些解释很具体,来自于一线写 Java 代码的工程师,说用 Hadoop 处理数据就是大数据:有些解释很高大上,来自于市场上靠发明大词儿为生的演说家,说我们能采集和处理全量的数据就是大…
简单的c# TCP通讯(TcpListener) C# 的TCP Socket (同步方式) C# 的TCP Socket (异步方式) C# 的tcp Socket设置自定义超时时间 C# TCP socket发送大数据包时,接收端和发送端数据不一致 服务端接收Receive不完全 在发送端,一次发送200k个字节,在接收端,一次接收200k个字节, 但是在接收端,经常会出现 socket.receive 接收不全的情况 , 偶尔接收的包也是正常的,用Wireshark抓包发现,每次发送都分成…