身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark.18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉.何以至此,Flink是个什么鬼? Apache Flink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算.可部署在各种集群环境,对各种大小的数据规模进行快速计算. 大数据生态圈很庞大,优秀的框架和组件就笔者了解的不下20个,为何Flink如此受宠?那么多人而…
Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言. 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink.Blink 在原来的 Flink 基础上最显著的一个贡献就是 Flink SQL 的实现. Flink SQL 是面向用户的 API 层,在我们传统的流式计…
想必大家都看过吧 Python编程从入门到实践 全书共有20章,书中的简介如下: 本书旨在让你尽快学会 Python ,以便能够编写能正确运行的程序 —— 游戏.数据可视化和 Web 应用程序,同时掌握让你终身受益的基本编程知识.本书适合任何年龄的读者阅读,它不要求你有任何 Python 编程经验,甚至不要求你有编程经验.如果你想快速掌握基本的编程知识以便专注于开发感兴趣的项目,并想通过解决有意义的问题来检查你对新学概念的理解程度,那么本书就是为你编写的.本书还可供初中和高中教师用来通过开发项目…
在hadoop生态越来越完善的背景下,集群多用户租用的场景变得越来越普遍,多用户任务下的资源调度就显得十分关键了.比如,一个公司拥有一个几十个节点的hadoop集群,a项目组要进行一个计算任务,b项目组要计算一个任务,集群到底先执行哪个任务?如果你需要提交1000个任务呢?这些任务又是如何执行的? 为了解决上面的问题,就需要在hadoop集群中引入资源管理和任务调度的框架.这就是--Yarn. YARN的发展 Yarn在第一代的时候,框架跟hdfs差不多.一个主节点jobtracker,用来分配…
Flink 学习 项目地址:https://github.com/zhisheng17/flink-learning/ 博客:http://www.54tianzhisheng.cn/tags/Flink/ 项目结构 ├── README.md ├── flink-learning-cep ├── flink-learning-common ├── flink-learning-connectors │   ├── flink-learning-connectors-activemq │   ├…
众所周知,很多语言技术已经在长久的历史发展中掩埋,这期间不同的程序员也走出的自己的发展道路. 有的去了解新的发展趋势的语言,了解新的技术,利用自己原先的思维顺利改变自己的title. 比如我自己,也都在往更高的技能走,我认为这是一个很聪明的想法,横向发展,拖宽自己的知识广度,未来或许就能把握更多的机遇! 所以做Java开发,除了Java还可以学什么?如何正确转型大数据,编程语言与大数据的关系? 企业级大数据项目的开发流程是:数据采集 → 数据清洗 → 数据存储 → 数据计算 → 数据分析 → 数…
    你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop…
切入正题前,先做个自我介绍. 本人是从业三年的大数据小码农一枚,在帝都一家有点名气的广告公司工作,同时兼着大数据管理员的职责. 平时主要的工作是配合业务部门,做各种广告大数据计算分析工作,然后制成各种图表,提供给领导和客户,做为他们业务决策的辅助依据. 因为敏感性和安全的原因,我们的广告数据都是保存在公司自己的服务器里,而不是云上,并且做了各种隔离,防止有人盗取.大数据平台用的是目前流行的OpenStack + Hadoop谱系组合. 这套软件组合虽然时不时给我出点难题,但是好在部门里还有两位技…
大数据时代,中国IT环境也将面临重新洗牌,不仅仅是企业,更是程序员们转型可遇而不可求的机遇. 国内大多数大型互联网公司的程序员被称作研发工程师,但实际上国内几乎没有研发项目,只能叫做开发.开发程序员的工作大多是重复性劳动,容易产生疲惫感,薪资在工作2-5年内就达到了一个峰值,再要提升就比较困难,这样就导致了很多程序员最终转行做了其他行业. JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA.但是,在未…
2016-07-29 14:13:23 钱曙光 阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为作者在CSDN技术公开课的分享原创整理,未经许可,禁止转载. 作者:郭炜,易观CTO,毕业于北京大学,曾任联想大数据总监.万达电商数据部总经理,曾在中金.IBM.Teradata公司担任大数据方向重要岗位.在智能硬件以及大数据分析领域具有丰富的理论和实践经验. 责编:钱曙光,关注架构和算法领域,寻求…
大数据时代,中国IT环境也将面临重新洗牌,不仅仅是企业,更是程序员们转型可遇而不可求的机遇. 国内大多数大型互联网公司的程序员被称作研发工程师,但实际上国内几乎没有研发项目,只能叫做开发.开发程序员的工作大多是重复性劳动,容易产生疲惫感,薪资在工作2-5年内就达到了一个峰值,再要提升就比较困难,这样就导致了很多程序员最终转行做了其他行业.   JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入IT行业,首选的第一门语言就是JAVA.但是,…
还是那个观点:计算机,编程语言,互联网,大数据等等都只是工具! 导语:看过美剧<纸牌屋>没?知道这部"白宫甄嬛传"为什么会火吗?靠的是大!数!据! 过去两年,在 Netflix 以行为分析为基础打造的美剧 House of Cards <纸牌屋>爆红的同时,大数据也成了现代企业经营的显学.无论是消费.金融.电信.交通,甚至是政治.慈善,所有的研讨会上,一定可以看到大数据的身影.似乎人类组织有史以来的行销.管理等问题,有了 Data,全部都可以解决. 事情当然没有…
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大数据概念最近真是火得不行,从大会多达7个的“大数据架构与系统”.“大数据技术”.“大数据应用”.“大数据研究与发展”.“大数据基准测试”“智能交通与大数据”以及“传统行业如何驾驭大数据”主题论坛,再到现场爆棚的人群,可见大家拥抱大数据的高涨热情. 在9月份读完了一本<大数据时代>,后面又听大学老师…
大数据 ≠BI商业智能,大数据也不是传统商业智能的简单升级. 1.大数据和BI两者的区别 BI(BusinessIntelligence)即商业智能,它是企业数据化管理的一整套的方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策,解决的是管理运营战略的问题. 大数据(Big Data)是指在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力来适应海量.高增长率和多…
未来10年将是大数据,人工智能爆发的时代,到时将会有大量的企业需要借助大数据,而Java最大的优势就是它在大数据领域的地位,目前很多的大数据架构都是通过Java来完成的. 在这个Android.iOS相继没落,PHP相继饱和的时候,只有Java大数据保持着旺盛的需求.那么,Java大数据需要学习什么技术呢? 首先我们要学习Java语言和Linux操作系统.很多人入门编程语言就是Java,你或许还不知道Java的方向有JavaSE.JavaEE.JavaME,学习Java大数据需要学习JavaSE…
1.源码分析专题 详细介绍源码中所用到的经典设计思想,看看大牛是如何写代码的,提升技术审美.提高核心竞争力. 帮助大家寻找分析源码的切入点,在思想上来一次巨大的升华.知其然,并知其所以然.把知识变成自己的 2.分布式架构 互联网时代,系统架构如何迎接高并发流量的挑战.而作为技术开发者,如何去应对技术变革带来的技能危机.基于传统架构到分布式架构演变过程所带来的技术变革进行全面深入讲解. 在技术深度和技术广度上得到飞跃的提升.成为互联网行业所需要的T型人才 3.微服务架构专题 应对复杂的业务需求变更…
大数据无疑是目前IT领域的最受关注的热词之一.几乎凡事都要挂上点大数据,否则就显得你OUT了.如果再找一个可以跟大数据并驾齐驱的IT热词,JAVA无疑是跟大数据并驾齐驱的一个词语.很多人在提到大数据的时候总会想到JAVA,那么JAVA与大数据到底是什么关系. JAVA是什么 一提起JAVA,大家都不陌生,Java是一门高级的网络编程语言,对于我们现在所用的软件及APP都是后台java编写出来的,对于大数据来说java是一门基础的工具类语言,Java语言具有功能强大和简单易用两个特征.Java语言…
目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而AI人工智能又是基于大数据技术基础上发展起来的,大数据技术已经很清晰了,但是AI目前还未成熟啊,所以本文就天马行空一下,从大数据的技术变迁历史中来找出一些端倪,猜一猜AI人工智能未来的发展. 最近断断续续的在看<极客时间>中「 从0开始学大数据 」专栏的文章,受益匪浅,学到了很多.尤其是非常喜欢作者…
1.源码分析专题 详细介绍源码中所用到的经典设计思想,看看大牛是如何写代码的,提升技术审美.提高核心竞争力. 帮助大家寻找分析源码的切入点,在思想上来一次巨大的升华.知其然,并知其所以然.把知识变成自己的 2.分布式架构 互联网时代,系统架构如何迎接高并发流量的挑战.而作为技术开发者,如何去应对技术变革带来的技能危机.基于传统架构到分布式架构演变过程所带来的技术变革进行全面深入讲解. 在技术深度和技术广度上得到飞跃的提升.成为互联网行业所需要的T型人才 3.微服务架构专题 应对复杂的业务需求变更…
这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每个问题都做了精心的解答,希望能给大家带来帮助. 问题1:商业智能BI和大数据是什么关系,如何选择? BI(BusinessIntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策. 大数据(B…
正常来讲学习大数据之前都要做到以下几点 1.学习基础的编程语言(java,python) 2.掌握入门编程基础(linux操作,数据库操作.git操作) 3.学习大数据里面的各种框架(hadoop.hive.hbase.spark) 这是正常学习大数据必须要做到的三个步骤,如果有了java基础再去学习基本上已经成功了一半,起码不用为了基础语言的学习而恼火了. 真正的大数据的学习不能仅仅停留在理论的层面上,比如现在经常用到的spark框架目前支持两种语言的开发java或者Scala,现在pytho…
大数据在近两年可算是特别火,有很多人都想去学大数据,有java转大数据的,零基础学习大数据的.但是大数据真的好学吗. 我们先来了解一下什么是大数据. 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合.大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统. 以下是大数据的定义 大数据由巨型数据集组成,这些数据集大小常超…
大数据和BI商业智能有何区别?有何相关 大数据 ≠BI商业智能,大数据也不是传统商业智能的简单升级. 1.大数据和BI两者的区别 BI(BusinessIntelligence)即商业智能,它是企业数据化管理的一整套的方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策,解决的是管理运营战略的问题. 大数据(Big Data)是指在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现…
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及MedicalNet.本文是杨晓峰老师关于腾讯基于OpenJDK的自研Kona JDK开源项目的详细介绍. 一.Tencent Kona 缘起 1. OpenJDK 经常听人谈到 OpenJDK,那它到底是什么呢?相信大家都听说过 Java SE.ME.EE等规范, 通常意义上对 Open JDK 的定义指:Ja…
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用.2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录.Spark利用1/10的节点数,把100TB数据的排序时间从72分钟提高到了23分钟. Spark在架构上包括内核部分和…
http://www.36dsj.com/archives/17192 大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言. 我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术?2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性?3.Spark与h…
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言.我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性3.Spark与hadoop的关联是什么?4.Storm与hadoop的关联是什么? hadoo…
http://www.aboutyun.com/thread-6855-1-1.html 个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目.对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目.下面给大家可以参考.可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?3.什么是Kafka?4.f…
前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据工程到底是如何实施的呢? 本文将以IBM的Itelligent Utility Network产品为例阐述智能电网中的数据工程,它是IBM声称传统电网向智能电网转变的整体方案(看过上篇文章的童鞋想必会清楚这样的说法是片面狭隘的,它只能算是智能电网中的数据工程). 另一方面,如今是一个数据爆炸的时代,…
来自:http://www.cnblogs.com/wenllsz/archive/2012/11/16/2774205.html 了解大数据带来的机遇: 透视架构与工具: 开源节流,获得竞争优势. 聚焦大数据 组织为了变得更高效,盈利能力更强,或生产率更高,对信息的渴求似乎永远也无法得到满足.为此它们一直在寻找更强大的数据存储技术,包括超大型数据库(VLDB),以满足他们对信息存储和获取的需求.最近几年数据的爆炸式增长催生了新的存储技术.用于保存和管理大数据的技术作为企业级数据库技术的补充出现…