说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一部分. 这…
ETL 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程.ETL 的目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决策提供分析依据. ETL是 BI 项目重要的一个环节. 通常情况下,在 BI 项目中 ETL 会花掉整个项目至少 1/3 的时间,ETL 设计的好坏直接关接到 BI 项目的成败. BI 即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做…
双汇发展多个分厂的能源管控大数据系统主要采用两种技术栈:InfluxDB/Redis和Kafka/Redis/HBase/Flink,对于中小型研发团队来讲,无论是系统搭建,还是实施运维都非常棘手.经过对InfluxDB/Redis和TDengine大数据平台的功能和性能对比测试,最终将TDengine作为实施方案. 1. 项目背景 基于双汇发展对能源管控的需求,利用云平台技术以及电气自动化处理手段,对双汇发展的一级.二级.三级能源仪表进行整体改造,实现仪表组网,进一步通过边缘网关进行能源在线监…
冒泡排序.Arrays工具类.方法可变参数 冒泡排序之前写过,略 Arrays工具类 二分法查询 public static int binarySearch(int[] a,int key) 头信息 二分查找法源码分析  native :本地方法修饰符 本地方法都是没有方法体的 ==判断引用数据类型相等不行,用equals判断 方法的可变参数   如: (int... arg) 放最后,可变参数相当于数组.…
  散点图 #导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产生测试数据 x = np.arange(1,10) y = x fig = plt.figure() ax1 = fig.add_subplot(111) #设置标题 ax1.set_title('Scatter Plot') #设置X轴标签 plt.xlabel('X') #设置Y轴标签 plt.ylabel('Y') #画散点图 ax1.scatter(x,…
ETL ETL is an abbreviation of Extract, Transform and Load. In this process, an ETL tool extracts the data from different RDBMS source systems then transforms the data like applying calculations, concatenations, etc. and then load the data into the Da…
参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的分公司) 常见且常用,收费,可下载破解注册版 DataStage软件的优缺点:优点日志详细维护方便,缺点占用内存空间较大.参考:http://zhidao.baidu.com/link?url=Apt-gTOOiNDskzBXTpYtrkw-3OtdvdgRBAAsz7RB9cevYyROiyypm…
​无论是网络时代的传统营销还是大数据营销,营销人员的任务之一就是找到目标客户,实现自己的营销目标.而我们说的大数据营销只不过是营销的工具发生了变化,营销的本质和目标是不变的. 就目前而言,现在的大数据技术为绝大部分的业务提供了许多功能,同时还提高了效率和收入.当然除了这些以外,大数据分析还为公司的潜在客户和现有客户提供了许多好处.这些优点让很多公司对于大数据技术十分向往,那么普通公司如果没有大数据技术该怎么办呢?现在,已经出现了越来越多的大数据分析平台了,公司可以根据自己的需求选择合适的大数据分…
点击上方 蓝字关注我们 作者 | 宋哲琦 ✎ 编 者 按 在不久前的 Apache  DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人 宋哲琦 带来了平台调度系统从 Airflow 迁移到 Apache  DolphinScheduler 的方案设计思考和生产环境实践. 这位来自浙江杭州的 90 后年轻人自 2019 年 9 月加入有赞,在这里从事数据开发平台.调度系统和数据同步组件的研发工作.刚入职时,有赞使用的还是同为 Apache 开源项目的 Airf…
今天我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图.通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅. 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型. 淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步:中间是云梯 1,也就是淘宝的 Hadoop 大数据集群:下面是大数据的应用…