目前,中国企业在大数据流通.交换.利用等方面仍处于起步阶段,但是企业应用数据集成市场却是庞大的.根据 Forrester 数据看来,2017 年全球数据应用集成市场纯软件规模是 320 亿美元,如果包括人工在内,将达到 3940 亿美元. 在数据应用集成领域中,既有 Oracle.SAP.微软.Informatica 等传统的 IT 大佬,更有众多的创新型企业,其中 DataPipeline 就是一家通过提供批流一体的数据融合.数据清洗.数据同步等服务,帮助企业连接内外部数据孤岛,实现数据交换与…
引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好!很高兴今天有机会和大家分享一些数据集成方面的看法和应用经验.先自我介绍一下.我叫陈肃,博士毕业于中国科学院大学,数据挖掘研究方向.现在北京数见科技(DataPipeline)任 CTO.之前在中国移动研究院任职算法工程师和用户行为实验室技术经理,之后作为合伙人加入过一家互联网教育公司,从事智能学习方面的研发…
文 | 陈肃 DataPipelineCTO 交流微信 | datapipeline2018 本文完整PPT获取 | 关注公众号后,后台回复“陈肃” 首先,本文将从数据融合角度,谈一下DataPipeline对批流一体架构的看法,以及如何设计和使用一个基础框架.其次,数据的一致性是进行数据融合时最基础的问题.如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义. 另外,DataPipeline目前使用的基础框架为Kafka Connect.为实现一致性的语义保证,我们做了一些额外工作…
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践.以下内容是基于现场录音整理的文字,供大家参考. 什么是数据集成?最简单的应用场景就是:一个数据源,一个数据目的地,数据目的地可以一个数据仓库,把关系型数据库的数据同步到数据仓库…
文 | 陈肃 DataPipeline  CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要.以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍. 由于数据散落在不同的数据库.消息队列.文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题.在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显…
G代码是数控程序中的加工指令.一般都称为G指令.可以直接用来驱动机床,各种控制系统.是一种数控行业标准.传统的G代码编写以及编辑无法在线编辑,也不能实时看到g代码编辑的最后加工路径已经不能直接对编辑的G代码进行加工. 为此我花了一年时间做了一款在线G代码编辑,加工系统,除了支持传统的G代码编辑,路径预览外,还可以支持G代码在线加工,通过加载固高,雷塞,众为兴,gail等主流的控制卡或控制系统的驱动,直接对当前编辑的G代码进行加工,做到在线编辑,在线加工,大大提高加工效率,可以用在一些简单的常用的…
随着国内钢结构制造业的迅猛发展,市场竞争也愈演愈烈.近来钢材价格的大幅攀升,节约用材已成为企制胜的戈键,提高钢材的利用车自然就成了目前许多企业十分关心的一件事.对十大型钢结构生产制造商来说,如留在传统的下料切割的生产模式,缺乏对村料的有效管坪和抖!制,则每年将会造成数以百万甚至千万村料损失或浪费.如何减少这些损失,为企业降奉增效呢,配备好的套料软件是不容忽视的:为此我花了一年时间开发出出EZNest全自动套料软件.EZNest 是采用一个智能套料引擎,能最大化材料利用率以及减少废料.由于EZNe…
DataPipeline已经完成了很多优化和提升工作,可以很好地解决当前企业数据集成面临的很多核心难题. 1. 任务的独立性与全局性. 从Kafka设计之初,就遵从从源端到目的的解耦性.下游可以有很多个Consumer,如果不是具有这种解耦性,消费端很难扩展.企业做数据集成任务的时候,需要源端到目的端的协同性,因为企业最终希望把握的是从源端到目的端的数据同步拥有一个可控的周期,并能够持续保持增量同步.在这个过程中,源端和目的端相互独立的话,会带来一个问题,源端和目的端速度不匹配,一快一慢,造成数…
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeline Manager的概念,主要用于优化Source和Sink的全局化生命周期管理.当任务出现异常时,可以实现对目的端和全局生命周期的管理.例如,处理源端到目的端读取速率不匹配以及暂停等状态的协同. 为了加强系统的健壮性,我们把Connector任务的参数保存在ZooKeeper中,方便任务重启后读…
[生产问题]还原一个很小的BAK文件,但却花了很长时间? 关键词:备份时事务日志太大会发生什么?还原时,事务日志太大会怎么办? 1.前提: [1.1]原库数据已经丢失,只有这个bak了 [1.2]bak文件只有1.8G大小 2.遇见问题 [2.1]排查为什么这么慢,1.8G的bak文件,还原了2个小时还没成功. (1)排查请求进度: 查看 sys.dm_exec_requests(查看进度与阻塞) select status,start_time,command,percent_complete…
自己花了2天时间,重新整理了个全面的vue2的模板,基本vue中需要的部分都整理封装好了,希望大家喜欢^ ^.欢迎大家star或者fork呀~,https://github.com/qianxiaoning/template-elementUi-sass-vue2 以下是涉及到的点 config-index.js 设置proxyTable请求代理 src-components 功能组件 src-config 常用参数 src-eventBus 事件总线 src-filters 全局过滤器 src…
http://www.cnweblog.com/fly2700/archive/2011/12/06/318916.html (转载) 花了5天时间,终于解决了一个bug,心情非常愉快,憋了这么久,不吐不快. 事情是这样的,前面跟外地一家公司,开发一个二路RTSP音视频合成一路RTMP音视频的设备.设备在公司内运行是好好的,可到了现场,出现直播流畅,录制后点播卡顿的问题.由于设备在外地,调试不方便.只能这边写日志打印代码,那边烧程序调试,于是远程调试的恶梦开始了.远程操作画面卡不说,关键是慢,本…
thinkphp5项目--企业单车网站(九)(加强复习啊)(花了那么多时间写的博客,不复习太浪费了) 项目地址 fry404006308/BicycleEnterpriseWebsite: Bicycle Enterprise Websitehttps://github.com/fry404006308/BicycleEnterpriseWebsite 一.总结 二.js警告框warning事件 <a href="#" onClick="warning('确实要删除吗'…
由于细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容! 整理了一份Java核心知识点.覆盖了JVM.锁.并发.Java反射.Spring原理.微服务.Zookeeper.数据库.数据结构等大量知识点.   文章中提到的Java核心知识点总结免费分享给大家(包括Kafka.Mysql.Tomcat.Docker.Spring.MyBatis.Nginx.Netty.Dubbo.Redis等架构技术资料),希望能够帮助一些在这个行业发展迷茫的有需要的朋友,在网…
说在前面,千万不要频繁跳槽. 本来华为很想去的,面试前花了一个月的时间准备,面试过程挺顺利的,也拒绝了其他的所有面试邀请,而我拒绝其他面试邀请的底气,则是之前面试过程中的良好表现,薪资和定级都谈好了. HR给出的拒绝理由是:在工作的3年内,换了4份工作,其中有2份单位的工作时间在半年左右,工作不是很稳定. 我在入职表上还有面试时已经说明情况了,直接说不用去面试就行了,搞心态就有点难受了. 我是面试Android开发的,3年经验,下面是面试流程: 一面: 包括自我介绍 工作经历 做过哪些项目,在项…
http://www.jikexueyuan.com/path/web/ http://www.jikexueyuan.com/path/php/…
在弯管机加工中,由管子模型生成可直接进行弯管加工的YBC数据可以大大提高弯管编程过程.传统的做法是先用dxf数据文件(用autocad绘制管子的轴心线数据)转出XYZ数据,然后由XYZ数据转成YBC数据,而且大部分厂家对文件版本以及软件做管方式都有不少限制,这大大花费了用户的时间跟精力.随着企业的信息化管理以及不断的技术升级,传统用autocad线条模式来描述管子的方式正在被用户用PRO/E,UG,SOLIWORK等三维造型软件来设计,这些管子不在以轴心线来描述,而是以实体方式描述. 传统的dx…
TTF(True Type Font)字库是微软定义的基于windows的标准字库格式.但其由于专利保护以及无法跨平台导致TTF字库在实际应用中无法有效使用. 为此我推出TTFEditor字体编辑软件,可以创建修改TTF字库,也可以创建自已的定义的文字.生成的TTF字库可以用于字加工,印刷,排版等需要用到字库的场合.而且可以独立于windows平台外,例如嵌入式系统的字体显示.. 主要特征: ● 可以预览TTF字库的内容: ● 支持字体的完整参数定义: ● 支持单个文字的设计编辑: ● 支持TT…
TTF(True Type Font)字库是微软定义的基于windows的标准字库格式.但其由于专利保护以及无法跨平台导致TTF字库在实际应用中无法有效使用. 为此我开发了TTF2FNT字库转换软件,除了我们定义的FNT格式外,也可以根据客户的需求来做转换字库格式.FNT字库可以用于字加工,印刷,排版等需要用到字库的场合.而且可以独立于windows平台外,例如嵌入式系统的字体显示.. 主要特征: ● 可以转换系统自带的所有TTF字库: ● 支持OTF格式(open Type Font): ●…
弯管技术广泛应用于锅炉及压力容器,空调制造,汽车,航空航天等多种行业.管型的形状复杂多变弯管工艺人员通常依据图纸输入关键点的坐标(XYZ坐标),然后生成可以由弯管机设备直接直接完成的加工指令YBC数据      由于管件存在回弹以及拉伸变形,因此原始的YBC编程数据不能用于实际加工,要进行补偿.为了知道YBC编程数据是否有效,必须得对YBC编程数据进行3D管型预览.为此,我做了款弯管机YBC编程软件. 主要技术指标跟性能:        1. 支持XYZ自动转YBC:        2. 支持X…
早两天在网易云听歌看评论的时候,突然想把网易云上所有歌曲都抓取下来然后按照评论数进行一次排名,把评论数超过10万的歌曲都听一次,于是便有了这个项目. 因为只是一个小前端,所以使用了Node来写这个爬虫. 实现的思路比较简单,把网易云上的所有知名歌手先抓取下来,一共是3万左右.然后每个歌曲选取10首评论靠前的歌曲进行统计,所以一共统计了30万首歌曲,之后或许会统计更多的歌曲. 在本次的抓取过程中,从请求歌曲链接到获取信息并且写入数据库的效率大概是0.2秒一首歌曲,30万首一共需要16.6个小时左右…
1.隐藏没用到的文件 比如 IDEA 的项目配置文件(.iml 和.idea),打开 Settings-File Types, 加入要隐藏的文件后缀.  2.常用技巧 2.1 通过Alt+F8查看变量在当前断点的当前值 2.2 使用Live Template创建代码模板 2.3 粘贴 历史 复制 快捷键 Ctrl+Shift+V,可以显示文本复制的历史记录. 修改复制历史记录数量,执行 Setting-Editor,修改“Maximum number of contents to keep in…
一.内置函数 1. complex([real[,imag]]) 返回一个复数,实部 + 虚部*1j,或者把字符串或者数字转成复数形式. 参数可以是复数表达式,也可以是字符串.当参数是字符串的时候,数字与操作符之间不能有空格.即comple('1 + 2j')是错误的. print(complex(1, 2))print(complex(1 + 2j))print(complex('1+2j'))# 输出 1+2jprint(complex(1))# 输出 1+0j 满足:实部 + 虚部*1j…
安装eclipse 的 swt examples插件时出现这个错误 查了三天,发现就是网速太慢,导致下载一半下不动出错,原因大概是因为国外吧 于是想看看能不能通过离线安装插件包的方式 问题来了,插件包的地址是什么呢…
MAC OSX下终端通过NTLM验证,通过代理上网 公司网络限制如下: 公司通过代理来控制内网用户访问外网的权限.用户名和密码为域用户,采用的验证方式是NTLM(用的是foreFront TMG) 遇到的问题: 在虚拟机,安装的系统为MAC OSX10.9.3,开发iOS,需要在terminal(终端),加载相应的数据包,并安装. 如安装ruby环境,需要先安装rvm,curl -L https://get.rvm.io | bash -s stable 407 Proxy Authentica…
long start = System.currentTimeMillis(); // 记录起始时间 try { Thread.sleep(5000); // 线程睡眠5秒,让运行时间不那么小 } catch (InterruptedException e) { e.printStackTrace(); } long end = System.currentTimeMillis(); // 记录结束时间 System.out.println(end-start); // 相减得出运行时间 单位是…
由于笔者目前正在上计算机网络的课,老师要我们编一下crc的循环检测过程,所以我想着刚好在学c,那就随便看看写不写的了,首先百度了一下网上资料,基本都是用位移运算符实现的,由于本人懒得去看一下位移运算,就用数组存储1,0,凑合一下,采用元素整体往前移1位的思想,看看能不能实现,最后似乎是写出来了,但是写的很杂乱.别人用几十行写的,用了位移运算符,我没用,而是用其它方式实现,写了几百行,虽然说几百行,里面的代码复用率也很高了,没有去封装成一个函数来调用是本次实验的一大不足.现在就在此记录一下我的浅陋…
背景 先说下写这个的目的,其实是好奇,dubbo是怎么实现同步转异步的,然后了解到,其依赖了请求中携带的请求id来完成这个连接复用:然后我又发现,redisson这个redis客户端,底层也是用的netty,那就比较好奇了:netty是异步的,上层是同步的,要拿结果的,同时呢,redis协议也不可能按照redisson的要求,在请求和响应里携带请求id,那,它是怎么实现同步转异步的呢,异步结果回来后,又是怎么把结果对应上的呢? 对redisson debug调试了long long time之后…
不知不觉中,大家已经陪伴DataPipeline走过了3年时间.在这期间,得益于客户们的积极反馈和沟通,我们总结了一些日常工作中比较常见的问题,并基于这些问题进行了总结. 为避免突兀,我们会先从比较基础且通用的问题开始,进而陆续放出一些稍加复杂的问答,希望大家在接下来的日子里持续关注我们的更新~ Q1: DataPipeline支持的读取方式 A:DataPipeline在成立之初只有一种模式,只支持实时流同步,在我们看来这是未来的一种趋势. 但在后来发现,很多客户实际上有批量同步的需求.比如,…
转自:互联网那点事 英文原文: http://mobile.smashingmagazine.com/2012/10/22/a-guide-to-mobile-app-testing/ 测试人员常被看作bug寻找者,但你曾想过他们实际是如何开展测试的吗?你是否好奇他们究竟都做些什么,以及他们如何在一个典型的技术项目中体现价值? 作者将带你经历测试人员的思维过程,探讨他们测试移动app时的各种考虑.本文的目的在于揭示测试人员的这一思维过程,并展示他们通常所考虑内容的广度和深度. 测试人员需要询问问…