1.起因 公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高.但在工作时间内,公司业务人员有实时查询需求,现在主要 借助于hive提供业务人员日常查询.总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询.但一个弊病也是很明显,它的查询速度由于基于MR,会是非常的让人着急. 在Spark,Storm横行…
目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询.但因其基于MR,运行速度是一个弊端,通常运行一个查询需等待很久才会有结果.对于此情况,创造了hive的facebook不负众望,创造了新神器---presto,其查询速度平均比hive快10倍,现在就来部署体验一下吧. 一. 准备工作 操作系统: centos7 JAVA:         JDK8…
一.什么是快速开发平台 快速开发平台,顾名思义就是可以使得开发更为快速的开发平台,是提高团队开发效率的生产力工具.近一两年,国内很多公司越来越注重研发效能的度量和提升,基于软件开发的特点,覆盖管理和优化.团队工程实践.个人工程实践.优化流程四大方面.本文所讲的快速开发平台可以大幅缩短需求周期,给研发效能带来了开发快.上线快.风险低.成本低.门槛低的优点. 用制造业来做个对比,被誉为"工业之母"的模具可以大幅提升生产效率,而快速开发平台也可以做到在1分钟内完成需求的开发.上线:另外3D打…
互联网职业群分享的资料,里面大多是BAT公司的人,很多是猎头.这些技巧对于职场人来说,是非常宝贵的. 1.请你自我介绍一下你自己? 回答提示:一般人回答这个问题过于平常,只说姓名.年龄.爱好.工作经验,这些在简历上都有.其实,企业最希望知道的是求职者能否胜任工作,包括:最强的技能.最深入研究的知识领域.个性中最积极的部分.做过的最成功的事,主要的成就等,这些都可以和学习无关,也可以和学习有关,但要突出积极的个性和做事的能力,说得合情合理企业才会相信.企业很重视一个人的礼貌,求职者要尊重考官,在回…
2014年2月28日,“基于BPM的新一代协同办公门户”用户实践交流活动在深圳金茂JW万豪酒店3楼Meet Room IV举办.本次会议由K2携手微软共同举办,邀请到的参会企业都是K2 的BPM老客户或对BPM新一代协同办公门户非常感兴趣的新朋友,他们有:中国核电集团.万科.中集集团.永隆银行.沿海地产.喜威中国.东鹏陶瓷.得润电子.广东海大.广东仙乐.国粤投资.招商局蛇口工业区.深圳房网.平安集团.珠海金邦达等近二十家. 本次用户实践交流活动我们安排了三个主题:K2 新一代协同办公门户.K2…
最近在公司实践持续集成,使用到了Jenkins的Pipeline来提高团队基于ASP.NET Core API服务的集成与部署效率,因此这里总结一下. 一.关于持续集成与Jenkins Pipeline 1.1 持续集成相关概念 互联网软件的开发和发布,已经形成了一套标准流程,最重要的组成部分就是持续集成(Continuous integration,简称 CI) . 持续集成指的是,频繁地 (一天多次) 将代码集成到主干. 它的好处主要有两个: (1)快速发现错误.每完成一点更新,就集成到主干…
今年一直在公司实践CI,本文将近半年来的一些实践总结一下,可能不太完善或优美,但的确初步解决了我目前所在项目组的一些痛点.当然这仅是一家之言也不够完整,后续还会深入实践和引入Kubernetes进行容器编排,以及通过阿里云K8S服务进行高效的云上托管,希望对各位童鞋有一点用. 一.持续集成全流程介绍 今年一直在开发我司的一个核心业务系统,一个还未上线的产品开发阶段,其中后端采用ASP.NET Core + 一系列开源组件开发微服务并且部署在Linux Docker中,前端采用React + Fl…
前言 最近有幸跟随资深ThoughtWorks咨询师熊节老师一起学习测试驱动设计,经过短暂的十几天培训,对测试驱动设计的基本原则.实践模式.技巧有了一点点初步的认识. 在此之前,经常自嘲我经历的公司实践也似乎是TDD, 这种实践往往都是由测试工程师来驱动开发者完成bug的修改,虽然也是测试来驱动开发,但是却与真正的TDD大相径庭. 什么是TDD 在维基百科中是这样对TDD下定义的: 测试驱动开发(英语:Test-driven development,缩写为TDD)是一种软件开发过程中的应用方法,…
HBase客户端查询存在的问题 Scan 用Get/Scan查询数据, Filter 用Filter查询特定数据 以上情况只适合几千行数据以及不是很多的列的"小数据". 当表扩展为亿万行及百万列时,在通过网络传递移动大量的数据导致网络拥堵,且客户端需要足够多内存来处理这么大量数据的计算操作,另外,客户端代码也会变的大而复杂. 解决方案 移动计算比移动数据更划算 Coprocessor将运算移动到数据所处的节点. 什么是Coprocessor? 简单来说,Coprocessor是一个框架…
前一阵有个字节跳动的程序员火了,年仅28岁实现了财务自由,宣布提前退休.最直接的原因是选择了一家发展前景很好的创业公司.当然平时我们经常能听到,某某人加入创业公司,xx年后公司上市,身价暴涨,财务自由.但这都是小概率事件,大部分人往往要么等不到公司上市就离职,要么公司还没上市就破产.这两天找到一份近几年破产的IT公司名单,共6000家,下面就对这份数据做个简单分析. 分析思路大致如下: 了解整体概况 单维度分析破产的公司 维度交叉分析破产公司 首先导入分析所需的模块 import pandas …