如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理.识别.加工.呈现,最后成为指导企业业务发展的知识和智慧.而处理.识别.加工.呈现的过程从本质上来讲,就是实现对数据的采集.清洗.加工.加载.建模分析,再到可视化的过程.  大数据平台的通用架构 1. 数据采集 采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下: - 企业服务器的日志: - 企业各种信息系统的数据(CRM/ERP/数据库): - 企业的网站/App/小程序等客户端的…
谈起APP,大家都太熟悉不过了,今天想谈谈这么多年技术演化的路. 早期一些大公司就开始做一些APP了,例如facebook.google等国外的公司就已经开发这个技术路线,那个时候的APP数量很少,基本上我们可以理解为web时代的APP,都是用web的方式来实现APP的.也就在这个时候,我们听到了Html5的声音,当时大家一窝蜂都说H5未来将要一同江湖,当时的android呢分化也非常严重,相同的代码要切分很多份.所以当时有这样的声音. 随着时代的进步,到了2010年左右的时候大概就是iphon…
http://www.d1net.com/bigdata/news/325426.html 2014年11月,本文作者有机会和ZestFinance的创始人和首席执行官梅里尔(Douglas C.Merill)先生进行了面对面的交流.这位普林斯顿的认知学博士阐述了ZestFinance利用大数据进行信用风险管理的基本框架.基于和梅里尔梅里尔先生的交流,本文对ZestFinance的商业模式和大数据挖掘技术进行进一步的解读,希望能够对中国未来的大数据征信有一些启示. 信息技术的进步驱动了消费者信用…
欢迎访问网易云社区,了解更多网易技术产品运营经验. 前言 最近几个月花了比较多精力在项目的测试环境Docker迁移上,从最初的docker"门外汉"到现在组里的同学(大部分测试及少数的开发)都可以熟练地使用docker环境开展测试工作,中间也积累了一些经验和踩过不少坑,借此2017复盘的机会,总结一下整个环境的搭建过程,希望可以给其他有志于向docker迁移的项目提供些许参考,同时也想跟其他docker的老司机们一起探讨改进方式. Docker迁移的必要性 这篇文章不对docker的基…
J2EE 框架Spring 开发框架 + SSH or SSM Lucene 索引和查询IKAnalyzer 分词Webmagic 爬虫 ETL工具:KettleSqoop 结构化数据库-hadoop数据萃取.可以将一个关系型数据库(MySQL ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 结构化数据库MySQL Oracle 需要关注的大数据系统:Hadoop HDFS 分布式文件系统Hadoop HBASE or Cassandra…
关于面临的挑战 "因为专业性强,我认为反而让交互方式变简单了,打个点餐的比方,软件1.0阶段是,我要吃鱼香肉丝,我要吃辣的或是素一点的,根据清晰的接口上菜.而软件2.0阶段就是,我今天想吃开心一点的,然后菜就上来了.学件的提出,说明 AIOps 给大家带来的已经不再是枯燥的接口,而是变成很友好的用户交互来解决业务场景." 现在的输入和之前不一样,之前是输入的是明确的内容,你来替我做行为:现在是输入的是目的,系统来做策略以及执行:后者更加宏观. 关于数据价值 "业务系统情况做到…
一.什么是大数据 进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节).GB(1024MB).TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据.社交网站.科学计算.证券交易.网站日志.传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024…
数据中心存储演化——FCoE   数据中心三大基础:主机 网络 存储 在云计算推动下,存储基础架构在发生演变 传统存储结构DAS.SAN在发展中遇到了布线复杂.能耗增多的缺点(原生性),需要对架构做根本的改变. FCoE是业界无可争议的演化方向,下面重点介绍技术的由来和原理,并从本质上解释为何FCoE是公认的唯一演化方向.       图 FC vs 以太网 vs FCoE 演化路线   2x的演进速度让FC逐渐掉队,未来的存储网络将逐步过渡到以太网架构上     图 传统数据中心存储架构 vs…
我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop…