原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务.金融的本质是风险和流动性,但是目前中国对于个人方面的征信行业发展落后于欧美国家,个人消费金融的需求没有得到很好的满足.按照央行最新数据,目前央行征信中心的数据覆盖人口达到8亿人[1],但其中有实际征信记录的只有3亿人左右,有5亿人在征信…
小弟不才,工作中也用到了大数据的相关东西.一開始接触的时候,是通过买来的教学视频入的门.这两天整理了一下自己的视频资料.供各位进行下载. 文档截图:…
随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理.用户行为分析.场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于hadoop生态,利用Kafka作为中转,SparkStreaming框架实时获取数据并清洗,将结果多维度的存储进HBase数据库. 整个平台大致的框架如下: 操作系统:Centos7 用到的框架: 1. Flume1.8.0 2. Hadoop2.9.0 3.…
Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. 如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心.   云计算学习者的心声: 如何从企业级开发的角度,不断动手实际操作,循序渐进中掌握Hadoop,直到能够直接进行企业级开始,是困惑很多对云计算感兴趣的朋友的核心问题,本课程正是为解决此问题而生,学习者只需要按照一步步的跟着视频动手操作,即可完全无痛掌握Hadoo…
1 业务架构 风控平台是相对独立的系统,信审的案件可以从借款端平台推过来,也可以从第三方平台推过来.信审案件到达风控平台后,自动创建工作流,根据风控流程处理各流程环节任务. •自动决策 风控流程自动处理案件,访问第三方合作伙伴的接口,获取用户黑名单.欺诈数据和多头借贷等数据,查询名单数据,决策引擎输出各环节处理结果.自动决策后出三个结果,自动通过.转人工.拒绝. • 人工信审 根据决策引擎输出的结果进行转人工处理,人工通过初审和复核岗,给出具体信审结果,信审通过的案件给出风险等级和具体额度. •…
目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的Ambari作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台.我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品.最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚.…
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30815.html Spark实战高手之路 系列书籍 -http://down.51cto.com/tag-spark%E8%AE%B2%E4%B9%89.html 王家林老师(邮箱18610086859@126.com 电话18610086859) 中国目前唯一的移动互联网和云计算大数据集大成者: 云计算大数据Spark亚太研究院院长和首席专家:…
大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展.高效率.高可靠等优点越来越受到欢迎.这同时也带动了hadoop商业版的发行.这里就通过大快DKhadoop为大家详细介绍一下hadoop大数据平台架构内容. 目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等.虽然发行方不同,但在平台架构上相似,这里就以我比较熟悉的dkhadoop来介绍. 1.大快Dkhadoop,可以说是…
移动基于Percona XTRADB Cluster的大数据解决方式          一.移动的去IOE之旅      近期由于"棱镜门"事件的曝光.引起了国家对信息安全问题的注意.各大行业也开展起来去"IOE"的行动.对移动而言, 一方面是对信息安全的操心.还有一方面是对减少成本的考量.对开源体系架构的引入也成为一种现实的方案. 在互联网行业.MySQL的使用成为主流,但随着Oracle对Sun的收购,MySQL的控制权落入Oracle手中,对MySQL可能闭源…
摘要:2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密. 以下内容根据演讲视频以及PPT整理而成. 一.什么是MaxCompute Big Data in Alibaba首先为大家介绍阿里巴巴大数据技术的一些相关背景.正如下图所示,阿里巴巴其实…
今天我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图.通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅. 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型. 淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步:中间是云梯 1,也就是淘宝的 Hadoop 大数据集群:下面是大数据的应用…
胡亚海 首席技术官  CTO 北京航空航天大学  博士 深耕互联网领域近20年,先后任职于普天信息技术研究院.摩托罗拉.宇龙酷派.百度等知名企业,曾主导宇龙酷派公司全员从WinCE向Android转型,并作为百度移动云技术委员会成员,参与核心架构设计和业务规划.在手机系统研发.云生态技术架构与业务规划等领域拥有丰富经验,擅长技术体系搭建.大数据平台.运维与云服务平台化. 今天非常有幸采访掌众金服的胡总,就掌众金服的业务发展和信贷风控的自动化实施进行了交流. 信数:请胡总简单介绍下掌众金服和主要的…
大数据风控目前应该是前沿技术在金融领域的最成熟应用,相对于智能投顾.区块链等还在初期的金融科技应用,大数据风控目前已经在业界逐步普及,从BATJ这样的大企业,到交易规模比较大的网贷平台,再到做现金贷.消费金融的创业公司,都在通过大数据风控技术来控制贷款规模扩张中的风险. 现在提到互联网金融.Fintech,首先想到的就是大数据风控.随着网易北斗大数据风控平台的上线,业内包括BAT.网易在内的主要国内互联网巨头都开始在大数据和金融衍生应用领域进入了金融科技化阶段,和互联网金融第一阶段相比,目前产生…
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范. 1.谷歌的数据中心 谷歌已经建立了世界上最快.最强大.最高质量的数据中心,它的8个主要数据中心都远离其位于加州山景城的总部,分别位于美国南卡罗来纳州的伯克利郡,爱荷华州的康瑟尔布拉夫斯,乔治亚州的道格拉斯郡,俄克拉荷马州的梅斯郡,北卡罗来纳州的…
数据是金融业务的基石,监管集中清查大数据公司,很多东西在发生根本性改变,资金方做"甩手掌柜"的好日子不会重现.那些缺乏自主风控能力的金融机构,在未来的行业竞争中,恐无以立足了.近日,星盟全球投资公司的Kyle Tedford分享了他对银行大数据风控的观点,Kyle Tedford精通风控建模,大数据AI,风控产品等,具备较强的管理经验,20年金融证券从业经验,具有丰富的投资.基金管理.银行风险控制经验.曾任美国知名资产管理公司与证券公司投资银行部风控部长. 大数据风控,该从何抓起? 银…
热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. RabbitMQ RabbitMQ是一个支持Advanced Message Queuing Protocol(AMQP)的开源消息队列实现,由Erlang编写,因以高性能.高可用以及可伸缩性出名.它支持多种客户端,如:Java.Python.PHP..NET.Ruby.JavaScript等.它…
一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS).影像存档和通信系统(PACS).电子病历系统(EMR)和区域医疗卫生服务(GMIS)等成功实施与普及推广,而且随着日新月异的计算机技术和网络技术的革新,进一步为数字化医院带来新的交互渠道譬如:远程医疗服务,网上挂号预约. 随着IT技术的飞速发展,80%以上的三级医院都相继建立了自己的医院信息系统…
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服务集团的大数据平台构建,数据产品与服务. 导读:微软的ASG (应用与服务集团)包含Bing,.Office,.Skype.每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性.本文将介绍微软ASG大数据团队如何利用Kafka.…
随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 . 一般需要大数据处理的公司基本上都是大公司,所以学习had…
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar…
Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎. 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等.Java,python,scala及R语言的支持也是其通用性的表现之一. 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式.当需要处理的数据需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像Map Reduce一样需要把数据写回磁盘…
前言: 好吧我承认已经有四年多没有更新博客了.... 在这四年中发生了很多事情,换了工作,换了工作的方向.在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自己的理解和感悟.今天大概看了一下这个博客的总体阅读人数已经有70多万了,印象中之前还只有十多二十万.很高兴这些文章能够帮助你更好的理解一些机器学习相关的基础知识,非常感谢各位读者和爬虫机器人(:-p)的支持! 后来个人选择将工作的方向从机器学习换到了Hadoop相关领域,中间有很多感悟我想之后再单独…
前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一.引言(大数据时代) 1.1.从数据中得到信息 我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特.但是如果只有数据没有图片的话,就没有意义的数据了.所以数据一定是在特定的环境下才有意义的. 我们再来看一张图片: 从这张图片分析出: 从纵向分析,…
目录 一.实验目的 二.实验平台 三.实验内容.要求 1.pyspark交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题 四.实验过程 (一)pyspark交互式编程 (二)编写独立应用程序实现数据去重 (三)编写独立应用程序实现求平均值问题 一.实验目的 1.熟悉Spark的RDD基本操作及键值对操作: 2.熟悉使用RDD编程解决实际具体问题的方法. 二.实验平台 操作系统:Ubuntu16.04 Spark版本:2.4.0 Python版本:3.4.3 三.…
Hadoop 起源于Google Lab开发的Google File System (GFS)存储系统和MapReduce数据处理框架.2008年,Hadoop成了Apache上的顶级项目,发展到今天,Hadoop已经成了主流的大数据处理平台,与Spark.HBase.Hive.Zookeeper等项目一同构成了大数据分析和处理的生态系统.Hadoop是一个由超过60个子系统构成的系统集合.实际使用的时候,企业通过定制Hadoop生态系统(即选择相应的子系统)完成其实际大数据管理需求.Hadoo…
原文链接:http://www.d1net.com/bigdata/news/345893.html 先简单的做个自我介绍,我是云6期的,黑马相比其它培训机构的好偶就不在这里说,想比大家都比我清楚: 经常遇到有人问我大数据前景如何.大数据和Android.iOS对比怎么样等一些问题,为解决大家的困惑,抽时间写了这篇文章,简单对比一下大数据和移动开发的前景,给大家做个参考. 可能很多人都还很困惑,什么是大数据,其实可以简单的这么理解:大数据就是对大量数据进行有效处理的一种解决方案:因为随着数据量的…
  淘薛奎发布到 <数据极客> 06-28 16:04 随着分析正在成为企业IT的核心,昔日的BI- ETL-EDW分析范型已经完全落伍,不再适用.而力推“大数据傻瓜化”的Datameer的销售收入暴增三倍,告诉人们这个判断有多正确. Datameer这样的硅谷大数据创业公司摸准了企业的需求,并且已经淘到了真金白银,这将进一步刺激大数据淘金热,同时也为其他大数据创业公司指明了方向. 对于传统企业来说,大数据的商业价值虽然迷人,但相关技术开发和实施的难度以及陡峭的学习曲线始终是个梦魇,针对这种“…
1.实时处理框架 即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群 从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间打通(从上面的图示中也能很好地说明这一点),即需要做各个系统之前的整合,包括Flume与Kafka的整合,Kafka与Storm的整合.当然,各个环境是否使用集群,依个人的实际需要而定,在我们的环境中,Flume.Kafka.Storm都使用集群. 2. Flume+Kafka整合 2.1 整合思路…
北京太速科技有限公司 大数据智能计算,是未来的一个发展趋势,大数据计算系统主要完成数据的存储和管理:数据的检索与智能计算. 特别是在智能城市领域,由于人口聚集给城市带来了交通.医疗.建筑等各方面的压力,需要城市能够更合理地进行资源布局和调配,智慧城市是通过物与物.物与人.人与人的互联互通能力.全面感知能力和信息利用能力,通过物联网.移动互联网.云计算等新一代信息技术,实现城市高效的政府管理.便捷的民生服务.可持续的产业发展.引入了大数据处理技术.大数据是智慧城市的核心智慧引擎.智慧安防.智慧交通…
周六参加了一场,大数据基础培训,讲得比较详细.培训的讲师对于互联网行业职位萎缩也有相对的解释,也还介绍了新的职位的诞生. 以前对于大数据的理解,就是超大的数据量,但对大数据开发不甚了解. 大数据平台的概念,其实是和现有的数据环境类似的结构,也涉及数据采集.处理.存储.分析(这些分别代表了不同的岗位需求,不同的功能性人员) 各个角色在大数据平台中所使用的工具,所体现的价值,存在的意义,都很必然.金融行业对于大数据平台的资金投入是很多的,我也咨询了讲师关于制造业上大数据的可行性,是个很大的市场,但是…