数据分析侠A的成长故事

同学A:22岁,男,大四准备实习,计算机专业,迷茫期

作为一个很普通的即将迈入职场的他来说,看到周边的同学都找了技术开发的岗位,顿觉自己很迷茫,因为自己不是那么喜欢钻研写代码,而自己又没太多的经验。

那年他实习,选择了一家国内一线梯队的电商公司,HR问道想选择什么岗位,而他本人自己也比较困惑,说对数据感兴趣。而恰好那年公司打算成立一个数据部门,就把同学A分配到了市场部的数据组。

那时候主管是来自新浪背景的网站分析师。赶上了电商大潮,大家交流的比较多的就是网站分析的PV UV ROI 转化率 访问深度 老客户占比。做的比较多的是通过GA,百度统计,51la等网站监控平台去监控数据。

然后这些常规的指标并不能满足实际的业务发展需求,因为市场部门要做人群的短信营销投放,预算比较有限,大家都希望在有限的预算内提高转化的用户。

同学A开始研究起整个电商网站的用户路径起来,看了一本书叫《点击流》。从介绍怎么产生的网站日志,网站的日志是什么格式,怎么解析这些结构化的信息,怎么存储起来这些解析出来的数据,怎么剔除那些没用的日志信息,怎么提高每天数据解析存储的性能,怎么把这些数据临时建立需要分析的数据表,怎么通过sas python来访问数据库的数据,怎么套sas模型来做那些用户的关联属性模型,这些分析的结论是否合理,多高的支持率置信度也可以应用到实际过程中去,怎么去监控这些投放的效果。种种的这些问题都让同学A感觉很困惑。

这时候同学A开始找数据仓库的书开始看,知道什么是OLAP OLTP,什么是ETL,什么是中间层,集市层,怎么每天调度这些定时任务。通过几个月的学习,以及请教数据仓库的同学,同学A终于明白了每天的数据都在里面,他们都是什么产生,这为同学A在以后的数据底层表熟悉上打下了坚实的基础。

-----------------2015.8.25更新-----------------------------------------------------------------------------------------------------

就这样同学A折腾了数据库折腾了几个月,期间因为同学A有段时间在市场部门下面,所以市场部门的老大对同学A说,“我们希望能够建立起每天网站的运营监控体系,能够对每天的流量数据有清晰的认识,而对于网站的运营情况也能够了然于掌,比如用户都是从什么渠道过来的?我们希望能够在什么渠道如关键词还是暴风媒介上进行进一步的推广,比如用户都经常来我们网站点击什么频道,是数码产品还是女装鞋帽?”

这一堆问题突然刚一个对整个网站或者整个电商体系都还不熟悉的同学A有点hold不住,而同学A也对自己有一定的信息,毕竟已经看了很多数据仓库方面的知识,对整个公司的数据都存在哪里都清楚明白。目前老大对他的要求已经开始需要学会能够应用到业务中去了。

同学A先按照老大的意思,操起了excel。整理了一份自己觉得比较完整的excel表格,里面包含了【流量分析报表】【运营分析报表】,前者更多的是围绕网站的整个点击情况,包括网站的UV、PV、访问量、访问深度、平均访问时长、客单价、订单量、销售额,这些宏观的指标同学A觉得应该可以对一个网站的整体定位可以清楚明白。而既然流量分析,就不止步于对网站的一个基本认识,同学A回去思考了下,如果我作为老板会怎么样。“我当然关心我做一个网站需要花多少钱啊?”“我当然关心我花了多少钱赚了多少啊?” 同学A想想整个网站除了基本的架构搭建外,就是在市场推广这块花钱最多了,因为经常看到市场部的报表上写着,这个月暴风影音投了30万,360投了20万,百度关键词投了50万。当时同学A就在想如果这些钱都是我的就好了。=。= 然后想想只归想想,这也让同学A觉得渠道推广的确花了公司不少的money。

于是乎同学A开始折腾起【流量分析报表】中的渠道推广分析模块,把公司推广的不同渠道都整理下来,分类了一下,包括SEO/SEM、硬广、媒介、联盟、SNS、微博微信。凡是公司接入一个渠道,同学A就整理一个渠道,而且通过每天的投入产品ROI等情况,进行对比。包括哪些渠道适合在需要短平快的情况下使用,哪些渠道适合慢慢做又不太会花太多成本,哪些渠道适合建立起公司比较好的口碑,哪些渠道是公司应该立即停止的。

老板看到了同学A做的这份报表,心里觉得很开心。证明同学A是在这方面花了时间去思考的,其中在一些新媒体渠道,公司也是在做初步的尝试,这也让老板发现了新媒体的力量。不需要花太多的财力物力,就可以做一个事件营销或者热点营销。老板对A在渠道上的分析赞不绝口。

过了几个月,公司发展的很快。从之前的一个小网站也发展到全国7个大区32个城市。一个几十个人的公司也短短发展到快1000人的公司,拆分了很多大区事业部。这时候老板把同学A叫进了办公室,对同学A说:目前公司发展很快,想了解下目前整个公司各个大区的情况,包括每个大区的几个城市的用户量、访问量、销售业绩。同学A为了能够通过excel展示出来的效果好点,就去百度了下excel的地图模板,刚好找到了一个不错的模块。可以通过vlookup匹配出不同城市的数据情况。而做了几天后,同学A也发现用户基本上都集中在广东、江浙、北京等地,销售业绩也都来源于这些地方。而男性购买的单价也更高些,女性购买的频次更高些。在同学A的脑海里,仿佛有了网站用户的一个画像。

而公司发展的也超出同学A的想象,从一个卖数码产品更多的公司发展到一个全品类的公司。网站也多了很多频道,包括秒杀、团购、特价、会员馆。这时候老板又叫来了同学A,说打算在双11搞了大促,主要想了解下什么样的人会在我们网站选择在节假日购买特价商品。

同学A想,我丫的也从来没做过这东西,不知道怎么做啊。也没有任何思路,就去找数据部门的同事聊了聊,其中博士B姐讲到,做用户画像其实在学术界是早有的概念,针对不同的用户画像做个性化营销。

首先第一点,就是要明白我们网站的用户都是谁,都是什么样的,他们都住在哪里,有什么购物偏好;
第二点,他们的生活作息是什么样,是经常朝九晚五上下班,还是不固定的购物时间;
第三点,我们可以通过什么方式跟他们保持联系,是经常给他们发短信,还是发邮件,还是到地铁里去宣传;
第四点,我们觉得他们大概在什么时候需要什么样的商品;
第五点,我们怎么告诉他们。

同学A在博士B姐的启发下,从用户的个人属性上、用户的行为偏好上、用户的访问来源上、用户的购买习惯上做了一星期的数据统计。得出了很多有趣的结论,在早高峰和下午4~5点访问量为主要高峰期,发生的订单购买主要在早上和晚上8点,他们经常通过百度搜索关键词的方式进来,而购买的65%也都是之前购买过的老用户。同学A把这些结论告诉了市场部门的同事,营销策划部门的同事们觉得同学A的分析结论很有启发意义。觉得在双11给这些用户投放百度链接,在早上10点和下午3点、下午6点、晚上8点分别搞秒杀、半价活动。而就在当天双11,整个公司都完成了一份全年都难以突破的业绩成绩。

同学A在这次活动中感受到了数据分析带来的巨大商业价值,很有成就感。

-----------------2015.8.26更新-----------------------------------------------------------------------------------------------------

时间过的很快,转眼间同学A在这家公司公司呆了一年半,遇到了瓶颈。眼看和自己一起毕业的同学,还有一些刚毕业的学弟学妹们都开始找工作,而他们就业应聘到的岗位薪水都比同学A高。作为一个已经工作一年多的同学A来说,内心面临很多挣扎。

是选择去和老板提要求加薪?还是选择另谋出路?同学A陷入了一段时间的困境。

而这年,电商也是传统中的枪林弹雨,倒下的该倒下的,继续烧钱的还在找下一个干爹继续玩资本的游戏。当大家问到同学A在哪里工作,听说是国内一线互联网公司,都投以羡慕的眼光。而各种滋味,只有同学A自己清楚。

最后,同学A眼看着和自己一起进来的一些兄弟姐妹们都陆续离开了公司,再也坐不住了。选择了和部门老大沟通,提出自己希望加薪的想法。说的也很简单,自己工作一年多了,而且自己也负责做了不少case。相信作为公司的同事们也都看到了同学A的成绩。老大听了这个意见,决定给同学A过几天一个明确的答复。过了一星期,部门老大约了下同学A,决定给同学A加薪1K。而同学A听到这个答复,也没有太多的诧异。本身很多一起的同学都选择跳槽的原因也是如此。

同学A选择了跳槽,在各个招聘网站开始投起了简历。约见面试的公司有做游戏的、有做旅游的、有做物流的、有做社交的、也有做电商的。同学A鉴于深刻了解电商公司苦逼加班的现状,决定不想在电商公司再累死累活,而面试的情况并不如同学A想象的那么如意,貌似很多公司提了一些很技术的问题,同学A都没有很好的答上。同学A深刻体会到刚工作一年的经验想跳槽换家不错的公司,远比想象中的有难度。

再看到北京这样的雾霾和房价,同学A毅然决然在那个寒冷的冬天,背起行囊,选择了南下。

这次,来到了上海这座大都市。

来到上海的第一感觉,浓厚的金融环境,而不再是北京那样的屌丝都在创业的互联网。而上海这块做数据分析,又是互联网的公司,屈指可数就那么几家出名的。所幸的是,这次同学A在之前那些面试的经验中,总结了不少教训。

面试第一要学会总结,把自己过去的经验和介绍都一五一十的说清楚,不要给面试官很混乱的感觉。第二就是要诚实,突然是在一个公司本身对数据分析的定位就不清楚,问了很多算法工程和后台C++问题,让同学A觉得很茫然。其实如果你不懂就说不懂,本身的面试过程就是一个双方选择的过程。第三就是要做好准备,比如面试官在给你做提问的时候,肯定是先看了你的简历。你自己对自己的过往经历的一些细节都要能够回顾出来,比如你有没有在一些细节问题上的思考,为什么用mysql来解决,不用oracle来解决,为什么建议营销部门做拉新而不做激活,为什么当初选择了离职。这些问题自己都能事先想想。也便于自己在面试过程中有个心理准备。

而正是这次不错的技巧总结,让同学A斩获了不少offer。包括知名旅游网站、零售网站还有一些创业公司。最终同学A觉得零售应该还是互联网公司的大头,选择了零售公司。

上班第一天,同学A先在部门老大的带领下,认识了之前做这块工作的交接同学C。同学C原本是数据仓库部门的同学,因为一个项目的临时调度,支持这块的零售分析工作。部门老大让同学A先在数据仓库部门学习2周时间,同学A在数据仓库的这两周,看到大家都是在用oracle的数据库,语法和之前写的SQL基本都差不多。因为涉及到每次要导入导出的数据操作,数据仓库还用到了PLSQL等脚本。而PLSQL其实和SQL都差不多,同学A在3wschool上简单看了下就上手了。

接下来的一段时间,部门老大看到同学A基本上也快上手了。觉得没什么问题,就让同学A开始做BOSS John比较关心的一张营收报表。主要涉及到的是整个公司每天的用户量、call center拨打量、转化量、订单客单价、送货成功率、以及最后的营收毛利gross profit。同学A这时候也是希望BOSS John能够看的比较清楚,就在主动搜寻一些图表方面的技巧,看到《图表之道》这本书讲的还不错,把一些excel的图表技巧都讲的很彻底。

-----------------2015.9.1更新-----------------------------------------------------------------------------------------------------

给同学A震惊到的是,从来没想到excel可以做到商业周刊那样的图片效果,这给同学A很大的触动。决定将excel好好学习一番。从excel的基本内容介绍看起,包括单元格、图标、函数、数据处理、数据分析、插件和VBA。而同学A也结合自己的实际工作经验总结一些常用的技巧和方法,比如怎么匹配两张表,怎么将数组变成一列,比如怎么快速搜索带“,”的字段,比如怎么将字符串的数字快速提取出来,比如怎么将分列数组按照逗号分列。excel从此成为了同学A的分析利器。很多同事都戏称同学A为“excel master”。

然而只有同学A自己最清楚,自己永远不能只停留在对excel很熟练这样的程度,因为同学A对未来充满期待,希望能够有更大的发展。而环顾四周,发现周边的同学、同事都每天重复的朝九晚五的生活,每天都在聊着这个富家女怎么样,那个同事是不是结婚了之类的话题。

同学A选择了走出公司,周末开始积极参加各种各样的沙龙组织活动,包括数据分析的,包括创业的,包括企业管理的。也就是这一次次的接触各类各样的活动,让同学A发觉原来其他人也遇到自己一样的困惑,也会有迷茫,也不知道自己公司的数据分析到底怎么样的定位比如合适,疑惑是公司的业务采取的措施是否正确,为什么公司的业务部门和技术部门总是死对头。同学A选择自己好好思考,为什么大家都会有这样的情况。回忆起数据分析的发展史,在国内被接受也才这么几年,而大家谈的更多的是数据分析、数据挖掘到底是什么,是对过去历史数据的剖析、分析,还是从中发现更多的问题和机会。同学A不在纠结于此,他选择了翻阅大量的国外的关于数据分析的案例,从那些实验中找经验。关注了很多数据分析、数据挖掘的网站、论坛、公众号,经常看一些比较有趣的资讯,看看行业的大牛们都在聊些什么。再结合比如手游行业的流失模型是怎么做,再衍生想想怎么应用到零售行业中去。

而这段时间也把自己的分析思路,做到PPT里去。虽然老板还只是让同学A完成简单的数据统计就可以了,而同学A把自己尝试的一些新想法都通过大量的数据验证,做出了雏形。在excel里面倒腾了很多基础的数据,包括公司的用户都是什么年龄、什么城市、有无子女、什么收入、什么工作性质,同学A发现人群和自己在电商公司的人群性质很像,都是一线城市的年轻人群。而再结合自己公司call center的销售模式,同学A似乎发现了什么。年轻人更多的购物方式都是网购,而电话销售对于年轻人一群来说,不是最能接受的方式。同学A把自己发现的这个观点总结在PPT发给了BOSS John。然后BOSS John并没有给同学A太多的评论。

过了两周,同学A继续做起了客户流失分析的PPT。里面把每天的客户流失率,每个月的流失率,每年的流失率做成了很大一张图。只要找出对应的月份,就大概可以估算出客户的流失率。客户流失集中在3个月内,3个月~1年是流失率降低的一个转折点,而过了1年如果还没流失,客户基本上再流失的概率会很小。再结合公司的推广拉新,分析了每个客户的成本是多少,是建议公司采取更多的广告投放,还是提高老客户的回头率,降低老客户的流失率。这些都在同学A的这张报告中写的仔仔细细。确认了数据没问题后,发给了BOSS John。

BOSS John周五喊了整个小组一起开周会。在周会中回顾了下本周部门的工作之后,重点将同学A做的分析报告打在投影仪上,大家都一起看起了同学A分析的结论。同学A讲起自己是怎么考虑目前的公司经营状况,目前的数据都有什么,从数据上看到了哪些业务存在的问题,每天其他部门的同事的最大的痛点都在什么地方,自己又是怎么思考这些问题的,从哪些地方查的数据,可靠性如何,以及希望BOSS John给予哪些帮助。

大家都点点头,觉得同学A分析的这些问题都很实在。目前公司的重点应该是放在老客户的维系上,而这时候BOSS John也说了一句话,公司最近刚接到消息,以后的广告投放的价格都涨价了,成本会越来越高。公司正打算对广告投放部门削减开支,对相应的一些员工进行重新安排。而大家似乎都明白了什么。——裁员

过了一个月,同学A陆续听到市场部门的老大tannery离职了,短信营销部门的主管LIU SIR跳槽了。而作为同学A的上级领导BOSS John接到董事长的命令,希望即刻到北京去交接之前市场部门的一些工作。就在BOSS John飞往北京的一周后,同学A接到了BOSS John的电话,“目前公司的情况你也应该多少了解了,希望你能够支撑起整个市场部门的数据部门工作。”同学A听的有点云里雾里,自己平时不是那个说话最多的那个,也不是和BOSS John最亲的那个。怎么会让自己接起整个数据部门的工作,虽然还在疑惑,但自己还是对BOSS John说“我会继续加油,好好干的!”

后来HRG姐姐找到同学A说道,“其实大家都看到你的想法,觉得你很聪明。平时也做了很多工作,加班加点认真负责。而且能够提一些自己的学习到的,很有自我驱动力。”同学A突然觉得“功夫不负有心人”。

接下来的很多时候,同学A也不再是满足于自己做一些很漂亮专业的分析报告,而是更多的会和自己一起合作的小伙伴分析师B、分析师C一起聊如何改进目前的公司业务。而此刻只要BOSS问到同学A目前的短信到达率是多少,客户的回访率是多少时,同学A都能倒背如流。放佛自己内心有一个计算器,已经不用还再去写SQL查询了。想起老古话“心中有数”,感觉就是这样!

过了2年多,因为公司的架构调整,整个行业的不景气,同学A选择了离开。事实证明,同学A也做对了。陆续的BOSS John也离开了公司。

而在同学A准备选择下一家公司时,却接到了一个神秘的电话。

-----------------2015.9.7更新-----------------------------------------------------------------------------------------------------

手机显示是个固定的座机号码,同学A想难道是哪个公司又来邀请面试吗?这段时间同学A拿到了不少offer,涨薪也不少,甚至有开2倍价格的。而同学A也在左右为难,A公司离家近,B公司名气不错,C公司可以给股权,D公司是创业公司并且相对比较自由,E公司离家比较远不过项目不错。

电话那头传来了一个中年男人的声音,这个自称是ZJM的先生对A说道:“您好,请问是A同学吗?”“是,您好。”“哎,您好。很高兴终于联系上你了。我是ZJM,是朋友john推荐我联系一下你的。John对我说了您很多的赞词,我们目前也是在做一家创业公司,希望您能够加入到我们公司的团队中来。”

“啊?”同学A一时半会没反应过来,原来是当时的Boss John推荐的一家朋友的公司。主要做的是进出口外贸的电商生意,区别于X宝/Z东之类的模式主要是大部分提供海外代购的业务,而因为有内部的合作渠道,所以可以拿到更低的优惠价格。同学A听到这个介绍,内心有了一丝触动。

其实同学A很久之前就已经明白自己想干什么。分析了自己的性格,自己属于那种主动进取型的老虎性格,而自己也比较喜欢爱折腾,如果能够走上创业公司的道路,也是自己的一个不错的选择。自己也不希望在大公司的环境里混吃混喝养老等死。而ZJM先生也是相当的有诚意,并不有聊太多的技术问题,问了下对电商这块的领域的一些模式怎么看待,家庭背景是什么样子,将来希望能够做哪些事情,对自己的爱好都有哪些。而A平时没少想这些人生的问题,对于自己未来的道路,多少有些明白。ZJM先生在电话那头说道:“那今天先聊到这里,过两天会安排下另外的同事再电话沟通下。”

过了一个星期,电话那头又响起了。这次是个温柔的女生的声音,她叫ZY。是这家公司负责HR方面的同事。ZY说道:“上周我们Boss ZJM已经和你沟通过了我们的具体情况了。希望能够邀请到你加入到我们公司。经过一周的商量讨论,能给到你年薪30W,外加出差和行政类的补贴。另外通过试用期可以有相应的股权。”

说实话,对于A这样一个还未满25岁的年轻人来说,这样的待遇真的让A有些心动。A第一次听到有这么竞争力的待遇,而自己内心也有一丝的激动。对于是否是创业公司,是否离家近远,这时候都不是问题了。而自己也是第一时间把这个喜讯告诉了爸妈,爸妈是很普通的事业单位的职工,听到儿子这个消息,都感到很高兴。

一个星期后,A没有犹豫,来到了这家创业公司。

第一眼,给A留下印象的就是。创业公司不再像A呆过的之前大公司的形象。这家公司只是很朴实的一层办公区域。没有非常华丽的前台,也没有很大的办公场地,有的只是十几个办公桌和三三两两的一些同事。而从大家的脸上也看能的出一份轻松和梦想启航。ZY同学接待了A,告诉A今天ZJM先生不在公司,去出差了。ZY先领着A熟悉了一下办公环境,认识了一下周边的同事。

A观察了下,大概总共有15个人的团队。有10个都是做技术的,包括java开发,前端开发,产品经理。和5个做商务拓展的美女同事。上午就这么轻松的在一个团队熟悉的环境下结束,大家中午一起吃了午餐,大家都是聊的一些很轻松的话题,包括最近什么APP又火了,他们的模式是什么样子,XX公司又融资辣。A能够感受到大家都是很容易相处的同事。

下午,ZJM回到了公司,安排了一个全体的迎新会议。ZJM也希望同学A能够承担起建设整个公司数据部门的角色。1.能够建立起整个公司的数据搜集框架,包括网站的数据,客户的数据,交易的数据等系统;2.能够快速支持公司的数据业务,包括商务的数据分析公司和大老板的数据需求;3.能够搭建起公司的数据团队,负责招聘人才和培训整个团队;4.对公司的业务负责,能够承担起数据推动业务的重任。

A听完之后,倒吸了一口冷气。说实话,感觉自己一下子担子很重。自己从前都是自己单打独斗比较多,这次要承担起建设一个数据部门的重任。多少对自己的能力产生了一丝怀疑。A在会议上,说了自己的感想和打算,计划一周内把整个团队的将来的人员配置(20人的数据团队,5个数据仓库,3个ETL工程师,5个数据分析师,3个建模工程师,2个架构师和2个数据产品经理),以及怎么建立起公司的数据中心,包括公司的客户管理系统+交易系统+行为数据中心+风险控制中心+客户营销管理中心+财务管理中心+数据分析中心等。ZJM听完之后,点了点头。

一星期后,A开始在公司演讲自己做的PPT,包括需要技术部门有哪些支持,包括数据中心希望怎么搭建,包括需要什么软件来支撑,包括数据中心以后怎么发挥数据的光和热。技术部门老大lu问了几个技术方面的问题,包括数据怎么搜集,可以安装什么监测数据的软件,之间的优缺点是什么。而产品经理基本都是点头支持,表示会全力支持A的工作。而本次商务都没参加这样的会议。

接下来的一周里,技术部门都在忙着测试网站代码,准备近期的上线内测。A邀请了技术部门探讨过几次会议,能够在开发相应公司的时候,提前加入对应的埋点,方便数据的搜集。同时每块的埋点规范是什么,也整理了相应的PRD和需求文档发给了各位技术的开发人员。后面就是不停的推技术部门的同事,希望他们能够尽快开发完。

时间很快,短短3星期过去了。A自己回顾了这段时间的变化,感觉在创业公司区别于之前就职的一些大公司,1.要敢于提出自己的想法建议,大家之间的想法都比较纯粹;2.工作的气氛比较自由,有下午5点就下班的,也有上午10点半才来上班的;3.很多事情都要自己动手解决,没有可以推卸给谁的时候;4.要有从0到1的心理准备,要不停的去和外界交流学习。

网站如期上线,晚上大家一起去吃了顿大餐庆祝了一下。接着又去外滩18号酒吧,跳了一晚上。A觉得这才是自己想要的团队的氛围,大家都像是一家人。

也许只有自己明白自己要什么,才不会迷茫,也不会困惑自己到底适合创业公司还是大公司。很多时候是机遇,也是巧合。

-----------------2015.9.9更新-----------------------------------------------------------------------------------------------------

三个月过去了,A顺利的通过了试用期。ZJM先生这天喊A进了办公室,对A讲:“我们现在公司的定位也是希望能够做区别于X宝这样的海外购业务。下周韩国和日本的商务会出国去采购,到时候网站上线了就会有很多订单。以后也会开展很多国家的业务。目前现在这片的市场还很空缺,我们也是希望能够赶上时代的浪潮。”

在A看来,ZJM像是自己的一个老哥哥,对自己讲述着自己未来的规划和想法。这让A有些感动,之前几家公司的职场经历,大家都是很好的朋友和同事,但很少会聊的这么细,更何况是自己的老板。而ZJM也更多的时候没有以一种上下级的态势来处理之间的同事关系。

A后来听说ZJM原来是从事互联网零售行业的一位老兵,连续创业了很多次了。23岁的时候就已经当时做了一款手机游戏卖掉2000万。27岁的时候已经在一家知名公司担任市场总监,29岁的时候选择了再次创业做外贸。这些年经历了由传统的零售到互联网化的时代变革,原来做外贸进出口,订单量特别多,很少会考虑去宣传什么,自己对接的是江浙沪地区的企业。直接拿到订单就开始联系合作的企业进行生产加工。那些年赚了不少。而最近几年行情大变,不再是那种不愁吃喝的年代。工厂工人工资需要涨,招聘的人越来越难找,进出口的产品也没有了以前的价格优势,大多情况靠的是原来的一些客户关系维系。A发现自己的老板原来这么厉害,心里很多崇拜。决定多向ZJM请教业务上的问题。

想想自己当时22岁时候想过3年做上数据经理,过5年做上数据科学家的理想是多么的扯淡不堪。还是多踏实做点实事。

晚上,大家部门几个人都聚餐吃了顿饭。也就在这时候,来了一位新朋友,来自北京的tina,据了解是ZJM请过来做项目经理,而这位空降的新同事在接下来的日子也暂时接管了数据部门的一些工作。

ZJM介绍tina有着丰富的项目管理经验,在香港/美国都有很多年的工作经历。而tina第一眼给人的印象也非常的好相处。可A没有想到,就在tina入职后的3个月里,让A有了不少的烦恼。

第二天tina约了下A,想多了解下目前数据方面都有哪些工作。虽然tina不是技术背景出生,A还是尽量用自然化的语言讲述了目前数据方面都大概有哪些工作内容和计划。tina听完之后也说道,目前公司做的这块海外业务和数据有很大的密切关系,后面应该会有不少的工作需要做。会后,tina让A整理了一份会议纪要。

接下来,又约了技术部门/产品部门的几位同学一起讨论,打算自己内部开发一套客户关系管理系统的计划。大家都七嘴八舌地讨论开了,有人说要能给客户定期的发送短信,有人说我们要能接入用户的生日年龄的数据,也有人说希望能够打通营销平台,还有技术开发说开发会需要很长的时间周期。

大家经过二周的时间讨论,需要敲定了具体的开发时间节点。

接下来的几周开发时间里,tina都把A叫上去参加大大小小的技术讨论会议,一扯就是半天,刚开始还好。而后面随着其他业务部门还有老板的需求越来越多,而自己又要和技术不停的碰CRM的需求,自己算是忙的焦头烂额。自己想自己是做数据方面的,怎么也参与起了整个项目的开发讨论。又看看tina每天的工作就是写写邮件,好像大小的活儿都是自己干的,内心很不平衡。

而A也把自己这样的情况告诉了自己的师兄Ben,Ben毕竟自己工作和创业多年,告诉A在职场这个情况都是很正常的。你要学会主动,学会承担,学会兑现承诺,更要学会拒绝。不然你就会被大大小小不想干的事情给搞晕。学会见缝插针,什么是重要的,什么是紧急的,自己列个每天的计划表。

A点点头,觉得很有道理。后面每天的工作自己到公司的第一件事情,就是先想想自己每天大概需要做哪些事情,而哪些又是一些临时的突发需求。对一些没必要参加的大小会议,自己选择了拒绝。突然一下子,感觉自己的时间可以做主。

而对于tina来说,倒是没有这样想。tina找到了ZJM,聊了下对A的印象,感觉A不太好管理。ZJM会然一笑。而这话正好被经过门口的A听见。A心想,这不是跑到老板那边打自己的小报告吗。心里想想很不爽!这让A顿觉不是当时那个有爱的大家庭的感觉。自己想说些什么,但又觉得是否有必要去说些什么。

在那年过春节的时候,tina早早的休假了。A在大年三十想早点提前走,打电话想和tina沟通下,结果电话提示该用户已关机。A就写了份邮件给tina,说明了下情况。回家过年了。

过完年,大家都陆续地来上班了。tina到达公司,约了A和部门的行政助理,和人事的一起开周会。重点讲了下有些人没有提前请假,就回家的事情。A知道是在说自己,心里没有什么想说的。

就在第二天,A给ZJM提上了辞职信。写的也比较情绪化,感觉自己不能胜任工作,而且违反了公司没有请假的规定。

ZJM晚上约了A到办公室,聊了下大概的情况,ZJM说这些情况都无需放在心上,自己知道实际的情况。让A继续好好工作,辞职信就先放下。A想还好老板理解自己的情况,暂时心里的委屈有些缓解。

接下来的工作岁月里,A把公司当成了自己的家,每天都加班到很晚。自己在这次经历中深刻体会到自己随时都可能滚蛋,为了自己在职场不能被别人打败,甚至是被自己打败,自己开始做起各种准备。能够在自己的简历上添上很多亮点,每天开始整理回顾自己的每天的工作都有哪些,在实际的业务中起到什么作用,最后取得了哪些了哪些业绩。在猎聘网上,也放了一份简历。没多久就接到不少猎头的电话,上海有不少不错的公司有没有兴趣,可以去面试看看。A都拒绝了,感觉自己在目前的公司还是待的比较舒服的,天下乌鸦一般黑,说不定去了一家还不如现在的公司。

-----------------2015.9.11更新-----------------------------------------------------------------------------------------------------

A目前很清楚地明白自己的以后定位是什么。明白自己想要的是什么。经历过这么多得职场,遇到过形形色色的主管、老板、同事、朋友、合作伙伴之后,也对整个职场的人际处事有了更深的认识。

有人说,职场就应该PMPMP(拼命拍马屁)。而A追求的恰恰不是这样的成就感,他需要那个内心深度的自己认可自己。对自己负责,想起了那个《三傻大闹宝莱坞》:追求卓越,成功就会出其不意找上门来。

这一天是7月13号,A报名参加了一个大数据的线下沙龙聚会。主题介绍了分享互联网下的大数据分析应用。今天上海很热,外面的度数有38℃。可能大部分同学都想想还是在家吹吹空调、睡睡觉算了。A还是顶着大太阳坚持来了。过来签了下到,看到现场还是有不少相仿年纪的人过来。感叹了句,还好过来了。选择了个后排的位置坐下,等待2点的正式分享会。

而就在这个时候,手机QQ响起来。之前在网上一直请教A关于数据分析问题的Ariel发来消息。『你也在那个大数据分享会现场?』『是的啊!』『我中午刚过来,你坐在哪里呀?』『我在第八排的靠走道的位置。』

突然前面有个妹子站起身来,从A走了过来。A的第一反应,『哇塞!好漂亮啊!』

Ariel客气地笑了笑,『你旁边没人吧,我可以坐在这边么?』『可以可以。』

2点开始了,主持人上了台,首先来了场关于大数据的开场白。讲述了大数据现在已经由互联网每天海量的信息产生,区别于过往的传统BI报表分析。而今天所要分享的课题就是,①互联网领域下的大数据架构,主讲人是来自某国内知名上市公司的架构师;②大数据背景下的数据可视化应用,主讲人是tableau的技术总监;③如何应用大数据解决实际业务问题,主讲人也是来自某一线品牌的电商公司的市场总监。

第一个分享主题,嘉宾主要介绍了目前某知名上市公司如何通过成千上万台集群解决数据并发量的问题,电商体系的框架架构有哪些,金融体系支付环节的架构有哪些,以及如何通过Hadoop和spark、hana做到数据的offline、online的数据迭代。

第二个主题分享的更多是tableau的操作,因为现场很少有人带电脑,所以没办法实际体验操作一遍。不过A感觉到tableau在可视化方面还是做得很厉害,一些展示的图形还是很值得借鉴。

最后的嘉宾重点介绍在做广告资源位上,如何应用上数据分析和机器学习。在不同的banner、tips、index、search、product detail、shopping cart上做实时的广告投放。结合用户现有的个人属性特征,和用户的实时behavior log,计算item值。

A听得云里雾里,之前都没接触过这块。不过还是感觉不错,学习了很多。最后结束环节,抽奖,A幸运的抽到了《集体智慧编程》。那是一本介绍用python怎么开发推荐算法的书。

回到公司,A没有太多的心思在数据分析上。脑子里还是回忆着Ariel的身影。想起还是勇敢的打电话约了Ariel周末有没有时间吃饭,可惜Ariel电话回道周末要加班。A有点灰心。有趣的是,A在刷微博看到了一篇文章《怎么用数据追女神?》

图(一)用数据追女神

A觉得这也真是太逗了,居然数据分析的应用可以到人与人之间的约会上。A分析了自己和Ariel也只是第一次见过面,的确离6次还是有些差别。自己对Ariel也不是特别的了解,也不知道她的喜好,在哪里工作,平时都干什么。再想想自己的简单粗暴地鲁莽行为,感觉真是太不靠谱了。

工作日的下班时间,A开始通过微博、微信关心起Ariel,聊聊最近都在忙什么,平时都去哪里玩。很快,Ariel和A聊的很来,大家都对欧美比较轻快的音乐感兴趣,喜欢好莱坞的科幻大片,了解到Ariel在乙方的数据公司工作,所以平时的工作时间段都比较忙,每天要应付甲方的各种数据需求。

过了两周,A约了Ariel一起去看了刚上映的《环太平洋》,用淘宝电影购买了当时的电影票,不过那时候没有像现在的每周六半价这么给力的优惠政策,也没什么猫眼等给力的打折。

ZJM看到最近A的心思都没有放在工作上,看到有些报表上的数据都填错了。约了整个部门的同事,晚上到一家日本料理店,聊聊最近的一些工作情况。晚上,大家都来到了这家日料店,整个店铺的环境就是按照日本的当地风俗装扮,看起来很有档次感。

吃饭中,ZJM问了下A最近是不是有没有烦恼。A笑了笑,最近在追一个女孩。分享了下自己还看到一篇很有趣的关于大数据如何追女神的文章,ZJM听到哈哈大笑。追女孩有数据是不错,更多的是人与人之间的相处,要用心,而不是光靠数据。

A听到觉得很有道理,实际情况比简单地数据表现复杂很多。这时候Tina说道,『哟,没看出A还是单身啊?看着应该像女朋友不少的样子吧。』A有些不想解释,毕竟这不是自己的作风。Tina又继续说道,『一般25岁还没有女朋友,要么就是比较花心,要么就是被剩下的屌丝。』A听到有点头皮发麻,顿觉tina怎么这么攻击别人。这时候ZJM笑道,在上海男生结婚平均年龄在30岁呢。Tina恭维道,『还是Z总,对数据很熟悉敏感啊,这样的行业数据都这么熟悉。』,站起身,给ZJM倒了杯清酒。

-----------------2015.9.14更新-----------------------------------------------------------------------------------------------------

然而这一年,外贸也过的不舒心。寒冬来的很快,虽然大家对外来进口的品牌很有好感,也很容易接受,但是对于一家想发展为几个亿业绩目标的公司来说,每天几十单还是任重道远。而面对欧债危机的蔓延,整个全球的经济都发展的不是很好。ZJM陷入了思考。公司刚成立1年左右,自己对通过国外进出口企业合作降低海淘成本也很看好。

ZJM觉得应该行动起来,A也和ZJM一起动身去了香港。公司安排在香港先做一些线下的商超、地铁等人口繁华的地段进行品牌的推广。ZJM随便采访了几个路过的行人,问了下大家在选择海淘的环节都一般会关心哪些问题。有的说主要是看重进口产品的质量,有的说是看重了品牌溢出的价值,有的说欣赏海外海淘的这种方式,也有的喜欢更低的优惠价格。

这和当时自己思考,一味通过价格优惠优势来吸引顾客的想法还是有些出入。也是在数据端为什么订单没有太明显提升的原因。A也觉得,这些实际的情况的确是很难坐在办公室里想清楚的。真正能做好数据的,理解商业的,是走出来!

这时候A也有了一些灵感,觉得回公司好好分析下,目前整个网站顾客的新老顾客问题。做了一周,看到了很多惊奇的地方:①在国内下单的第一个客户是在上海的一个美国人;②下单量排名靠前的依次为母婴、化妆品、鞋包,而且以女性为主;③下单的客单价平均都比自己预期的要高,顾客有囤货的习惯;④老客户的回访率很高,而且是在特定的品牌上。

A觉得,想要做好外贸海淘这块,真正需要服务好的,是那些有海淘习惯的老顾客。

ZJM听到这个分析,回想起自己在香港的查勘经历,实际情况也验证了这几点。而自己没想到的是,有在国内的老外也有海淘的习惯。这是自己真没有料到的情况。ZJM迫不及待叫来的市场部门的BD和策划,希望能够做一个整年的海淘推广方案。重点是在母婴、化妆品等有知名度品牌的线下商场。

A也理了一些方案,包括:

1.定期发布新产品的信息,在各B2B、B2C网站更新自己品牌的产品信息,在产品位置排序权重中不要拖后腿;

2.开发一套完整的CRM客户管理系统,包括对老客户的生日提醒,新品发布的提醒,半价打折促销等消息的提醒,客户对平台的反馈声音,同行业的微博讨论的热点监控;

3.定期总结和分析每日、周、月、季度的业绩情况,每个环节的转化是否正常;

4.对老客户声音的重视,安排专人的私人客服解决老客户反馈的问题和建议。

功夫不负有心人,经过2个月的努力,公司从每个月1500单直接翻番到3000单,从具体的提升数据来看,3000单里有70%来源于老客户的。这个数据也让A坚定了信心,要做好这个CRM系统。

A在网上找了几家这样的外包公司,聊了聊大概的需要,想了解下具体如果外包给第三方公司的话大概需要多少成本。而很多外包团队都反馈消息称,没办法给出一个确定的报价,需要A整理出具体的需求文档,最好有PRD可以提供出来。而A正好想起自己在大学时期,业余的时间还折腾过axure。找到了公司的部门产品经理bob,请教了大家可以怎样方便快捷的画出产品的PRD。

晚上,为了感谢下bob,约了bob去最近的一家牛肉火锅店吃晚饭。正好也是想多了解了解产品经理这块具体都做些什么事情。说起这家牛肉火锅店也很特别,店铺的老板不是一个人,而是很多人一起筹钱众筹的一家火锅店。而这时候众筹也是一个很新的概念,大家听到的更多是关于众包的概念,对于众筹,还真是第一次听说。

正好其中有个老板今天在,就给人介绍了下。众筹最初是艰难奋斗的艺术家们为创作筹措资金的一个手段,现已演变成初创企业和个人为自己的项目争取资金的一个渠道。众筹网站使任何有创意的人都能够向几乎完全陌生的人筹集资金,消除了从传统投资者和机构融资的许多障碍。众筹的兴起源于美国网站kickstarter,该网站通过搭建网络平台面对公众筹资,让有创造力的人可能获得他们所需要的资金,以便使他们的梦想有可能实现。这种模式的兴起打破了传统的融资模式,每一位普通人都可以通过该种众筹模式获得从事某项创作或活动的资金,使得融资的来源者不再局限于风投等机构,而可以来源于大众。在欧美逐渐成熟并推广至亚洲、中南美洲、非洲等开发中地区。国内众筹与国外众筹最大的差别在支持者的保护措施上,国外项目成功了,马上会给项目发钱去执行。国内为了保护支持者,把它分成了两个阶段,会先付50%的资金去启动项目,项目完成后,确定支持者都已经收到回报,才会把剩下的钱交给发起人。截至2014年7月,国内有分属于股权众筹、奖励型众筹、捐赠性众筹等不同形式的平台数十家不等。

A之前对众筹这块还了解的不够深入,只是听说有非法集资的风险。当时也没听懂,就没放在心上。

这个时候A问起了bob,

“bob,你结婚了吗?”

“还没呢,不过男朋友已经有了。打算年底结婚吧。”bob说道。

”买房了吗?上海这边房价不便宜啊。“

”是买啦,我和我男人是典型的房奴。他买在松江,我买在浦东这。还好我们没有结婚,不然我今年买的话,就算第二套房了,要多叫5,6万的税。“

A笑起来,”土豪哈!“

两个人就这样聊了一晚上,彼此都成了很好的朋友。而A对产品这块的理解,真的要多感谢感谢Bob对自己的帮助。

第二天,A把产品的PRD画好后,发给了外包公司。对方报了个差不多的价格,计划开发周期是3个月,A把这个消息发给了ZJM。ZJM点点头,觉得A很不错啊,能够自己干起了产品这块的工作了。看到外包公司给出的价格也比较合理,让A找个时间,去外包公司当面聊下,可以的话签个合同。

-----------------2015.9.18更新-----------------------------------------------------------------------------------------------------

周末A和外包公司联系上,上午去拜访了。这家外包公司坐落在徐汇区的老田林,简单的环境,周末有三四个人在公司上班,看起来大家都在研究着自己的东西。A走进了丁总(外包公司leader)的办公室,聊了下想做成什么样子。

A说道:『我们希望能够做一个CRM系统能够维护起我们目前的客户资料,主要的功能点有:营销过程中得客户资料支持,产品销售的业绩跟踪,以及客户的服务。

重点场景包括:1.我们能够知道我们的客户是谁?是什么样的人?有什么特征?能够帮助市场人员分析现有的目标客户群体,如主要客户群体集中在哪个行业、哪个职业、哪个年龄层次、哪个地域等等,从而帮助市场人员进行精确的市场投放。

2.能够对接各个营销方式,如SMS、iagent、EDM、客户端push消息。

3.产品销售环节能够包括潜在客户、客户、联系人、业务机会、订单、回款单、报表统计图等模块。业务员通过记录沟通内容、建立日程安排、查询预约提醒、快速浏览客户数据有效缩短了工作时间,而大额业务提醒、销售漏斗分析、业绩指标统计、业务阶段划分等功能又可以有效帮助管理人员提高整个公司的成单率、缩短销售周期,从而实现最大效益的业务增长。

4.客户服务模块能够有客户反馈、解决方案、满意度调查等功能,包括舆情的监控、客户通过短信、官网、微博的反馈意见,客户的满意度调查问卷结果,客户的投诉等。』

丁总点点头,给A展示了之前做过的几个成功的项目,哪些可以直接造搬,哪些需要修改的地方。

A问了大概需要的具体开发时间周期,大概每个模块的开发时间节点,每个模块的报价以及公司对接的哪个同事。

中午两人去了楼下的一家东北菜吃了下饭,A觉得很久没有吃到那个在北京时候的味道了,菜量很足让A有些怀念。丁总说,自己也曾经是在某家公司的总监,和几个兄弟一起做技术方面的工作。后来公司调整,裁了不少人员。丁总就和自己的几个开发同事一起离开了公司,注册了一家开发的新公司。很多时间都是靠自己的之前客户帮忙介绍的订单,目前也接了华为一些比较大的项目,争取今年能够把公司的知名度做出。

A下午回去后,和ZJM具体说了下大概的情况。ZJM审批了下这个项目,决定开始做。

过了两天,ZJM安排A去面试一个来的应聘者。他叫Z,是刚毕业的同学,从简历上看得出Z在大学干了不少兼职的事情。但是都做得比较杂,来面试聊过之后发觉Z对自己的未来也是比较迷茫。对基本的数据库第一范式、第二范式这些还是有些了解,不过其他的关于数据分析的就知道的不多了。A面过之后,让Z回家等通知。事后ZJM问A怎么样,A摇摇头。

这天,Ariel打来电话,问A晚上有没有时间,想请教A一些关于报告的问题。想了解下A是怎么快速地写分析报告的。

A晚上如期而至,挑了家比较轻松惬意的餐厅。A介绍到当年自己做分析报告的经历,那时候做分析报告其实也是非常的菜鸟,后来看到一个蛮厉害的网站分析爱好者写分析报告,传说是每星期会写3~4份非常专业的报告,当时就偷偷的去看他是怎么写的。

每天大神总会在艾瑞咨询、易观国际、百度数据中心、情报中国网搜刮一些行业数据分析报告,研究他们的分析报告框架和报告分析思路。了解每个报告的一些常用的图表、文字、分析结论的方法。把这些常用的图片元素和excel处理保存下来。而在写一个分析报告之前都会找业务方了解具体的业务都是什么样的现状,平时工作的内容都有哪些,难点是什么,希望得到技术和数据方面的什么支持。而这些困难和挑战当中,哪些是可以解决的,哪些是目前不能解决而未来有希望解决的,哪些需要得到什么样的帮助。

A把大神常用的SWOT分析、波士顿分析、4P/5W1H等常用的市场营销方法整理了下,记忆中也找到一本关于《100个经营管理工具箱》的电子书,里面讲解了很多关于经管上的分析方法论。

而对于分析报告中常用的先分析目前的现状,到发现目前的问题,到提出解决目前问题的方法,以及从目前业务中发现机会。这样的分析路线在以后的A写得分析报告中经常应用到。

A告诉Ariel,写一个报告最重要的就是找到分析的框架,就像建房子一样。有个框架之后,就分析整个业务的前因后果、知其然、知其所以然并做到望闻问切。Ariel点点头,但还是有些不太能够理解。

-----------------2015.9.21更新-----------------------------------------------------------------------------------------------------

A细心的讲解了下,首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去的欲望;

第二,每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了他本身的意义,因为你本来就是要去寻找或者印证一个结论才会去做分析的,所以千万不要忘本舍果;

第三,分析结论不要太多要精,如果可以的话一个分析一个最重要的结论就好了,很多时候分析就是发现问题,如果一个一个分析能发现一个重大问题,就达到目的了,不要事事求多,宁要仙桃一口,不要烂杏一筐,精简的结论也容易让阅者接受,减少重要阅者(通常是事务繁多的领导,没有太多时间看那么多)的阅读心理门 槛,如果别人看到问题太多,结论太繁,不读下去,一百个结论也等于0;

第四、分析结论一定要基于紧密严禁的数据分析推导过程,不要有猜测性的结论,太主观的东西会没有说服力,如果一个结论连你自己都没有肯定的把握就不要拿出来误导别人了;

第五,好的分析要有很强的可读性,这里是指易读度,每个人都有自己的阅读习惯和思维方式,写东西你总会按照自己的思维逻辑来写,你自己觉得很明白,那是因为整个分析过程是你做的,别人不一定如此了解,要知道阅者往往只会花10分钟以内的时间来阅读,所以要考虑你的分析阅读者是谁?他们最关心什么?你必须站在读者的角度去写分析邮件;

第六,数据分析报告尽量图表化,这其实是第四点的补充,用图表代替大量堆砌的数字会有助于人们更形象更直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从;

第七、好的分析报告一定要有逻辑性,通常要遵照:1、发现问题 2、总结问题原因 3、解决问题,这样一个流程,逻辑性强的分析报告也容易让人接受;

第八、好的分析一定是出自于了解产品的基础上的,做数据分析的产品经理本身一定要非常了解你所分析的产品的,如果你连分析的对象基本特性都不了解,分析出来的结论肯定是空中楼阁了,无根之木如何叫人信服?!

第九、好的分析一定要基于可靠的数据源,其实很多时候收集数据会占据更多的时间,包括规划定义数据、协调数据上报、让开发人员 提取正确的数据或者建立良好的数据体系平台,最后才在收集的正确数据基础上做分析,既然一切都是为了找到正确的结论,那么就要保证收集到的数据的正确性,否则一切都将变成为了误导别人的努力;

第十、好的分析报告一定要有解决方案和建议方案,你既然很努力地去了解了产品并在了解的基础上做了深入的分析,那么这个过程就决定了你可能比别人都更清楚第发现了问题及问题产生的原因,那么在这个基础之上基于你的知识和了解,做出的建议和结论想必也会更有意义,而且你的老板也肯定不希望你只是个会发现问题 的人,请你的那份工资更多的是为了让你解决问题的;

十一、不要害怕或回避“不良结论”,分析就是为了发现问题,并为解决问题提供决策依据的,发现产品问题也是你的价值所在,相信你的老板请你来,不是光让你来唱赞歌的,他要的也不是一个粉饰太平的工具,发现产品问题,在产品缺陷和问题造成重大失误前解决它就是你的分析的价值所在了;

十二、不要创造太多难懂的名词,如果你的老板在看你的分析花10分钟要叫你三次过去来解释名词,那么你写出来的价值又在哪里呢,还不如你直接过去说算了,当然如果无可避免地要写一些名词,最好要有让人易懂的“名词解释”;

十三、最后,要感谢那些为你的这份分析报告付出努力做出贡献的人,包括那些为你上报或提取数据的人,那些为产品作出支 持和帮助的人(如果分析的是你自己负责的产品),肯定和尊重伙伴们的工作才会赢得更多的支持和帮助,而且我想你也不是只做一锤子买卖,懂得感谢和分享成果的人才能成为一个有素养和受人尊敬的产品经理。

Ariel将这个收藏在《数据分析报告怎么写》当中。

-----------------2015.9.23更新-----------------------------------------------------------------------------------------------------

过了两天bob跑过来,问A周末有没有时间,有个朋友组织数据分析活动聚会。A一口答应没问题。正想周末无聊不知道干嘛呢。平时发现在上海的数据分析聚会活动也很少,这次据说是bob的一个朋友组织的。对于能够在上海有这样的聚会A很兴奋。

总算到了周六,A早上写完周报赶紧看看了今天分析聚会的主题《数据分析在企业中的应用》。中午吃了顿饭,和bob约了在人民广场地铁站碰面,这次聚会地址定在上海老站,那个地方在徐家汇附近,算是一个比较娴静的好聚处。Bob让A认识了下在这个行业做了十多年的翟哥,看到翟哥的第一眼,A觉得翟哥应该是一个比较老实的技术男,待人接物稳重,说话慢条斯理,长相敦厚。

后来了解到翟哥是做了很多行业,汽车、电商、零售行业,SAS玩得很溜,也做了很多网站和论坛。发表过不少关于数据分析工具使用的文章,也整理了不少数据分析方面的资料。

这次聚会还认识了base在杭州创业的朱哥,朱哥给人的感觉就是在外面创业的,像一个初创公司的CEO,拎着公文包,时刻准备着跟人谈生意的感觉。还有做外贸的萨姐,做美股操盘手的慧姐,以及和自己差不多大的D姐。

今天邀请的是来自HD公司的高级数据分析师军军同学来做的分享,主要围绕数据分析在其零售公司中的一些实际场景的应用。2点大家都坐好,准备起分享的主题。军军同学主要介绍了HD公司的营销系统框架,产品→数据→营销→用户。产品主要根据季节、功能、属性、地区等维度做区分,结合目前已有的CRM/ERP/DW等系统的数据,通过不同的营销方式和不同种类的用户做个性化。其中数据方面的应用军军做了下重点分享,围绕用户是谁,用户干什么,用户有什么需求,我们可以给用户提供什么做了下分享,但A看得出来很多公司都是这么来做得,没有听出太亮点的地方。而在HD做营销的方面,巧妙的应用了新媒体的营销,通过微信朋友圈来制造营销事件,让大家都在讨论同一款产品还是颇有新意。另外有海外网站可以通过电脑摄像头来观察分析用户的表情变化,来搜集用户的反馈。

2小时的分享让A觉得整个分享环节有些枯燥,日后A在做现场分享的时候也体会到了演讲的艺术,不光是抛给听众我要讲的东西,还要能够调动现场的气氛让听众在不知不觉中接受所讲的内容,特别是充足的准备是必要的。

Q&A1小时的时间,有做淘宝店提问的,有做外贸提问的,有做母婴零售提问的,A停下来感觉虽然他们都是在做零售行业,但都没有一个系统的零售行业培训。或者说他们都渴望通过数据来改变目前的店铺或平台现状,而却不知所措。

5点半大家选择了附近的一家饭店去吃晚饭,翟哥正式邀请A下个月来做下分享活动,A想如果准备准备应该没有问题。

在接下来的一年中,A和翟哥、朱哥成了非常好的朋友,一起组织活动、一起做网站、一起做项目、一起周末周边游。A也没有想到,自己就这么搞分享活动渐渐爱上了组织活动,去南京、去杭州、去北京、去深圳做了很多次分享。这个行业的或多或少的人也都认识了A。而A自己内心深度也非常喜欢这种分享自己的想法、经验和思想。

-----------------2015.9.26更新-----------------------------------------------------------------------------------------------------

翟哥送了本车品觉的《决战大数据》给A,A也是迫不及待回到家大快朵颐。

全书从为什么大数据说起来容易做起来难出发,以大数据构建未来商业利器结束,总共花费了11个章节,中间穿插着其在阿里的数据实践经验,A结合自己的读书体会,特将其总结归纳为以下50条:

  1、大数据从来都不是免费的午餐,因为数据来源渠道的宽泛,难免出现偏倚误差。

  2、人的断层是是大数据应用面临最严重的问题,这个断层包括沟通的断层、建模的断层,譬如现在收集数据的人不知道未来使用数据的人要什么?创建模型的人不知道未来数据是否稳定,使用模型的人不知道数据的来龙去脉。

  3、从数据化运营到运营数据,是从看到用的过程。这个过程需要主动管理,需要更多的创新,需要学会问问题,问问题的过程就是寻找答案的过程,好的问题就是答案。

  4、从商业角度讲,大数据的本质就是还原用户的真实需求。

  5、数据价值的如何判定?首先看这个数据与你的目标是否一致,对你的价值是什么?其次看这个数据能否清楚的识别用户身份,以及反应出的对应的场景。

  6、学会双向思考,关于数据的价值,对于企业而言,是实现企业资源的合理分配,而对于用户而言,则是对用户体验的提升改进,比如个性化的推荐系统就基于此。

  7、场景与还原并行,前端还原为消费者场景,后端还原为业务需求。

  8、数据的本质是还原,落地可能表现为收集元数据的方法,个人建议初期引入最小数据集的概念。

  9、关于数据还原可以从两方面理解:①对人的行为目的的还原;②对制造原始信息的人的朔源。

  10、活的数据才是大数据,这里的活主要从两方面考量:一是灵活收集数据,抓相关性,比如我们的克强指数;二是灵活动态的数据指标,动态的使用数据,将数据场景化。

  11、 移动互联网时代,无线数据将是大数据的“颠覆者”。这个颠覆主要指无线数据的加入将原有数据的噪音加大,无线数据与原有PC数据的关系处理等。

  12、无线数据分为wap和app两种,而APP的数据收集方式又有两种:①收集用户联网时请求服务器的记录②用户行为记录。

  13、 APP对用户的识别主要基于手机的机器码,而机器码在不同系统中也有差异,差异体现在操作系统本身的差异和操作系统版本的差异。

  14、 保证PC和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析过程中用彼此的融合来还原用户的行为,所以用户体系的建设在多屏时代尤为重要。

  15、 关于数据价值,从数据的角度讲,估值就是通过不同的纬度去思考数据的价值。

  16、 数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值,与此同时,同样的数据在不同环境中也会呈现出不同的价值。

  17、数据的四种分类:①可再生与不可再生数据;②基础层、中间层、应用层数据;③不同数据主体对应的主体数据;④隐私与非隐私数据。

  18、数据的五种价值:①串联与识别价值;②描述价值;③时间价值;④预测价值;⑤产出数据价值。

  19、 数据分类与数据价值的意义,主要还是体现在数据产品的建立上,其应用思想体现在基础层-中间层-应用层上。

  20、基础层收集那些数据,如何收集,如何保存等;中间层涉及数据管理与数据框架的搭建,应用层则是八仙过海各显神通。

  21、数据收集的出发点是解决问题,此外数据的生命周期、收集背景都须注意。

  22、 用数据是一种方法论,养数据则是一种数据战略,是基于更深的商业解释的商业决策。

  23、 跳出固有思维圈,从旁观者角度出发,跳出0或1的选择,我们可以有第三种选择。

  24、数据应用应该是小而美,而不是大而全。小而美指目标简单具体。

  25、 如何利用数据框架做决策,简单四步告诉你:①确定问题,从解决问题的角度去收集数据;②整理数据放在一个框架内;③看框架与决策的关系;④根据决策行动,检查是否达到目的。

  26、数据的盲点分为物理盲点和逻辑盲点,物理盲点是我不知道的,逻辑盲点是我知道但没被挖掘的。

  27、 数据也有正负能量,正能量的数据告诉你如何成功,负能量的数据告诉你如何避免失败。

  28、是否看到数据盲点的核心价值是,有没有看到应该看到的数据,有没有错失不应该错失的数据。

  29、数据运营中的常见问题:①堵,日常报表信息量大,难以铺捉有效信息;②独,信息分散在不同部门,缺少有效组合;③慢,业务异动的处理往往是自上而下的推动;④漏,关键分析成果取得实效,但未实现沉淀。

  30、 阿里的大数据实践一:数据化运营需要和商业咬合的非常紧密,所以数据也是混合在商业里,以假定稳定的方法去做业务上的对比、细分以及趋势预估。

  31、 阿里的大数据实践二:假定数据是稳定的,意味着习惯于不去寻找一些新数据,用数据拿数据的方法可以将数据化运营和运营数据打通。

  32、 阿里数据化运营的内三板斧之混:混出数据,只有具备商业敏感的分析师,才懂得使用什么数据来驱动公司实现经营目标,数据部的人和业务部的人经常混在一起。

  33、 阿里数据化运营的内三板斧之通:打通混的数据,通是混、通、晒的关键节点,知道带着业务问题看数据或带着数据看业务,这就是通。

  34、 阿里数据化运营的内三板斧之晒:晒出混和通的数据,数据能不能做到获取、使用、分享、协调、链接、组合之上,让自己变得超级简单和便捷,这是数据化管理运营中非常重要的一点。

  35、 数据化运营需要有框架可依,做到如何证明业务是好还是不好,而这里的框架就是一个对业务进行指标化的分解,并通过有限多个指标来客观描述业务的状况。

  36、 阿里运营数据的外三板斧之存:存是数据收集的开始,收集数据不是目的,让收集起来的数据如何产生价值才是最终目的。

  37、 阿里运营数据的外三板斧之管:管是保护好存储数据,学会用数据产品来解决获取以及使用数据的问题。

  38、 阿里运营数据的外三板斧之用:用是从收集数据到管理数据,在用数据的问题上,数据的分裂和重组,都能做到颠覆性的创新。

  39、数据思维之MECE法则,不断地用逻辑方法将问题进行分解,直到不能分解为止,然后从根本去解决问题。

  40、大数据的本质是人,数据研究的极点就是揣测变幻莫测的人性。

  41、假定数据是脏的,在处理数据的时候,会像污水处理厂一样,每一步都问自己几个为什么。这种情况的出现,到底是因为数据脏了还是因为数据提验过程中做的不好。

  42、 做好数据的质量评分,从反映数据的可信度和质量水平出发。

  43、 学会慢慢的淡化数据,数据是有优先级的,在数据中有些是特别核心的,有些即使缺失了也没问题,所以,我们要学会真正坐下来盘点那些对公司最有价值,对用户最有价值的数据。

  44、数据的标签化管理,数据的属性标签是人类经验判断的数据,是数据后的数据。

  45、大数据价值的实现在于数据与数据之间的连接。

  46、数据的实时化和实时性分层,我们千万不要把所有能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机处理,有的数据是重要的,但并不紧急。

  47、关于数据,未来是人机的结合体。人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。

  48、未来,人身体中流通的不仅是血液,还有数据。

  49、 关于数据分析,更准确的说法应该是信息分析,目的是寻找短板,这个短板可能是自己的,也可能是竞争对手的。

  50、我们都说数据分析是指导决策的重要依据,但我们用什么来保证分析的正确呢?是不断的试错还是考验我们数据分析师(科学家)分析和利用信息的能力。

总体看下来,A觉得这本书很通俗易懂。也抄下本书中讲到的【数据十诫】:

①好的问题,答案就在里面。

②在实践中提炼数据。

③让数据变成科技,惠及更多人。

④让数据跟着“人”走。

⑤木有数据质量,神马数据都是浮云。

⑥以“假定数据是可以获取的”去思考问题。

⑦大数据安全,不是监管。

⑧利用数据拿到更有用的数据。

⑨建立数据的数据,才有进步。

⑩让人做人擅长做的事,让机器做机器擅长做的事。

在A之后的数据生涯里,这十条戒律着实影响了A的一生。

-----------------2015.9.29更新-----------------------------------------------------------------------------------------------------

那年毕业回家发展的同学们(某大拿建议说加上框架标题,接受这个意见:D)

这年,南京的“油条”(注:油条为A在网上认识的某数据分析爱好者)发来邀请,向A倾诉道:“A,真羡慕你们这些在一线城市的。你看我们在南京、苏州这些鬼地方的,都没有什么做数据分析的,每天都停留在excel的报表中。像我们公司是做收藏品这块的,公司老板也就掌握那么几个固定的大客户就够了。基本上每个月的业绩就是靠那些客户来完成,公司内部也没几个人懂什么是数据分析。我也就是经常在群里和你们这些人聊了才知道你们每天都在做什么?什么时候来我们这边做做分享哈?”

A在平时的群里看到大家也就经常聊聊一些不着边际的话题大概也都能感受的出来,二线城市数据分析师的“迷茫”。或多或少,也是因为没有那样的环境,作为一个小企业而言,很少会把重点放在数据能力的建设上。而特别在二线城市那些强调企业成本的情况下,更多的公司会选择成本更低、资历更浅的候选人。

A也感叹道:“你们在二线城市的也不知道一线城市的痛啊!每天朝九晚五,花在路上的时间就有2、3个小时。平时工作都很忙,天天被领导压榨,天天背着KPI,如果完不成就要滚蛋,根本就没有幸福感可言哈!”

“所以在哪儿都不好混啊!”油条说道。“那您什么时间可以来南京组织下活动分享分享呗!”

A思考了片刻,还是答应了,“这个月底要不我们来组织下?”

“太好了,我们在群里组织下。把南京的小伙伴们都叫上,看看他们都有哪些想法,然后把场地和设备都搞定了。”

大家听到要在南京搞数据分析的聚会,都感到很兴奋。

A有一种大家回到校园时代的感觉。这种似曾相识的感觉很珍贵。特别是在职场呆过几年之后,看过那些不堪回首的种种,很希望那种人与人之间的纯真。也做数据的时候也是,数据一定程度上反映了客观事实,而这往往会和人与人之间的利益关系相冲突,有些数据该不该说,有些数据能不能看,几年的感受让A觉得有些事情还是不知道的好。

A想,既然要搞次聚会,就不要人太多,避免过往历史经验教训人多嘴杂,意见不统一。大概约定控制在30人左右。安排油条负责大家的报名工作,看下具体定在什么时间比较合适。超出A的意料,整周的报名人数也就22个人。这有些打击到A的信心,另一方面也感受到二线城市的数据分析师的窘境。

回忆起当时自己的大学同学,那些回家发展的,很多都是希望能够稳定、不要有太多冒险走南闯北的。像和自己之前的室友SWC,大学一毕业就回了苏州,找了一份简单的银行工程师的工作,平时的生活也很舒适,周末就宅在家里看上网看电视。日子也算过的不错,父母亲也希望他能早点结婚。SWC对于这样的生活节奏也习以为常,日子久了看看那些在一线城市的同学也会有些无聊。

也有回家继承家业的同学WY,其父亲是一家纺织工厂的老板,希望WY能够回家帮忙。每天的事情就是帮着家里的生意打理着和客户之间的关系。日子过的有些小忙,不过也没什么压力。每年也算有个几十万的纯毛利。

还有个同学LJ,毕业来了上海,在上海一家广告公司做了两年销售,那年在2月14的情人节,和一个一起上班的女孩子两个人在一起逛街的时候突然哭了起来,说压力好大。自己来上海也几年了,感觉自己是一无所有,又不好意思回老家工作,老家的很多人听说她在大上海有份很体面而且薪水不菲的工作,可是很多老家的人不知道这份钱和大上海的房价比起来只是杯水车薪,当时她哭着说想回家,安安静静的找份工作过简单的生活。因为没有找到合适的男朋友,回家还有个想法就是在家找个男朋友。后来有位大姐安慰她:女孩子没必要在外面风风火火的打拼,到头来只会让你觉得很累很累,而且一般也不会找到你想要的成就感,你需要一份稳定的工作,在年轻的时候享受你的青春,想结婚的时候用心看用心寻找一个爱你的男人。当时LJ仔细想想,人有的时候就是这样,有很多无奈。后来LJ回了老家,过的貌似比在上海开心很多。

在二三线城市固然没有一线城市那么广阔的机会,而现在为了引进人才二三线城市也提供了很多优厚的福利给高新人才还有更轻松的居住环境。而希望能够年轻的时候拼搏一下的话,一线城市无疑是更好的选择。

-----------------2015.10.12更新-----------------------------------------------------------------------------------------------------

|互联网金融真的来了

这一年对于A来说,有款产品对A影响非常深刻。每天A都会在心里计算着今天有多少收益,每天看到自己的支付宝上能有10块钱的收益,心里就别提多高兴了。要知道A平时为了省钱,早上几块钱的包子和坐公交的钱都省了。

而A不知道就在这一年的前几个月,在杭州支付宝大楼里有个叫“春秋书院”的闭关室,立马有一群紧张而兴奋的年轻人在忙碌着。项目室巨大的落地窗前,站着一个面色凝重的人,他就是天弘基金创新事业部技术负责人樊振华,一个在金融IT领域有着丰富经验的老兵。他看着窗外川流不息的汽车,深深地吸了一口气。

这是一个只有代号但没有名字的保密项目,内部称之为“2号项目”,2号项目的旺旺交流群的签名上写着“2013支付宝秘密武器”,足可见这个项目的重要性。

截止到今天,中国近亿人因为这个项目受益,改变了自己的理财习惯。这个神秘的项目,就是余额宝。那么余额宝的初期业务背景是什么呢?由此引发出对IT系统建设的需求又是什么?

余额宝的业务背景

在支付宝上卖基金的想法,在天弘基金电商负责人周晓明心中经过多次的思考和锤炼,已逐渐清晰。他在向阿里小微金服集团国内事业群总裁樊治铭介绍余额宝模式的雏形时,准备了5分钟内容,但只讲1分钟后,双方即达成一致意见可以做、快速做,并期望余额宝能在6月上线运营。

双方随即行动起来,进行了简单的分工,支付宝负责余额宝在支付宝端的建设工作,而基金公司端负责与支付宝对接的直销和清算系统的建设重任,就落到了樊振华头上。

这是一个从来没有人做过,也没有人知道该如何做的创新业务,面对支付宝巨大的用户群体,在仅不足3个月的时间内,该如何设计基金的清算和直销系统,成为了樊振华面临的头号难题。

2013年3月,樊振华一行与支付宝技术方进行整体架构沟通,这是传统金融行业建设思路与互联网技术路线的第一次冲突,双方在闭关室足足讨论了4天,确定下来一期系统的建设目标和要解决的问题。

当时主要面临以下难点。

1. 要能支持“千万级”用户的系统容量。

(1)传统的基金销售系统主要是和第三方销售机构,如银行理财专柜、网上银行进行合作销售。直销系统能够处理每天几万到几十万个用户的开户就完全够用了。但“余额宝”面对的是数以亿计的支付宝用户,用户的开户数量和并发量与传统业务有数量级的差异。

(2)传统基金的TA系统面对的用户是以理财为目的的申购和赎回,因此每天清算的交易笔数要求也只有几万到几十万即可满足。但余额宝的业务模式里,支付宝用户的每一笔消费,都会转化为一次基金赎回,又加上海量潜在用户群,每日清算笔数将会是传统模式的百倍甚至是千倍。

2. 直销系统和TA系统的融合。

传统的直销和TA是分别独立的系统,但对于接入支付宝这种入口交易空前频繁、数据量极为庞大的需求而言,传统的分离式文件交互方式不能满足效率和优化利用资源的要求。因此,项目组提出了功能整合、功能简化、当前库和历史库分离的技术结构。让直销和清算系统使用同一套数据库,来避免数据拷贝带来的业务时延。

3. 7×24小时的基金直销系统。

由于渠道的原因,传统基金直销系统的大多数开户出现在银行的工作日。因此系统能做到5×8小时即可满足大部分客户的需求。但互联网的属性是7×24小时,因此系统也应具备7×24小时不间断的服务能力。

4. 支付宝与天弘基金双方的数据传输与系统交互。

余额宝的直销和清算系统会部署于天弘基金在天津的数据中心,而支付宝的“余额宝”系统部署在杭州,双方之间的通信协议,远距离数据传输面临很大的挑战。

这样,根据早期建设需求,余额宝一期系统的架构和系统容量规划展开了序幕。

一期系统建设

距离上线时间只有不足3个月,樊振华和系统开发商金证科技的技术人员进行了紧张的架构工作。经过数次讨论,双方有了初步的统一意见,并形成了建设目标。

1. 基于传统的IOE基础架构。

在如此短的时间内,有很多功能优化、业务流程更改等开发工作,再配合相关的测试,控制改动的范围。因此基础架构决定采用传统的HP/IBM/Oracle/EMC方案,靠使用高端硬件设备的方式,提高一期系统的整体容量和性能。

2. 直销和TA的系统整合。

(1)为减少直销系统和TA的数据传输延迟,决定两个系统使用同一套数据库架构。

(2)为避免单点故障引起的业务中断,应用层的直销和TA平均分布在每台服务器上,确保每个应用服务器的角色具备可替代性。

3. 跨省的MSTP专线链路。

天弘基金清算和交易中心在天津数据机房,通过架设两条4M的MSTP专线,连接到支付宝杭州数据机房。两条专线之间互为备份,确保通信链路安全。

一期系统的架构如图1所示。从中可见,支付宝实时开户、申购和赎回等实时请求,与每天的离线对账文件,都通过MSTP专线与一期系统进行通信。其中实时请求通过RADWARE硬件负载均衡分发到两台前置机,前置机在做完报文解析后,将请求发送到XP的消息队列。然后由BP以主动负载均衡的机制,从XP中取出相应请求进行处理,处理结果保存到后端数据库中。



图1 一期系统构架图

幸福的烦恼

然而,在一期系统上线以后,面对业务量暴增的情况,系统遇到了瓶颈同时也出现了新的问题。

2013年6月13日,一期系统如期上线,业务量远超预期,给系统来了一个“下马威”。上线后数分钟内就达到了18万的用户。在2013年6月18日晚上,余额宝的用户量已突破了100万。2013年6月30日,余额宝用户数达到251.56万。

在如此高速的业务增长压力之下,一期系统开始面对前所未有的直销和清算压力的冲击。这个新建的系统,是否能支撑起如此大的容量冲击?什么时候系统会达到瓶颈?这些问题,悬而未解,让樊振华陷入了深深的危机感中。经过了数个失眠之夜后,他还没找到解决问题的办法,但他清楚地知道,再这样下去,一期系统将会很快面临瓶颈,成为业务增长的绊脚石。

樊振华的担忧很快变成了现实,随着用户量的暴增,数据库的负荷越来越高,实时请求的响应时间开始变缓。清算时间由最初的半个小时慢慢地变成一个小时、两个小时、四个小时……清算系统每天会在凌晨收到支付宝最后一笔确认文件后开始清算,天弘基金的后台运营人员会等候清算出结果以后,发送给监管行和支付宝。随着这些人回家的时间越来越晚,抱怨声开始出现,樊振华的压力也随之增大。

系统的扩容势在必行。然而,当樊振华收到金证科技发来报价表,打开第一页时,他惊呆了。如果依然使用IBM/Oracle/EMC的传统架构进行扩容,要达到预定目标,仅仅硬件设备采购及中间件的Licence费用就达到了数千万元人民币。这个数字对于樊振华来讲,甚至对于天弘基金这家公司来讲,是一个天文数字,超过了这家公司以往所有对于IT投资的总和。并且设备采购到货就要一个月以上,想在一期系统瓶颈出现前完成扩容几乎不可能实现。

传统的路线走不通,就要找新的方法。当他得知阿里云计算作为一家云计算服务提供商,使用云计算支撑了海量的互联网企业及阿里集团自身业务时,樊振华开始和阿里云计算进行接触。2013年7月,樊振华组织阿里云、支付宝、金证科技的人一起探求解决方案。最终经过慎重思考,樊振华心一横,说了句:“不要再讨论了,上云,上阿里云!”

上云吧,腾飞

上云之路,困难重重,举步维艰。

上云并非一句话那么简单,使用云计算支撑当时国内最大的基金直销和清算系统,前无古人,但开弓没有回头箭。樊振华召集了支付宝、阿里云、金证科技的人一起,启动将直销和清算系统整体迁移到云计算架构的二期系统。

阿里金融云为二期系统提供了的云计算服务有ECS(弹性计算服务)、RDS(关系型数据库服务)和SLB(负载均衡服务)。这三个服务分别对应于一期系统中的HP和IBM服务器、Oracle数据库和硬件负载均衡设备,但这三种服务的单个实例的性能和容量,都比相应的物理设备小上一大截。如何用单机性能更小的云计算服务来支撑那些单机性能更强都难以支撑的系统呢?经过深入的了解,樊振华在心中已有了答案:“蚁群战术”。

俗话说“三个臭皮匠,顶个诸葛亮”。“蚁群战术”就是要充分利用云计算服务的快速部署能力(5分钟内可以创建数百台ECS)、弹性伸缩能力和安全稳定等特性,使用水平拆分算法将应用系统水平拆分为数十组甚至上百组平行运行的小系统,这些小系统组合起来可以支撑起海量的请求和超高的性能。

此时已进入到2013年7月中旬。按照对一期系统运行状况趋势的评估,一期系统的容量在没有任何运营推广活动的情况下,只能支撑到9月份便会面临瓶颈。在理清楚二期系统的性能和容量设计目标时,樊振华又接到了新的压力:天弘基金和支付宝管理层已决定余额宝要参加阿里“双十一”购物狂欢节,这对于支撑后台的技术人员来讲,绝对是一场恶战。很快,传来了支付宝对天弘提出的双十一支撑要求:

1. 实时请求的响应要超过1000笔每秒;

2. 清算系统要支持单日3亿笔交易清算,清算时间不得超过150分钟;

3. 2013年10月份支付宝会展开相关运营活动,系统必须在10月份前上线。

面对这样严酷的要求,且只有两个月的系统改造时间,项目组遇到了巨大的困难。

1. 如何进行系统水平拆分?

按照“蚁群战术”,需要将原有系统的业务逻辑水平拆分成多组小系统。而如何才能保证拆分尽可能平均和拆分后的扩展性是绕不过去的难点。水平拆分依据哪个字段来拆分,需要根据业务特性慎重考虑。一个细节考虑不到会导致全盘皆输。

2. 将Oracle替换为MySQL。

无论是单机性能还是功能,MySQL都无法与单机的Oracle匹敌。使用MySQL代替Oracle,原有的存储过程该怎么办呢?一些涉及多表join的操作在MySQL下执行效率较低该如何解决?工作量有多大?没人清楚这一系列问题的答案。

3. 数据迁移工程浩大,难度极高。

一期系统部署在天弘基金在天津的数据中心,而二期系统却部署在阿里云在杭州的节点,如何做到无缝割接?并且考虑到互联网用户的用户体验,一期系统和二期系统在上线期间,不允许出现业务中断,项目组必须在大数据量、异构环境、远程迁移等复杂环境下,实现无缝迁移。做到上线过程最终客户无感知。

4. 直销和TA系统的资源争抢问题。

一期方案将直销和TA进行了融合,来解决数据交互问题。但由于传统的TA与实时请求在不同时段运行,所以采用了主动争抢机制的负载均衡及贪婪式的CPU占用,以保证充分利用硬件资源完成业务清算。这在传统模式下没有问题,但一期系统进行合并以后,TA和实时请求的应用系统部署在同一组服务器上,每次TA系统启动清算的时间段,会严重影响实时请求的响应时间,甚至造成响应失败。

5. 整个架构保持两年以上系统扩容能力。

上云后的系统必须能够满足业务量飞速高涨的情况下,可以根据业务量的大小做到无缝升级。两年之内,不能因为扩容而改变系统架构。在保证扩容性的前提下,经济和投入必须控制在合理范围内。

这些问题,不管是樊振华,还是金证科技,在分布式系统和云计算这个领域,虽然了解很多,但真正动刀枪,还是第一次。即使阿里云和支付宝的技术人员,在这么短的时间内,要解决这么多难题,也都不禁捏一把汗。

走投无路,背水一战

樊振华清楚自己已没有退路,只有往前走才是出路。他召集阿里云、天弘基金、金证科技和支付宝的技术人员在闭关室进行封闭式开发,一场艰苦的战役就此打响。

“管不了那么多,这些问题只能一个一个解决。”樊振华每次面对棘手的困难时总会说这么一句。最终困难都被解决了。

1. 系统水平拆分。系统水平拆分的基本原理很简单,就是按一个业务字段,如支付宝协议号作为拆分依据。对字段取哈希值以后根据拆分虚节点的个数进行求模。这样就可以简单地将所有请求拆分成多份。

在二期系统的拆分过程中,经过测算,需要使用50组业务节点,但在拆分时,考虑到扩展性,并未简单地拆分成50份,而是拆分成1000份,然后每个节点处理20份数据。这样做的好处是将来如果系统遇到瓶颈,需要扩容时,不需要对拆分算法进行修改,而且数据平均迁移时只需要以库为级别进行,从而避免了拆表。

2. 去Oracle。首先是将存储过程等MySQL不支持或支持不好的数据库逻辑上移到应用中。

其次要将复杂度比较高的SQL语句进行拆分,变成多条简单的SQL语句,从而提高MySQL的执行效率。

阿里云的RDS提供的慢SQL查询功能,可以将整个系统执行效率比较慢的SQL呈现给用户,帮助用户优化SQL语句。

3. 数据迁移。数据迁移是这个项目的重头戏,迁移过程中使用全量+增量+数据订正+并行运行检查等几个阶段完成。

二期系统在生产环境部署完成后,将在天津的一期系统的全量数据打包,按照指定拆分算法拆成1000份以后,通过专线导入到二期系统中。导入以后,将天津的一期系统前置机转发服务打开,将所有实时请求转发到二期系统,这样两个系统同时处理请求。然后,在交易日之后,以一期系统为准,将二期系统中的数据进行订正和补全。这些所有的操作必须在24小时内完成是迁移成功的必要条件。

数据迁移成功之后,两个系统实际上在并行运行。需要使用脚本每天对比两个系统中的数据,连续2周数据对比无误以后,由支付宝将请求地址从一期系统切换到二期系统,整个迁移才算完成。

4. 直销和TA的再次分离。借助云计算快速灵活的机制,将直销系统和TA系统的应用逻辑层进行完全分开,分开后的直销和TA系统分别运行在一组ECS中,两套系统后端连接同一套的RDS数据库服务。这样既能保证TA和直销系统在应用性能上不会发生争抢,又不会发生数据传递问题。

5. 扩容性保证。除了在水平拆分算法时就采用双重映射的机制来保证架构本身的扩容性,还充分利用了阿里云云服务可以无缝升级的特性,来进行容量保证。

以RDS数据库为例,阿里云提供了新1型到新7型等7个型号,性能逐渐增强。最终选择了新5型作为数据库服务器,并没有一步到位采用最高型号。这样当系统出现瓶颈时,就可以通过将所有RDS从新5型升级到更高型号来将系统容量翻倍。


图2 二期系统构架图

这种架构(图2)将清算和直销的集群分为两组独立的集群,但使用相同的RDS数据库服务,既避免了在应用层面的资源争抢,又可以做到数据的共享。其中,实时请求会先到达4个互为冗余备份的SLB(负载均衡),避免SLB单点故障。SLB将请求转发给5台前置机,前置机会按照拆分算法,将该请求路由到相应的节点进行处理,该节点处理完毕后,数据保存到改组对应的RDS数据库。而每天的对账文件则通过文件服务器进行拆分,然后清算系统的每个节点主动取出自己处理的文件进行清算处理,再保存到数据库。

历经磨难,涅槃重生

经过两个多月的封闭式开发,在上线之前,二期系统进行了严格的压力测试,测试结果让樊振华悬着的心终于放下了。

TA系统,可以在6400秒内完成3亿笔订单的清算并将清算结果返回给支付宝,完全符合清算时间不得超过150分钟的要求。对开户的实时请求,项目目标要求达到1000笔/秒。压测的数据轻松达到5000笔/秒,并且具备11000笔/秒的储备能力随时可放开。

二期系统终于在2013年9月26日上午正式上线成功。在上线的前一天,一期系统每天完成清算需要8个小时,而上线当天,二期系统完成了第一次清算,只用了不到30分钟。这个结果让那些经历多个不眠之夜的后台运营人员眉开眼笑,终于可以晚上回家睡觉了。


图3 实时请求的响应时间

实时请求的响应时间老系统为180ms,上云以后,平均130ms,效果十分明显,如图3所示。

万事俱备,只欠东风,只有经过“双十一”海量交易量的摧残,才能验证系统是符合设计要求的。

2013年11月11日,余额宝首次参加“双十一”大促,完成1679万笔赎回,1288万笔申购的清算工作,成功为639万用户正确分配收益。当天处理了61.25亿元的消费赎回,119.97亿元的转入申购。完成这些所有的清算工作,系统只用了46分钟。

云计算是万能的吗?

这一路走来,直销和TA系统经历了分开、合并、再分开的演进路线,让樊振华想起一句话“天下之势,分久必合,合久必分”。过去这么多年,以IOE为主的集中式计算已告一段落,在这个互联网的时代,云计算和分布式的结合代替集中式计算已深深植入他的脑海之中。

此时的樊振华,已和一年前的他截然不同——一年前,他还在为各种硬件选型、采购流程而忙碌。但一年后,他更喜欢在人们面前谈起的是云计算、大数据、分布式、用户体验、互联网的IT架构等名词。

具备强大水平扩容能力的二期系统,足以让这个饱经历练的老兵高枕无忧,休息一阵子,再也不用担心系统容量和高并发的问题。但有一颗种子,在樊振华的心目中开始发芽:如今这个二期系统已不是简单的直销和清算系统,每天沉淀在50个数据库里的海量用户和交易的数据量在暴涨,如何存储这些数据?如何使用这些数据?该如何才能产生最大的价值?

未来如何发展?

有了这颗种子,樊振华休了个短假,他又开始了新的征程,投入了大数据的怀抱,这一次,他选择了阿里云提供的ODPS(开放数据处理服务)来作为自己的大数据平台。ODPS目前是阿里集团进行离线数据处理的平台,支撑了阿里金融、淘宝等多家BU的大数据业务。有了这个平台作为后盾,樊振华清晰了很多,他脑海中复现了一幅画面:在不久的将来,通过对目前沉淀的海量数据的分析,可以把握上亿用户的理财需求及不同的风险接受能力。而天弘基金,根据这些客户的情况,提供更多更丰富的理财产品。或许到那一天,让天下所有的人享受到符合自己的理财服务真不是梦想了。

-----------------2015.10.15更新-----------------------------------------------------------------------------------------------------

也正是余额宝彻底了打破了整个传统金融的模式,给整个传统银行、证券基金公司、互联网公司都带来了巨大的影响。给像A这样的理财小白也带来了翻天覆地的生活变化。对此A一直心怀感恩,感谢这个时代,这个互联网金融时代的到来。

然后互联网金融的本质并非名词那么的高大上或者令人不可捉摸,围绕余额宝背后的产品其实是天弘基金发售的一款货币基金,因为货币基金有相对很小的风险,同时收益又比传统的定期活期存款收益高,因为受到了广大小白的欢迎,而余额宝的意义再不仅仅是收益这么简单,它创造了一个时代。

包括以后的P2P、股权众筹、产品众筹等都陆续火了起来,互联网金融也不再只是完成taobao上购物支付那么单一的功能,从本质上来说,它解决了用户的金融需求“投资、融资、支付”。

投资:就是资金充裕的人想让钱生钱(像传统的存款、保险、国券、高利贷也是投资的一种方式);

融资:缺钱的人需要筹集更多的钱,融资则需要付出成本,比如借贷的利息和手续费,其实就是用钱买钱;

支付:完成交易的货币流动手段,金钱的本质功能。

而余额宝就是完成了互联网金融投资的这一步,让资金盈余的人都能够钱生钱。

而投资和融资都是相辅相成的,投资可以让钱生钱,融资可以让资金短缺的人筹集到钱,只有两个功能都完成之后才能叫一个完整的互联网金融整体。

相对的,支付可以独立于投融资的活动,比如我们平时在taobao上的购物,整个活动没有涉及到投资或融资的功能。

而我们再反观传统金融,传统的金融机构负责中介的角色,负责为金融市场提供流动性。比如银行,有钱的人可以将钱存入银行赚取利息,银行将款项放给资金短缺的人,缺钱的人需要支付一定的利息。

而传统金融机构或者传统金融模式区别于互联网的最大地方,就在于信息的不够公开透明,很多时候在完成一笔投融资过程,需要有很多的中间方介入,也有层层环节导致融资需要支付的利息较高,投资收取的利息较低等情况。

此外,由于投融资本身也要承受各种各样的风险,比如投资者担心资金收不回来,融资者被骗上当需要支付高额的利息等情况。这些弊端都需要互联网金融更好的来解决这些问题。

-----------------2015.10.21更新-----------------------------------------------------------------------------------------------------

在余额宝出现之前,A一直都没有关注过理财,大部分的工资收入都放到了银行里。但A也会觉得跑不赢CPI上涨的节奏,所以有一度也在银行看看银行定期存款,当时一年定期3%的收益在A心中说实话真的提不上叫理财,而银行推出的5%的理财产品都是5万起的,对于A来说门槛又比较高。

-----------------2015.10.27更新-----------------------------------------------------------------------------------------------------

意料之外的机遇

也就在这个时候A的同学CJ在杭州的一家P2P公司上班,CJ给A介绍了下自己公司的产品,介绍了下P2P是什么东西,是怎么样的运作模式,还有高达10%收益率的理财产品,这对于之前一直觉得8%就很高的A来说简直不可思议。而这家公司的创始人JH也是从支付宝出来的,听CJ讲JH是浙大金融毕业的,大学一毕业就进入了阿里巴巴,那时的阿里才只有两岁。对于这样的过去,JH感到很庆幸,在阿里修炼了8年后,JH离职去了上海的一家支付公司发展,在上海的这家支付公司两年里,JH负责做B2B理财交易平台,通过多年的互联网经验,JH发现了80后决定了互联网市场需求。就如同QQ在80后的交友年代发展,网购 在80后有收入阶段崛起,那么若干年后,理财一定是有积蓄的80后面临的最大需求。JH认为理财B2C交易平台未来市场潜力无限,一定会成达到万亿级的体量。拥有过两家企业提供的大平台和发展空间,启动了很多前人没做过的项目,这样开拓性的经验让JH受益匪浅。经历了企业从起步到壮大,人员从几十到几千,JH生出了一股创业的冲动。抱着发展理财B2C交易平台的念头,JH离开了上海返回了杭州。开了这家P2P的互联网金融公司。

A听了CJ介绍了公司的背景之后,觉得这家公司应该还比较靠谱。刚开始就在平台上买了5万的理财产品,平均一天大约就有10多块的收益,这比余额宝高多了。而这时候A在新闻上看不到了不少P2P相关的负面报道,比如XX公司老板又跑路了之类的事件。对于A来说,还是有些担心这样的风险。

观察了两个月之后发现这家平台都在稳定运营,用户数也在急速上升,A在国庆前后搞活动的这次机会又多买了10万。有的时候风险就是与收益相互存在,结合自己评估风险的能力,再去投资自己能够接受的最大损失。

-----------------2015.10.29更新-----------------------------------------------------------------------------------------------------

这一天,一个固定电话打到了A的手机上,显示是来自杭州的26888888。A还在家静静的看着电影,没有多想就接了电话,对方是一个成熟的男人声音,“你好,请问是A吗?我是阿里巴巴大数据部门的负责人,不知道你最近有没有关注阿里这边的工作机会呢?”

在A的心底深处,一直想去阿里这样的公司去锻炼下,希望能够见识下目前国内数据做的最厉害的公司都是在做什么,怎么做。包括以前已经耳闻目染了很多阿里妈妈、阿里云的大牛分享的关于大数据框架、推荐、应用等各种各样的案例介绍,听到有人来邀请去阿里,顿时有些激动不已。

A心里有些激动,回到“是啊,之前一直挺想去阿里的,就是一直错过了各种各样的机会。”

那位成熟的男人继续说道,“我也是因为我们部门的一名研究员,关注到你的微博,觉得你写的东西都比较有深度,对数据分析这块也有很多思考,而且也关注到目前国内数据分析领域最前沿的技术和理念。也听说你之前也做过不少数据分析方面的网站,都效果还不错。想请你到杭州来见面聊一聊。”

A一口答应了。

周二一早,A就坐上了去杭州的高铁,到了东站打车直奔西溪园区。令A感到诧异的时,一路上A看到了公交车主动礼让行人,这一点让A对杭州留下了很深的好感。还有听说西湖的风景也不错,希望能够面试完能够去看看。

到了西溪园区,第一眼的感觉就是高大上。没想到公司园区这么大,果然是国内首屈一指的互联网公司。来到阿里,说实话对于A来说还是有些小激动的。之前也在来杭州之前在网上也看了不少网友分享的关于来阿里面试的经历,也有阿里面试负责人分享的面试中的技巧。

A自己总结在面试过程中,一般面试官主要观察应聘者的三方面:现在的能力如何,未来的潜力如何,以及人品如何。第一因素是最重要的,因为后面这个很难在面试第一次就能一眼准确的判断出来,包含太多的人为因素在里面。所以如何想做好面试的准备的话,建议把“现在的能力如何”这方面好好准备一下,把自己之前做过的项目、案例和成功的数据分析总结一下。之前A有个同学,能力很强,笔试和初试评价都很高,最终终试的时候评价特别低,就是被判断觉得潜力不够,没有钻研精神,对新技术新领域没有兴趣,不愿意深入思考,不愿意主动学习。

总有同学会问类似的问题:你们公司是不是特别看重学历和毕业院校,是不是只招211,985高校的学生?我第一次听见这些问题还好,后来经常听见类似问题。

我发现一个规律:问这些问题的人,一定不是985或者211高校的学生,而且问这些问题的人,内心又有着无限的自卑,总是觉得别人会看不起自己。

其实换一个角度看就会明白,笔试和面试是为什么?不就是在筛选么?重点大学已经帮助做了一些筛选了,所以某些公司只看学校也是正常的。关键在于自己有实力,公司错过了,是公司的损失。

还有应聘者非常强调自己的学习能力,说自己最大的优势就是学习能力强。在所有同学的简历中,绝大部分的同学都会写自己的学习能力强,所以这个不要做为一个特点。

过程中,一再重点强调自己学习能力强的学生,一般都是能力不行的,当自己能力不够强的时候,才会这么强调自己学习能力强。聪明一点的学生,都不这么说,他们只需要讲述一些例子,让面试官得出一个结论:这个学生学习能力强,适应能力强。

很多公司面试,其实没有笔试环节,大多是通过简历筛选,然后通知面试。一些同学希望自己的简历脱颖而出,搞得很特别,出发点不错,但经常适得其反。因为你不知道面试官是什么性格,你搞得花花绿绿,有人觉得漂亮,也可能有人觉得太浮躁。

如果你条件还可以,简历格式还是普通一点比较好,不要剑走偏锋。也不要用招聘网站上模版一样格式的简历,很容易被忽略掉的。比较好的简历,不求高端大气上档次,但求低调奢华有内涵。建议不要有表格,用word写个两页比较合适。

内容方面也有要考虑的地方,有大面上的介绍,还要有重点的描述。把一些关键词放进去,否则搜索筛选简历不会进入视线。然后重点介绍自己最擅长的部分,一定是最擅长的,因为面试官一定会问简历上的相关问题。

如果做好了,简历可以做为一个钩子,引导面试官问你一些问题,你要是准备好了答案,在答案中再准备一个钩子,让面试官问下一个问题……

还有一个最关键点,针对你要面试的公司做简历修改。一般公司都有岗位描述,他们需要什么样的技能,你就重点描述什么样的技能。不要所有公司投递的简历都是一样的。

还有的同学,除了准备点技术问题以外,其他的一概没有准备。不知道公司背景,不清楚公司业务,然后嘴上还会说,对这个公司非常感兴趣,非常希望加入这个公司……这种人很容易就被刷掉了。其实花半个小时去了解公司背景和主要业务,哪怕只看一些新闻,也会增加面试官的好感。

如果希望加入一家公司,建议去多用这个公司的产品,关注公司所在的行业,经常看看这个公司的新闻,想办法去认识一下公司内部的人,了解一些情况。没有认识的人怎么办?现在微博、微信这么发达,甚至还有陌陌、来往,你还找不到人么?

还有A来阿里之前,也请教了不少学长,了解了之前他们来阿里面试的经验教训,比如需要自我介绍、有什么可以证明你的数据分析能力强、了解哪些机器学习方法、为什么会选择数据分析岗位、以后的职业规划是什么、以及薪资方面该怎么去谈。

到了指定的会议室,A见到了那个熟悉的成熟男人的声音。见到本人,还是和A印象中的形象不太一样,面试官显得很自然,聊了聊之前A做过的case,就聊到A怎么坚持经常研究数据相关的技术和内容的时候,A眼中泛起了亮光,说自己对数据分析这块特别感兴趣,本身自己数学方面也是有些天赋,然而也相信数据能够改进公司的经营状况,数据对于未来社会的重要性。数据其实一直都有,只是之前没有办法利用起来(当然近些年的数据量也绝非10年前可比,这两者是互相促进的)。传统来说,大家都是用数据库存储关系型数据,而传统的关系型数据设计上有一些限制,比如因为一致性无法方便地拓展。就算不管用不用数据库分析,也大多都是单机,数据大一点也许要跑好久,海量数据就基本歇菜。而且数据一旦是非结构化的,比如网络的访问日志,甚至爬虫爬来的网页本身,都没法很好的用传统的分析手段有效分析。其实也不能说完全不能,只是手段未免繁琐,需要耗时耗力的预处理,分析起来可能也要专家经手或者难以维护。对一般的公司,那些非结构化的海量数据,类似贫矿,不是没有价值,只是如果提炼成本大于结果,那挖掘就没有意义了。10年前,说大型数据分析你想到什么?银河号计算机?基因组网格计算?都是高帅富的手段。那时候要分析海量数据,没什么屌丝手段。那时候分布式计算的设计和开发模型也远比现在MapReduce这样的简化模型要复杂,称得上火箭科学。我没有考证过是谁“开启”了大数据时代,不过在我看来,MapReduce模型,非结构化非强一致性数据系统之类的,这些屌丝手段的诞生,让火箭科学变得象烤串一样人人都可以负担得起了。你不用租银河超级计算机,不用找专家来费劲规范化并导入数据再分析,不用设计复杂的分析软件,不用IOE(IBM/Oracle/EMC)的产品(其实很多情况下,数据太大,就算IOE,常规手段也撑不住的),只要经济实惠的普通pc,买个几百上千台,架上hadoop,就能开挖数据了。而且MapReduce的编程模型也极其简单,数学系统计系出身的非码农也能随时学会没商量。再加上Hive之类的辅助系统,就连你家市场部妹子都能随时敲个SQL看看当天的用户反馈。现在的大数据,不是火箭科学,而正相反,是屌丝技术,人人都用得起的技术。正因为他的屌丝性,所以以前完全无法利用的贫矿,非结构化,噪音超多的海量数据就可以被很多屌丝公司有效利用了。通过分析,你可以挖出所有用户的口味偏好并准实时更新推荐列表,你可以知道搜索关键字的热点变化趋势,你可以知道正在访问某网站的某用户更适合看什么样的广告。这些在以前,如果不是专门花大价钱找牛人搞系统,买牛逼的ETL和分析系统,单用经济实惠的软硬件方案解决是无法搞定的。这就是大数据的真正意义。如果能够对数据进行合理的开采,那就是财富,来促进业务的发展。

对面成熟的面试官听完,内心也被A的这股热情感染,分享了下自己之前在大数据这块的从业和创业经历,之前一直在wind做股票类数据,A因为之前想通过大数据来预测股票,所以也了解到wind,在国内市场wind基本上包含了90%的中国证券公司、基金管理公司,wind自己也有一套大型金融工程和财经数据仓库,A隐约的感觉到以后金融领域的数据会成为大数据的一个很热的点。后来出来了在外面创业,专门给政府机构和朋友公司做市场调研和数据分析培训。A说道,自己以后也想通过这些方式来推动整个数据行业的发展。

聊了大约2个小时,面试官安排HR再来沟通下,进来的HR看起来是个外表很清秀的男人,HR就聊到,之前在上家公司主要做什么,如果能来阿里的话最快能多久到岗。A隐约的感觉到面试要拿到offer的节奏,A自己也说道,如果就是不能来阿里,自己也会在数据分析这块领域好好做,通过数据分析来改善公司的业务。HR听完之后,直接和A说了下这个岗位的级别和薪资,问了下A还有什么问题,A心中突然很开心。一时半会也想不出什么问题,表达了下感谢之情。

快到下午傍晚的时候,整个面试的环节终于结束了。A深深吸了一口气,如释重负,第一个给老妈打了个电话,通知了好消息。

回到上海,A面临着一个新的问题,就是如何面向ZJM,如何说明自己的这个情况。

-----------------2015.10.31更新-----------------------------------------------------------------------------------------------------

第二天,A早上主动和HR聊了下这个情况,HR回复下午具体谈一下。下午,HR还有ZJM,一起约到楼下的咖啡厅,聊了聊,表示都希望A能够留下。A自己内心深处去意已决,希望自己能够在阿里这样的公司给自己更多的锻炼机会,所以大家聊的也很愉快。ZJM让A做一下工作交接,然后把数据部门以后可能会怎么发展交代一下,希望A以后多来坐坐,A自己内心也知道,如果换了公司换了城市,就相当于换了一个新的环境,一个新的社交圈。

A把自己数据部门需要以后需要发展成多大的团队,有多少数据仓库工程师,多少ETL工程师,多少做算法的,多少做数据分析以及数据产品经理都和ZJM说了一下,ZJM也表示希望A能推荐一些靠谱的朋友或者同事同学来。

办完最终的交接和离职手续后,A眼看还有一周时间才去杭州报道,就选择回了一趟老家休息下。

美好的时光总是短暂的,A背起了行囊,按照行政同事安排的酒店和路程,奔赴往杭州。

了解杭州,就要先了解西湖。西湖名声太大,几乎要掩盖杭州其余的一切,提及杭州,这是标志性的符号。但西湖之外,毕竟还有良渚、南宋遗址、大运河,以文化眼光来看,这三项的质量都是世界级的。1、先秦的大遗址中,最受游客青睐的估计还是四川的金沙、三星堆,但相较之下,良渚绝不逊色,其开发、保护、展示的理念,在国内称是首屈一指并不过分。随着良渚古城等越来越多的考古发现,良渚遗址已经从地域性的考古学文化类型升级成为探讨中华文明起源最重要的史前大遗址。当然,由于良渚遗址一定程度上的专业性,其价值较难为普通游客所了解,但相信不久的将来,良渚会像西湖一样为人熟知。2、杭州先后为吴越、南宋两代都城,在国内古都中,论其建都的资历、时间、跨度都是三流的。但是唐宋之交,中国城市形制的大变革,却是由开封和杭州共同完成的;南北之间,经济、文化力量对比的最终改变,杭州也可说是起到了关键作用。今天可见的南宋遗址恐怕不多了,能见的几处,在视觉上并不具有多强烈的震撼效果,但是要了解一座城市,不只是看看山水,更要看山水背后的人文历史。3、杭州是京杭大运河的起讫点,但保存完整的遗存却并不多见。良渚或许是死的,南宋皇城或许也是死的,西湖以一个文化的意象活在中国人的精神世界里,那么大运河则是实实在在地活在看得见、摸得着的日常生活里。(申遗运河的杭州段有很多本地人不熟知的地方,除却拱宸桥,还有祥符桥、塘栖广济桥、凤山门、西兴、洋关等等;前几日去看闸口白塔,又发现一处龙山闸;西兴第一次去,也是很有风味的古镇,周边环境虽已无古风,但整治之后,还是有望成为杭城钱江以南有份量的遗存。)以游客心态看杭州,除了西湖外,起码还有良渚、南宋遗址、大运河这三张世界级的名片,实际上这三处也都是杭州申报世界文化遗产的项目。

但是游客的眼光只能支撑一次两次的猎奇游览,之后要靠什么爱上这座城市,对国内很多千篇一律的城市来说,这个问题是无解的。所幸杭州还是精致的,在景点之外,你可以看到很多温暖闪光的地方。比如公共自行车。杭州是国内最早推行公共自行车的城市,发展至今,已经有了一套国内最成熟的公共自行车系统,凭借其极高的使用率、密集的网点分布、人性化的自助借还、低廉的使用费用(近乎免费)入选BBC评选的全球最佳公共自行车服务城市,并列的有伦敦、巴黎、华盛顿、墨尔本。能够把一个公共项目,做成世界级的水准,能和传统的旅游业、“时髦”的环境保护、现实的交通问题等等结合起来,给出这样的解答,杭州是一个典范。比如免费的博物馆。2004年浙江省博物馆率先对游客免费开放,成为国内最早免费开放的省级博物馆,并且在几年以后掀起了全国范围内的博物馆免费风潮,并最终落实为国家政策。免费不是省去几块钱的门票,而是在这背后,可以看到对文化教育的重视。(浙博、杭博、丝博、良博、浙美、南宋官博都是常客,不赘述了,前日发现玉皇山下竟还有个杭帮菜博物馆,山水之间,佳肴美馔,不亦乐乎。)比如一流的图书馆。每到一座城市生活,要去办一张当地的借书卡,见过首图、广图、鄂图好几个更新更大更“现代”的图书馆,但在读者体验上,没有一个比得上更老更旧也更小的杭州图书馆,足够的借书数量、无处不在的无线网络、细心的照明设计、精确的图书定位、实用的电源设计、便利的自助借还、明确的功能分区……新馆造好这么多年,没有见到很多面子工程那种不可避免的衰败气象,而是一直在变得更好、更完善、更人性化,对图书馆的管理、维护,以及开放服务的理念,就目之所及,国内没有哪一个图书馆比杭图更好。(浣纱路的杭图老馆,改造以后的老馆非常舒适,甚至比钱江新城的馆区更吸引人。原因很简单,没有钱江新城那种身处高楼的一本正经和严肃,而是隐藏在周边的社区之中,自然纯朴、非常亲民。以前去澳门时羡慕澳门人有个很赞的隐藏在社区中的何东图书馆,现在觉得浣纱馆也毫不落后。)比如让路的公交车。国内很少遇见车辆在斑马线前给行人让路,但是在杭州,大概经历了七十码的惨痛教训,交通部门花了很大的精力整治交通,今天在杭州过马路,基本不用担心汽车与行人抢道,甚至在西湖边遇到过一次公交车在对面车道上停车礼让行人,在太多城市感受过汽车横冲直撞的惊心动魄之后,没有理由不因杭州而感动。

比如运河上的巴士。运河一直是活着的,每天都有不计其数的轮船航行其上,而杭州的几条运河巴士线路,不仅票价便宜,更让人感到趣味的是利用文化遗产的本来功能来解决现实的城市交通问题,也正是因为这样的水上巴士,让人感觉城市是灵动的,人与文化遗迹之间、历史与现实之间,是有关联的。

另外,杭州是唯一一个时刻注目着太子湾的郁金香、曲院的夏荷、满觉陇的金桂、超山的梅花,并且总把这些花开花落当作新闻头条的城市。其实要了解一座城市,要爱上一座城市,历史底蕴、人文环境、自然生态当然十分重要,但是真正重要的是这个城市每天都有新的惊喜在等待你——你会发现有厕纸的公厕越来越多,发现斑马线前越来越多私家车也开始礼让行人,发现熟悉的小路旁新开了家博物馆,发现图书馆的借书额度增加到20本,发现你曾经不满的逐渐被改变,曾经期待的逐渐成现实——你会不停地发现那些平常生活中闪动的脉脉温情,发现人与人之间的美好,感受到人与环境之间的和谐,感受到城市给人带来的更多是幸福,眼中的杭州就是一个让人感到幸福的城市。

A到了酒店,好好在杭州休息、大吃了一顿。

第二天,来到公司报道,公司HR安排了一天的入职培训,有包含环境的熟悉、有哪些部门、有哪些规章制度、有哪些流程规范、阿里的前世今生、阿里的价值观等课程。让A印象最深刻的就是那段淘宝小二的录音,播放的是一个客户很急,不停的在骂小二,而小二怎么解决这样的情况。这让A顿时觉得小二都做的很不容易,毕竟自己大学的时候也曾经试过做电话销售,发现那段时间压力都很大,每天回寝室倒头就睡。而大数据开发的智能云客服功能,这个功能真的是时代所需,太需要有这样的服务来协助小二服务客户,来给用户带来最快捷的服务指导,给产品带来更好的用户体验服务。

接受完入职培训和领完电脑和文具之后,师兄负责给A讲解了下目前部门的具体情况,目前在做的事情。A感觉阿里和一般公司情况不同,首先在公司的氛围上,整个公司很热闹,每个人都在忙着电话沟通或者在写PPT或者在码代码,整体节奏感觉比之前的公司节奏都要快。第二就是同事之间的相处,更像是大学同学时期,相处的比较单纯,讨论的都是具体的业务问题。第三就是因为公司很大,所以在接触高层的意见上感觉比较遥远,阿里的18罗汉就像是人们心目中的英雄成为了传说。这应该就是A来到阿里的第一印象吧。A在来阿里之前就听大家说,阿里加班很多,阿里KPI很严重。来到之后,应该来说也是有自己的一番理解。

和在上海生活节奏不同的是,之前在上海一般6点大家就下班回家了。而来到杭州,大家晚饭基本都选择在公司就餐,吃完出去散步下继续回公司加班,这也许就是阿里的情况吧。刚开始A还是有些不太习惯,后来也渐渐适应了这种时刻保持工作的状态。

接下来得两个月,A开始了忙碌的工作,要开通的数据权限,需要了解的业务模式,认识部门的各个同事,以及要制定自己试用期大约要完成的KPI目标。杭州的数据分析交流的机会还是比较少,阿里的数据分析交流也基本都是在公司集团内部。所以A平时在业余的时间就赶紧把之前大神们讲过的数据分析案例还有分享的分析方法、故事都学习了起来。而带领自己的师姐,也是一个阿里的老员工,在阿里做数据分析已经有5年多,A细细观察了师姐平时的工作,基本上也还是在支持业务的查询工作。这个又遇到了大家之前遇到的问题,数据分析天天需要查基础数据怎么办,数据分析师成了写SQL还有什么出路。像这样的情况,A自己也在思考如何避免这样的基础数据查询阻碍了自己的发展,幸好的是,还有师姐带领着,所以一些业务部门来的需求师姐基本上都帮A写好了,所以A很快就掌握了一些基础数据的情况。而接下来主管要求A能够参与到具体的项目中去,A先找到业务部门了解了下目前整个大的业务发展情况,以后的规划和发展方向,以及现在需要做哪些工作。后面主管继续给A安排了数据业务化、数据产品等方面的工作,A顿时觉得一下子工作量巨大,但自己心里想象刚开始的三个月注定要辛苦一番。就这样,A在这三个月过的很充实,也基本上没有和外界有什么联系。试用期结束,A回顾了一下自己这三个月的最大感觉,就是出现在阿里价值观里的一条“拥抱变化”。包括时刻可能会换的团队、同事,包括业务的发展方向,包括整个公司的组织架构变化,整个公司还是保持着创业团队的风格和做事,并没有因为大公司的条条框框所牵绊着,而自己作为一名刚入职的,要学会主动,没有人会来给你安排工作,你需要自己主动去了解业务,了解数据,来给自己的工作做安排。这些都给A留下了深刻的印象。

-----------------2015.11.1更新-----------------------------------------------------------------------------------------------------

金融原来可以这么玩

要说这一年什么词最火,无疑就是“大数据”“云计算”“互联网金融”,不管是传统的银行、金融机构,还是如雨后春笋般发展起来的P2P、XX宝、产品众筹、股权众筹、股票合买、信用贷款、车贷房贷等,大家都放佛看到了这块蓝海。如果你还没有参与到互联网金融来,感觉自己都out了。

互联网金融是传统金融行业与互联网精神相结合的新兴领域。从广义上讲,凡是具备互联网精神的金融业态统称为互联网金融。而从狭义的金融角度来看,则应该定义在跟货币的信用化流通相关层面,也就是资金融通依托互联网来实现的方式方法。

理论上,任何涉及到广义金融的互联网应用,都应该是互联网金融,包括但不限于为第三方支付、在线理财产品的销售、信用评价审核、金融中介、金融电子商务等模式。

而互联网金融最早的概念提出者谢平教授认为,以互联网为代表的现代信息科技,特别是移动支付、云计算、社交网络和搜索引擎等,将对人类金融模式产生根本影响。互联网金融模式在未来20年将成主流。

目前来看,互联网金融包括第三方支付、P2P小额信贷、众筹融资、新型电子货币以及其他网络金融服务平台。

所谓第三方支付就是一些和产品所在国家以及国外各大银行签约、并具备一定实力和信誉保障的第三方独立机构提供的交易支持平台。在通过第三方支付平台的交易中,买方选购商品后,使用第三方平台提供账户进行货款支付,由第三方通知卖家货款到达、进行发货;买方检验物品后,就可以通知付款给卖家,第三方再将款项转至卖家。

目前获得第三方支付牌照的企业累计已有223家 ,其中有我们熟知的支付宝、财付通、快钱、北京银联、快付通、汇付天下、拉卡拉、网银在线、钱袋、盛大支付等。

P2P小额信贷是一种将互联网、小额信贷等紧密联系的个人对个人的直接信贷模式。目前国内的P2P融资平台有宜信网、人人贷、拍拍贷等。通过P2P网络融资平台,借款人直接发布借款信息,出借人了解对方的身份信息、信用信息后,可以直接与借款人签署借贷合同,提供小额贷款,并能及时获知借款人的还款进度,获得投资回报。

这种业务雏形可以追溯到最早的个人互助借贷模式:北美华人社区的“标会”或“台会”,亲戚、朋友及社会团体之间通过小额信贷来解决对资金的燃眉之急。

众筹融资,是通过社交网络募集资金的互联网金融模式。众筹,就是集中大家的资金、能力和渠道,为小企业、艺术家或个人进行某项活动等提供必要的资金援助。

众筹的兴起,源于美国的大众筹资网站Kickstarter,该网站通过搭建网络平台面对公众筹资,让有创造力的人可能获得他们所需要的资金,以便实现他们的梦想。这种模式的兴起打破了传统的融资模式,人人均能通过该种众筹模式获得从事某项创作或活动的资金,使得融资的来源者不再局限于风投等机构。

新型电子货币如今在网络盛行,如比特币。比特币是一种无中央发行方的,基于网络运算产生的、开源的匿名新型电子货币。不同于早期电子货币形式(如虚拟货币,预售电子卡)。

它起源于2008年一位网名为中本聪(Satoshi Nakamoto)的黑客发表的一篇论文,描述了比特币的模式。它是世界上第一个分布式的匿名数字货币,只能被它的真实拥有者使用,而且仅仅一次。支付完成后,原主人即失去对该份额比特币的所有权。它更多代表的是未来一种货币发展趋势。

互联网金融有三个核心部分:支付方式、信息处理和资源配置。

支付方式方面,以移动支付为基础。个人和机构都可在中央银行的支付中心(超级网银)开账户(存款和证券登记),即不再完全是二级商业银行账户体系;证券、现金等金融资产的支付和转移通过移动网络进行;支付清算电子化以替代现钞流通。

信息处理方面,在云计算的保障下,资金供需双方信息可以通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。

资源配置方面,在供需信息几乎完全对称、交易成本极低的条件下,互联网金融模式形成了“充分交易可能性集合”,诸如中小企业融资、民间借贷、个人投资渠道等问题就容易解决。

总之,在互联网金融模式下,支付便捷,市场信息不对称程度非常低,资金供需双方直接交易,不需要经过银行、券商和交易所等金融中介。

在全球范围内,互联网金融已经出现了三个重要的发展趋势。

一、移动支付替代传统支付业务

随着移动通讯设备的渗透率超过正规金融机构的网点或自助设备,以及移动通讯、互联网和金融的结合,全球移动支付交易总金额2011年为1059亿美元,预计未来5年将以年均42%的速度增长,2016年将达到6169亿美元。

二、P2P小额信贷替代传统存贷款业务

其发展背景是正规金融机构一直未能有效解决中小企业融资难问题,而现代信息技术大幅降低了信息不对称和交易成本,使P2P小额信贷在商业上成为可行。

三、众筹融资替代传统证券业务

众筹融资是最近两年国外最热的创业方向之一。2012年4月,美国通过JOBS法案,允许小企业通过众筹融资获得股权资本,这使得众筹融资替代部分传统证券业务成为可能。

未来互联网金融将与大数据相互融合,达到与现在直接和间接融资一样的资源配置效率,并在促进经济增长的同时,大幅减少交易成本,简化操作,提供一站式服务。

(1)雪球

也就是从这时候起,A才算是真正的进入互联网金融,了解到金融的另一番面貌。身边的同事、朋友聊的最多的就是你买了哪只股票、最近什么股票又跌了、有没有什么样好的投资理财产品等。这些声音或多或少的影响着A,每天A也会打开同花顺,挑了一些自己感兴趣的股票关注了下,后来听到WQ说雪球不错,WQ在雪球上有个大号,有很多粉丝。A也在手机上安装了雪球的app。最初雪球的网站上都是些美股方面的信息,后来添加了社交功能吸引了不少大牛的到来,以及后来还可以在雪球上直接开户下单。

下面是引用的雪球创始人方三文的一篇介绍:

从开始做雪球的第一天起,我就常常被问及一个问题:雪球的参照物是什么?每当被问到这个问题,我都有点为难。好像我们经常听到的创业故事里都有一个美国蓝本。创始人对这个蓝本进行“中国式加工”,成功做出一款属于自己的产品。

但是雪球的确没有美国蓝本。我都有点不知道应该怎么讲我的创业故事了。所以我干脆讲讲我作为一个普通投资者的故事吧。

一名普通投资者的需求

2006年,我还在另一家令人尊敬的公司工作,因为公司给我发了一点期权,我渐渐对投资股市产生了兴趣。作为一名股票投资者,我有两个基本需求。

第一,我要跟踪我关注的股票,查看它们的价格涨跌、看跟它们有关的新闻,偶尔也看几眼分析师报告。第二,我对别的投资者在想什么、看什么也很感兴趣,我希望和跟我关注同一家公司的投资者交流,看看解他们对公司的看法跟我有什么不同、他们的信息和思维有没有我未曾触及的地方。

当时我有什么服务可选用呢?界面塞满花花绿绿的“K线图”的炒股软件,根据编辑判断而不是我的需求编排的财经新闻网站,挤满了我素未谋面、但自称有“内幕消息”的股民的聊天群,以及银行向我推销的各种号称能满足我“个性化需求”的投资理财产品……

我虽然接触投资不久,直觉却告诉我,这些服务都满足不了我的需求。

既然如此,那我为什么不自己做一个呢?

这就是我做雪球的出发点:我相信有这些需求的投资者远不止我一个,并且认为有更好的方法来满足这些需求。

如何个性化

现在是信息过载的时代。因此我首先要解决的,就是信息个性化的问题。

正如前面提到,我第一希望关注我感兴趣的股票,第二希望关注我感兴趣的人。因此信息个性化其实就包括了这两方面:订制化的信息(公司新闻、公告)和订制化的投资者讨论。

只关注自己感兴趣的股票信息和用户发言,无非是为了提高读取信息的效率。因为雪球从一开始就是一个投资的、垂直的社区,我们有股票代码这种天然的标准化标签。所以我们无非是把和某家上市公司相关的新闻、公告准确并实时地送达到用户面前,把用户关注的人的发言一条不漏地推送给用户,甚至允许用户屏蔽他们不想看的人。

这样,通过大家已经很熟悉的 follow 匹配关系,雪球就满足了传统财经网站无法满足的信息个性化需求。

“有水平”的交流

如果事情真这么好搞,也许我就不用做这件事了。完成了个性化以后,我又发现了一个新层次的需求。

事实上,几乎所有人都倾向于只跟水平比自己高的人交流,比如大家都乐意跟微博上的“加V大号”对话、期待他们的回复。但你有没有想过,为什么“大号”们会愿意搭理我们这些普通人呢?

我想大概是因为,世界上根本没有可以用来衡量水平的靠谱标准。“水平”本身是一种主观认知,它是动态而且个性化的。这有两层意思:第一,没有人能够精通所有领域,在某一领域,他不懂的、你可能正好是专家;第二,你以前不懂的,不代表现在不懂;他原来懂,现在认识可能已经过时,你正好来补充。

这也是互联网最牛的地方,它通过“众包”、而不是几个专业人士来解决很多问题。

而雪球作为一个借助了互联网这一优点的社交网络,我们能做的是,在尽可能完整客观地呈现一名用户的特点,并且保证用户自由选择的权利。你可以动态选择自己应该关注什么人,通过持续和他们交流,知道哪些人最可能解答你哪方面的问题。这也许是帮你找到“高水平”的人交流的唯一方法了。

补充一句,这也是为什么在雪球,职业身份(“加V”)往往不太重要。我们相信专业和高水平与否,并不是和你的职业挂钩的。

UGC 为什么有价值

在创办雪球之前,我曾经从事过8年的媒体工作,这个工作,主要是靠特定的人(记者),特定的工作(采访)去接近真相。从事这个工作越久,我对自己离真相的距离,越来越没有信心。同时,信息在传播过程中,用户的参与起到的校正、补充作用却令我惊讶以至惊喜。所以我越来越倾向于认为: 信息在传播的过程中一定不能断开与发布者的链接,而最有价值的内容,往往是用户产生的,这就是所谓UGC。

为什么UGC 必将比职业工作者生产的内容(PPC)更有潜力和价值?

让当事人直接说话,而不是通过信息采集者转述,可以缩短传播链条,避免信息在传播过程中的变形、延时;由于信息提供者数量惊人,UGC 在空间、时间都能实现超大覆盖,完胜任何一家有财力实力的媒体;得益于信息提供者的持续参与,他们还起到了信息筛选和动态更新的作用,完胜任何一名勤奋的专业记者。

雪球是一个针对投资者建立的社区。我们的用户生产内容还有一个潜在的“动机优势”——用自己的钱投资的专业投资者,相比仅仅以投资服务为工作的人更专注,也有更强的动力去寻找高质量信息,所以更可能提供靠谱的内容。而出于“排雷”、对信息证实或证伪的需要,他们实际上也有很强的动力将信息分享出来。

仔细想想,投资者过去之所以依赖职业工作者发布的内容,很多时候并不是因为这些内容专业、高水准,而是因为这些职业工作者把持了发布渠道。但随着社交媒体的兴起,发布渠道开放给了所有人,用户生产内容的时代来了。所有人都可以说,所有人都可以选择听谁说和不听谁说。

当然,UGC 的繁荣也带来了新的问题。用户生产内容大部分是以碎片化形式存在的,信息多了之后,我们就发现,想看的新闻找不着,重要的公告可能漏掉了。于是雪球又用算法、通过“信息-人-股票”的链接,将有用的信息筛选留存在用户个人页和个股页上。

什么意思?简单来说雪球做了这两件事:当用户访问别人的个人页时,他能迅速看到这名用户最擅长讨论哪些股票;当他浏览一只股票的个股页面时,他能迅速看到关于这家公司最热门、最精华的讨论是什么。这种机制能有效的关键,是用户互动行为。用户越多,生产的内容积累越多,雪球的价值就会越高。

雪球能帮用户赚钱吗?

说到这里,你可能已经忍不住要问我,哥你说你做了个投资社区,那它到底怎么帮用户挣钱?

很抱歉,只能说这并非我做雪球的初衷或愿景。如果你指望能从雪球上找到一个“高人”,他告诉你买某只股票,你买入,立即收益翻倍——那么,我不但建议你永远不要加入雪球,也永远不要进入资本市场,您还是更适合去拉斯维加斯。

有人可能对这样的期待“习以为常”。因为在过去很长的时间内,投资服务行业的商业模式都是基于这种不切实际的幻想的:投资者出于让别人送钱给自己的良好愿望,把钱送给了别人,于是有了无数满足这种“刚需”的投资服务机构和网站。

雪球是永远无法满足这种需求的,无论这需求有么多强劲。恰恰相反,雪球的存在,就是要告诉大家,这种想法有多么一厢情愿。

说到底,我做的其实是一个“社交投资网络”。它不荐股,依靠用户生产内容,让喜欢独立思考的投资者都聚到这里,一起研究公司、聊聊投资——这就是雪球。如果说我做了那么一点创新,也许就是我选择了用互联网来做这些事吧。

哦对,这大概就是我的“创业故事”了。

雪球又融资了。

很多朋友对我表示祝贺。其实,融资没有什么好祝贺的,融资都是没有办法的事,说明没有外部输血公司还活不下去,不融资而公司赚钱才是值得祝贺的。从另一个角度看,投资人愿意拿几千万美元投资上线将近三年,还没有一分钱盈利的雪球,他们看中的价值会是什么呢?我说说我的理解。

首先来看行业。雪球是互联网在投资行业的一个应用。互联网产品都是互联网在各个行业的应用,比如QQ是互联网在通讯领域的应用,微博是互联网在媒体领域的应用。

现在,特别基础的领域,比如通讯、搜索,都被大公司占领了,现在新创业的公司,大部分都往更加细分垂直的领域发展。选择不同的领域,很大程度上决定了互联网产品和互联网公司的商业价值。什么是好的领域呢?一般的规律是终身需求优于阶段性需求,比如交友是终身需求,结婚是阶段性需求;高频需求优于低频需求,比如商务出行是高频需求,休闲旅游是低频需求;高客单价需求优于低客单价需求,卖化妆品肯定比卖书好。

我觉得投资是为数不多的终身、高频、高客单价需求领域。

雪球选择投资领域之后,具体在这个领域做了什么呢?我们花了将近三年的时间,做了一个投资者的社区 (雪球) 。跟我们同时期进入这个领域的同行,大部分都卖理财产品、p2p贷款去了,很快就做出了很靓丽的销售业绩。雪球做了一个百万用户,却还一分钱不挣的社区,雪球是搞错了吗?我们回到原点来,互联网对于投资,到底可以做哪些事情?在做雪球之前,我有一个简单的分析,大概是三个事情:

交易。其实互联网最早的应用之一,就是证券交易。现在银行、券商的交易业务,已经全面互联网化,新创的互联网公司,在基础交易方面能创造的增加值不多。

数据。包括查询行情、数据、资讯,这过去是由鼓博、万得、门户网站等提供的,它的业务基础是人力。新创的互联网公司能创造的增加值也不够多。

除这些之外,还有哪些投资者的强需求是互联网可以更好地满足或者优化的呢?我认为是交流,这才是互联网能在投资领域创造最大价值的环节。

投资是一个需要极大信息量、极强的逻辑推演的事情。无论多么高明的投资者,在作出一个投资决策的时候,都面临着信息死角和思维盲区。不特定的投者之前的交流,能够有效地扫荡投资者的信息死角和思维盲区,减少投资者面对不确定性时的惶恐。互联网社交产品使不特定的对象之间的交流成为可能,而基于用户间follow关系的投资者社区,又能够帮投资者选择自己的交流对象,提高交流效率。雪球正是这样一个社区。社区的建设极其艰难,它不但需要互联网产品技术做支持,也需要定位清晰的运营。一旦社区形成规模和稳定的气质,它就很难被模仿和超越,所以是一个比交易和数据更可能形成护城河的业务。到目前为止,我不敢说雪球已经形成护城河,但要模仿它,确实也不是一件容易的事。

投资者之间的交流会产生后续产品:内容和社交关系。你在雪球点开每个投资产品的页面,都可以看到投资者围绕它产生的海量内容,这些内容能够把投资产品的收益、风险等特征提炼出来;你在雪球点开每个投资者的页面,都可以看到他关注哪些股票,喜欢讨论什么行业,交易风格是怎样的。如果投资产品的特征和投资者的偏好能够匹配,则交易有可能撮合成功。

频繁的交流会产生社交关系,社交关系会产生信用。传统的金融产品销售都是通过某种程度上的增信完成的,比如银行可以说是牌照增信最后担保人增信,线下的第三方销售靠的是人肉增信。线上社交产生的信用,在其他产品的销售上已经有很好的应用案例,它一定也可以应用在信用最为稀缺珍贵的金融交易上面。匹配和增信做到了,离交易就是一步之遥了。所以也可以这样说,做社区本身并不是目的,做交流也不是目的,让交流服务于交易才是最终目的。这是雪球已经做和正要做的事情,大概也是它的价值所在。

(2)招财宝

与此同时,常泡水木社区的A也看到了大家在讨论招财宝这款产品,讨论的都是招财宝变现的事情,频繁的买入卖出可以赚取中间差额的利息。第一,在不变现的基础上,你就是买了一个和在银行购买的理财产品,收益和风险相当,这个没什么好说的,在现有的金融背景下,理财产品是新时代的“定期存款”。第二,在变现的情况下,注意了这一块是产生争议的重点了。简单的说,变现就是你用自己购买的产品为抵押向其他人贷款,这里有两个债权关系:你和产品公司(各种保险啊基金啊);你和借给你钱的众多招财宝用户里的一个。注意了,不要以为你变现了之后就和你购买的产品没关系了,也不要以为你和你的债主没有关系了!你购买的产品一直都在,直到合同期满,对方还款还息。另外你变现的钱不是招财宝公司的,他们就是个拉皮条的掮客,从中收取佣金,只是还算有良心收得很少!那么谁有钱借你呢?广大的放高利贷者啊,呵呵,就是广大余额宝用户啦,既然是借钱那就得还款还息咯,所以在完成变现的那一刻起,你就已经是一个债务人了!

然而好景不长,现在的招财宝因为保监会的限制不得不下架万能险产品。

(3)私募

也是在一次偶然的机会,A认识了做私募的金先生,金先生是一家私募公司的CEO,出来创业1年多,公司发展的很快,半年已经发展到30人的团队,公司也从浙江搬到到上海。

金先生给A介绍了私募这块具体做什么。私募对应公募。公募的意思就是公开募集,比如IPO,配股、增发这些,都是公开募集。银行吸收存款,其实也是广义的公募。在中国,习惯是用私募来简称私募基金,就是所谓的PE。可是,其实除了私募基金以外,还有私募市场。区域性的股权交易市场,就是私募市场,里面的行为,大部分都是私募的行为,简单来说,就是因为不是面向社会公众,所以就不用公开信息披露。因为私募基金先进入中国,所以大家就用私募来直接指代私募基金了。这种先入为主,就像热力学第一、第二、第三定律发明以后,又发现了还有一个定律,是这几个的基础,甚至就是温度计的工作原理,这个定律才应该叫第一定律,但是第一已经被别人占了,所以就半推半就的起名“热力学第零定律”。可是第零这种排序,好高冷的行吗,所有的人都会以为第一定律才是第一行吗?这些先入为主还能在一起好好排序吗?所以,不要高(zhuang)冷(bi),从我做起。私募应该是一直行为的描述,就是对非公开募集的行为描述,参与的资金,叫私募基金,活动的市场,叫私募市场,如果用私募形式融资可以是发行私募股权或者私募债券等等。在股票市场的定向增发,也是非公开发行,也是私募行为。

举两个例子:小李有一笔钱,他看到某基金公司有个在某网站宣传某基金,觉得不错于是投钱。这就是公募。同样是小李有一笔钱(100W)以上,他的好友小王准备开一家基金管理公司,小王找来小李跟他说了公司投资方向(比如PE,VC,或者二级市场)小李决定将钱交给小王投资,这个就是私募了。公募私募具体其实就是指资金的来源途径。而PE,阳光私募,VC等等是指钱投资的方向。

(4)量化交易

接触到量化交易的时候,是在一个上海的数据分析群里,有一个网友就经常晒自己的程序化交易的收益,讲机器做股票交易收益稳定、风险较小。A就和这位网友聊了起来,这位网友也很热心,介绍量化投资技术包括多种具体方法,在投资品种选择、投资时机选择、股指期货套利、商品期货套利、统计套利和算法交易等领域得到广泛应用。在此,以统计套利和算法交易为例进行阐述。

a、统计套利。

统计套利是利用资产价格的历史统计规律进行的套利,是一种风险套利,其风险在于这种历史统计规律在未来一段时间内是否继续存在。

统计套利的主要思路是先找出相关性最好的若干对投资品种,再找出每一对投资品种的长期均衡关系(协整关系),当某一对品种的价差(协整方程的残差)偏离到一定程度时开始建仓,买进被相对低估的品种、卖空被相对高估的品种,等价差回归均衡后获利了结。

股指期货对冲是统计套利较长采用的一种操作策略,即利用不同国家、地区或行业的指数相关性,同时买入、卖出一对指数期货进行交易。在经济全球化条件下,各个国家、地区和行业股票指数的关联性越来越强,从而容易导致股指系统性风险的产生,因此,对指数间的统计套利进行对冲是一种低风险、高收益的交

易方式。

b、算法交易。

算法交易又称自动交易、黑盒交易或机器交易,是指通过设计算法,利用计算机程序发出交易指令的方法。在交易中,程序可以决定的范围包括交易时间的选择、交易的价格,甚至包括最后需要成交的资产数量。

算法交易的主要类型有: (1) 被动型算法交易,也称结构型算法交易。该交易算法除利用历史数据估计交易模型的关键参数外,不会根据市场的状况主动选择交易时机和交易的数量,而是按照一个既定的交易方针进行交易。该策略的的核心是减少滑价(目标价与实际成交均价的差)。被动型算法交易最成熟,使用也最

为广泛,如在国际市场上使用最多的成交加权平均价格(VWAP)、时间加权平均价格(TWAP)等都属于被动型算法交易。 (2) 主动型算法交易,也称机会型算法交易。这类交易算法根据市场的状况作出实时的决策,判断是否交易、交易的数量、交易的价格等。主动型交易算法除了努力减少滑价以外,把关注的重点逐渐转向了价格趋势预测上。 (3) 综合型算法交易,该交易是前两者的结合。这类算法常见的方式是先把交易指令拆开,分布到若干个时间段内,每个时间段内具体如何交易由主动型交易算法进行判断。两者结合可达到单纯一种算法无法达到的效果。

算法交易的交易策略有三:一是降低交易费用。大单指令通常被拆分为若干个小单指令渐次进入市场。这个策略的成功程度可以通过比较同一时期的平均购买价格与成交量加权平均价来衡量。二是套利。典型的套利策略通常包含三四个金融资产,如根据外汇市场利率平价理论,国内债券的价格、以外币标价的债券价

格、汇率现货及汇率远期合约价格之间将产生一定的关联,如果市场价格与该理论隐含的价格偏差较大,且超过其交易成本,则可以用四笔交易来确保无风险利润。股指期货的期限套利也可以用算法交易来完成。三是做市。做市包括在当前市场价格之上挂一个限价卖单或在当前价格之下挂一个限价买单,以便从买卖差价中获利。此外,还有更复杂的策略,如“基准点“算法被交易员用来模拟指数收益,而”嗅探器“算法被用来发现最动荡或最不稳定的市场。任何类型的模式识别或者预测模型都能用来启动算法交易。

量化交易一般会经过海量数据仿真测试和模拟操作等手段进行检验,并依据一定的风险管理算法进行仓位和资金配置,实现风险最小化和收益最大化,但往往也会存在一定的潜在风险,具体包括:

1、历史数据的完整性。行情数据不完整可能导致模型与行情数据不匹配。行情数据自身风格转换,也可能导致模型失败,如交易流动性,价格波动幅度,价格波动频率等,而这一点是目前量化交易难以克服的。

2、模型设计中没有考虑仓位和资金配置,没有安全的风险评估和预防措施,可能导致资金、仓位和模型的不匹配,而发生爆仓现象。

3、网络中断,硬件故障也可能对量化交易产生影响。

4、同质模型产生竞争交易现象导致的风险。

5、单一投资品种导致的不可预测风险。

为规避或减小量化交易存在的潜在风险,可采取的策略有:保证历史数据的完整性;在线调整模型参数;在线选择模型类型;风险在线监测和规避等。

A听完这些,觉得和自己平时做的机器学习,算法模型都很类似,所以自己也尝试下载了交易软件,尝试了一下。然后因为不是太懂,所以刚开始的策略发现有少量的亏损,A决定还是先向这位网友多学习段时间再做具体的实测交易。

发现金融有这么多好玩的模式后,A发觉自己对金融的理解才刚刚入门,以前理解的互联网金融都太偏面或者狭隘了。像目前这些传统的金融模式都正在一点点的互联网化,而互联网公司也在不断开发新的金融产品。而在互联网金融领域扮演着重要角色的就是大数据。

在互联网金融领域,大数据在用户画像识别、风险控制、保险定价、个人征信、信用贷款等方面都发挥着巨大的价值。

比如用户画像领域,大数据给每个人都制定了一个人群分类标签,你多大年龄、常驻在哪里、平时有什么偏好、能够接受多大的资金风险、平时都是什么时间上网这些在个人信息库都会有记录;

比如风险控制这块,你平时都是用什么设备上网,如果你的账号被盗或者是换了设备登陆的话,大数据可以识别出这一风险给你提示。比如你的银行卡密码被盗,系统能够识别出你平时的消费习惯,针对突然的大额消费、多次消费给出提示和警告。再像你在给亲戚朋友汇款转账时,大数据也能识别出你要转账的对方姓名是否是你认识的人,如果不是就给出提示。还有像非法的洗钱、套现、刷单这些行为都可能会被大数据的反作弊模型识别出,避免带来巨大的损失;

还有像保险定价,大数据可以根据投保人平时的出险记录和行为习惯,来预测将来投保人的出险概率,从而给出私人化的个性定价。对于平时出险很少的投保人给予更多的优惠价格空间和服务。同时在投保人购买不同价格的商品时,大数据也可以根据不同商品类目的分类来给出更低更合理的价格;

让信用等于财富,应该是目前互联网金融最需要解决的问题。在大家没有面对面交流或者长久相处的情况下,怎么解决信任危机的问题,就需要大数据来帮忙。有一套完整的征信系统,以后会是大家在完成第一笔交易最有利的依据。如果你的信誉不好,就会影响到你的借贷额度,甚至没有贷款的权利。如果你的信用分很高,可以在租房、租车、机场安检、出境安检等方方面面带来巨大的便利。

-----------------2015.11.02更新-----------------------------------------------------------------------------------------------------

能力>工具

眼看A在阿里的工作逐渐走上正轨,A开始把工作的一部分时间拿来和别人的交流上。也有不少师弟师妹经常来请教A,问A平时都用什么样的数据分析工具,python和R的区别和联系,SQL要掌握到什么样的程度,以及SAS、clementine要用到什么样子才算数据分析师入门。

A回想了一下,这些年遇到的种种情况和问题,发觉很少有因为某些个工具不会应用而导致分析工作无法继续,而大部分的情况都是业务的不了解导致分析无从下手。

但是掌握好数据分析工具,能够帮助一个刚入门的数据分析菜鸟快速上手,帮助没有经验的数据分析菜鸟理解数据分析有哪些模块和具体的步骤。A对于沈浩老师之前整理的一篇《常用的数据分析工具有哪些》记忆犹新。工欲善其事,必先利其器。沈老师的学习方法,一般是先学软件开始,再去应用,再学会理论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。

那么在数据分析领域,都有哪些软件分析工具呢?如何选择呢?其实很多领域或者说分析方法都有相应的软件工具,只要你想找就应该能够找到!

这里我把软件分成纵横四个层次的的象限图来表达!

第一维度:数据存储层——>数据报表层——>数据分析层——>数据展现层

第二维度:用户级——>部门级——>企业级——>BI级

首先,存储层:

我们必须能够存储数据,对个人来讲至少应该掌握一种数据库技术,当然也不一定要熟练操作,但至少要能够理解数据的存储和数据的基本结构和数据类型,比如数据的安全性、唯一性、冗余性,表的关系,粒度,容量等,最好能够理解SQL查询语言的基本结构和读取等等!

1. Access2003、Access07等:这是最基本的个人数据库,经常用于个人或部分基本的数据存储;

2. MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力;

3. SQL Server 2005或更高版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了;

4. DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;

5. BI级,实际上这个不是数据库,而是建立在前面数据库基础上的,这个主要是数据库的企业应用级了,一般这个时候的数据库都叫数据仓库了,Data Warehouse,建立在DW级上的数据存储基本上都是商业智能平台,或许整合了各种数据分析,报表、分析和展现!

第二,报表层:

当企业存储了数据后,首先要解决的报表,还不是分析问题,是要能够看到,看到报表,各种各样的报表!国内外有专门提供报表分析服务的企业和软件。

Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。而且很多数据库内置的报表也是采用CR报表的开发版嵌入的!

Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为我经常用它来从数据库中进行报表和可视化分析,先暂列在报表层;这个软件从3.0开始,现在已经有了5.1版本,两年的时间已经到了服务器和Web方式了!

当然,如果企业有上万张报表,需要好好管理起来,还有安全性,并发请求等,就需要有Server版;

博易智讯公司专门提供Crystal Report和Crystal Report Server版销售和软件服务。

第三,数据分析层:

这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;

Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。

Clementine软件:当前版本13.0,数据挖掘工具,我从6.0开始用,到了13版,已经越来越多的提高了更多有好的建模工具,现在改名叫PASW Modeler 13建模器了。而且与SPSS统计功能有了更多的整合,数据处理也更加灵活和好用。

SAS软件:SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计等还是SAS比较好用,另外,SAS的学习材料比较多,也公开,会有收获的!

当然,我主要是采用SPSS和Clementine,有时候就是习惯,当然会了一种软件在学其他的也不是很困难!

第四:表现层

最近我一直在研究数据可视化技术,一方面是因为Excel大家有需求,另一方面就是我第一个购买了Xcelsius,也写了《Excel高级应用与数据分析》和《数据展现的艺术——Xcelsius》。这个领域的软件,特别是一些小工具非常有价值!

PowerPoint软件:这个没得说了,大部分人都是用PPT写报告;

Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;

Swiff Chart软件:制作图表的软件,生成的是Flash;

Color Wheel软件:配色软件

Yed软件:网络关系图、流程图和图形分析软件,类似SNA分析,我经常用来设计流程图,还有就是分析优化关系图;

Netdraw软件:这是社会网络分析展现软件,主要是可视化网络关系图的,读取Ucinet软件;

Mindmanager软件:思维导图,非常好的软件,可以把非线性思维很快构建起来,并且项目组织管理、报告设计构想都可以应用,直接生成PPT等,当然这个软件功能非常强大,我的学生都用它来做笔记和会议记录;

Xcelsius软件:Dashboard制作和数据可视化报表工具,可以直接读取数据库,在Excel里建模,互联网展现,最大特色还是可以在PPT中实现动态报表;这个是我最希望应用的一个软件工具,非常有价值!

在掌握完工具之后,能够区分一个资深数据分析师和一个数据分析菜鸟的区别是什么呢?

从上图可以看出,在成长为数据分析专家之前,更多的是需要能够在问题识别、分析规划、数据获取、展现演示、价值应用、执行和管理能力、以及影响力上有不同层次的要求。作为一个刚入门的数据分析师,需要能够把在数据分析的基础技能上夯实。掌握基本的数据分析知识(比如统计,概率,数据挖掘基础理论,运筹学等),掌握基本的数据分析软件(比如,VBA,Matlab,Spss,Sql等等),掌握基本的商业经济常识(比如宏微观经济学,营销理论,投资基础知识,战略与风险管理等等)。这些基础知识,在学校里尽量的学习,而且我来到了一些商学院,这样我可以在商业分析、经济分析上面领悟到一些东西,增强我的数据分析能力。

在数据分析工具掌握之后,怎么晋级到一个合格的数据分析师?这时候就不只是掌握基本的统计知识或工具应用,需要能够独立完成一项完整的数据分析工作,能够通过数据准确定位业务上的问题,能够独立完成一份完整的数据分析报告,能够尝试将自己的分析结果讲给被人听,被别人接受和采纳。

1. 学习怎么写报告;

首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去的欲望; 第二,每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了他本身的意义,因为你本来就是要去寻找或者印证一个结论才会去做分析的,所以千万不要忘本舍果; 第三,分析结论不要太多要精,如果可以的话一个分析一个最重要的结论就好了,很多时候分析就是发现问题,如果一个一个分析能发现一个重大问题,就达到目的了,不要事事求多,宁要仙桃一口,不要烂杏一筐,精简的结论也容易让阅者接受,减少重要阅者(通常是事务繁多的领导,没有太多时间看那么多)的阅读心理门 槛,如果别人看到问题太多,结论太繁,不读下去,一百个结论也等于0; 第四、分析结论一定要基于紧密严禁的数据分析推导过程,不要有猜测性的结论,太主观的东西会没有说服力,如果一个结论连你自己都没有肯定的把握就不要拿出来误导别人了;

第五,好的分析要有很强的可读性,这里是指易读度,每个人都有自己的阅读习惯和思维方式,写东西你总会按照自己的思维逻辑来写,你自己觉得很明白,那是因为整个分析过程是你做的,别人不一定如此了解,要知道阅者往往只会花10分钟以内的时间来阅读,所以要考虑你的分析阅读者是谁?他们最关心什么?你必须站在读者的角度去写分析邮件; 第六,数据分析报告尽量图表化,这其实是第四点的补充,用图表代替大量堆砌的数字会有助于人们更形象更直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从; 第七、好的分析报告一定要有逻辑性,通常要遵照:1、发现问题 2、总结问题原因 3、解决问题,这样一个流程,逻辑性强的分析报告也容易让人接受; 第八、好的分析一定是出自于了解产品的基础上的,做数据分析的产品经理本身一定要非常了解你所分析的产品的,如果你连分析的对象基本特性都不了解,分析出来的结论肯定是空中楼阁了,无根之木如何叫人信服?! 第九、好的分析一定要基于可靠的数据源,其实很多时候收集数据会占据更多的时间,包括规划定义数据、协调数据上报、让开发人员 提取正确的数据或者建立良好的数据体系平台,最后才在收集的正确数据基础上做分析,既然一切都是为了找到正确的结论,那么就要保证收集到的数据的正确性,否则一切都将变成为了误导别人的努力;

第十、好的分析报告一定要有解决方案和建议方案,你既然很努力地去了解了产品并在了解的基础上做了深入的分析,那么这个过程就决定了你可能比别人都更清楚第发现了问题及问题产生的原因,那么在这个基础之上基于你的知识和了解,做出的建议和结论想必也会更有意义,而且你的老板也肯定不希望你只是个会发现问题 的人,请你的那份工资更多的是为了让你解决问题的; 十一、不要害怕或回避“不良结论”,分析就是为了发现问题,并为解决问题提供决策依据的,发现产品问题也是你的价值所在,相信你的老板请你来,不是光让你来唱赞歌的,他要的也不是一个粉饰太平的工具,发现产品问题,在产品缺陷和问题造成重大失误前解决它就是你的分析的价值所在了; 十二、不要创造太多难懂的名词,如果你的老板在看你的分析花10分钟要叫你三次过去来解释名词,那么你写出来的价值又在哪里呢,还不如你直接过去说算了,当然如果无可避免地要写一些名词,最好要有让人易懂的“名词解释”; 十三、最后,要感谢那些为你的这份分析报告付出努力做出贡献的人,包括那些为你上报或提取数据的人,那些为产品作出支 持和帮助的人(如果分析的是你自己负责的产品),肯定和尊重伙伴们的工作才会赢得更多的支持和帮助,而且我想你也不是只做一锤子买卖,懂得感谢和分享成果的人才能成为一个有素养和受人尊敬的产品经理。

2. 学习怎么以业务的眼光看待问题;

第一层:知其然我们可以通过建立数据监控体系,掌握发生了什么、程度如何,做到“知其然”。具体来说,切入数据的角度主要有这几个方面。首先是“观天”,观察行业整体趋势、政策环境影响;再是“知地”,了解竞争对手的表现;最后是“自省”,自身做得怎么样了,自己的数据表现怎么样。从看数据的周期上来讲,“观天”可以是季度性或者更长的周期;“知地”按周或者月,特殊时间点、特殊事件情况下除外;“自省”类的数据拿到的是最全面的,需要天天看,专门有人看,有人研究。在这一层上,分享两个看数据的观点:1.数据是散的,看数据需要有框架。怎么看数据很有讲究。零碎的数据很难发挥出真正的价值,把数据放到一个有效的框架里,才能发挥整体价值。所谓有效的框架至少包含两重作用:(1)数据很多,不同人对数据需求不一样,如CEO、中层管理者、底层员工关注的数据通常是不一样的,有效的框架能够让不同的人各取所需。

(2)有效的框架能够快速地定位问题所在。举个例子,交易量指标大家都关心,如果某一天交易量指标掉了20%,那么,业务很大可能下是出了问题,但问题到底出在哪儿呢?如果只有几个高度抽象的指标,如转化率、成交人数、客单价等,是定位不到问题的。好的框架能够支持我们往下钻,从品类、流量渠道等找到问题所在,板子也就能打到具体的负责人身上了。这也是我们通常所说的,看数据要落地。2.数据,有比较才有真相。我有120斤,你说是重还是轻呢?一个孤零零的数据是很难说明问题的。判断某个指标增长快慢,需要选择正确的比较对象、参考系,也就是基准线。这个基准线可以是一个预先设定的目标,可以是同行业平均水平,也可以是历史的同期数据。第二层:知其所以然通过数据看到了问题,走到这一步还不够。数据只是表象,是用来发现、描述问题的,实操中解决问题更重要。数据结合业务,找到数据表象背后的真正原因,解决之。解决问题的过程就会涉及数据、数据加工,还可能会涉及数据模型之类的方法或者是工具,这里面技术含量比较高,另作篇幅介绍,这里不展开了。

因素:同样一个数据在A看来结论可能是好的,从B看来可能却得出截然相反的结果。不是说出现这样的情况不好,真理越辩越明。但假如不是通过数据找问题,而是先对问题定性,然后有选择地利用数据证明自己的观点,这种做法就不可取了。可事实上,我们的身边经常发生这样的事情。2.懂业务才能真正懂数据。车品觉老师的博文《不懂商业就别谈数据》对这个观点作了深刻阐述,这里不展开讲了。只是由于本观点的重要性,笔者特意拿出来做一下强调。

第三层:发现机会

利用数据可以帮助业务发现机会。举个例子:淘宝上有中老年服装细分市场,有大码女装市场,这些市场可以通过对周边环境的感知,了解到我们身边有一些中老年人或者胖MM在淘宝上面没有得到需求的满足。那么还有没有其他的渠道找到更多的细分市场呢?数据可以!

通过用户搜索的关键词与实际成交的数据比较,发现有很多需求并没有被很好地满足,反映出需求旺盛,但供给不足。假如发现了这样的细分市场,公布出来给行业小二,公布出来给卖家,是不是可以帮助大家更好地去服务消费者呢?这个例子就是现在我们在做的“潜力细分市场发现”项目。讲这个案例,不是想吹牛数据有多厉害,而是想告诉大家:数据就在那里,有些人熟视无睹,但有些人却可以从中挖出“宝贝”来。差异是什么呢?商业感觉。刚刚提到的搜索数据、成交数据很多人都能够看到,但以前没有人把这两份数据联系在一起看,这背后体现出的就是商业感觉。第四层:建立数据化运营体系我理解的数据化运营,包含了两重意思:数据作为间接生产力和直接生产力。1.数据作为间接生产力。所谓间接生产力,是指数据工作者将数据价值通过运营传递给消费者,即通常所说的决策支持,数据工作者产出报表、分析报告等供各级业务决策者参考。我称之为决策支持1.0模式。然而随着业务开拓和业务人员对数据重要性理解的增强,对数据的需求会如雨后春笋般冒出来,显然单单依赖人数不多的分析师是满足不了的。授人以鱼不如授人以渔,让运营、产品的同学都能够进行数据分析,是我脑子中的决策支持2.0模式。决策支持2.0模式有三个关键词:产品、能力、意愿。

让运营和PD掌握SQL这类取数语言,掌握SAS、SPSS这类分析工作,显得不大现实和必要。提供低门槛、用户体验良好的数据产品是实现决策支持2.0模式的基础。这里讲的产品,不仅仅是操作功能集,还需要承载分析思路和实际案例。但是,数据分析的门槛始终是存在的。这就对运营和PD提出了新的基本能力要求,即基础的数学能力、逻辑思考能力和学习能力。最后一个意愿,也许是最关键的,只有内心有强烈的驱动,想做好这件事情的时候,才有可能做好。2.数据作为直接生产力。所谓直接生产力,是指数据工作者将数据价值直接通过前台产品作用于消费者。时髦点讲,叫数据变现。随着大数据时代的到来,公司管理层越来越重视这一点。大数据时代带来了大的机会,但也可能是大灾难。如果不能利用数据产生价值,那么,它就是一个灾难——产生的数据越多,存储的空间、浪费的资源就越多。现在比较好理解的一个应用就是关联推荐, 你买了一个商品之后,给你推荐一个最有可能再买的商品。个性化是数据作为直接生产力的新浪潮,这个浪潮已经越来越近。数据工作者们,做好迎接的准备吧。

3. 怎么在数据分析技能上加强;

基本技术怎么强调都不过分。这里的术更多是(计算机、统计知识),多年做数据分析、数据挖掘的经历来看、以及业界朋友的交流来看,这点大家深有感触的。数据库查询—SQL数据分析师在计算机的层面的技能要求较低,主要是会SQL,因为这里解决一个数据提取的问题。有机会可以去逛逛一些专业的数据论坛,学习一些SQL技巧、新的函数,对你工作效率的提高是很有帮助的。统计知识与数据挖掘你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是未来呢?行业知识如果数据不结合具体的行业、业务知识,数据就是一堆数字,不代表任何东西。是冷冰冰,是不会产生任何价值的,数据驱动营销、提高科学决策一切都是空的。一名数据分析师,一定要对所在行业知识、业务知识有深入的了解。例如:看到某个数据,你首先必须要知道,这个数据的统计口径是什么?是如何取出来的?这个数据在这个行业,在相应的业务是在哪个环节是产生的?数值的代表业务发生了什么(背景是什么)?对于A部门来说,本月新会员有10万,10万好还是不好呢? 当你掌握好前面的基本知识和一些技巧性东西的时候,你应该在业务、行业、商业知识的学习与积累上了。

这个放在最后,不是不重要,而且非常重要,如果前面三点是决定你能否进入这个行业,那么这则是你进入这个行业后,能否成功的最根本的因素。数据与具体行业知识的关系,比作池塘中鱼与水的关系一点都不过分,数据(鱼)离开了行业、业务背景(水)是死的,是不可能是“活”。而没有“鱼”的水,更像是“死”水,你去根本不知道看什么(方向在哪)。

特别A在以前的数据分析工作中,区别于其他数据分析师的一项特定能力就是对业务的见解。就连自己的业务方都承认A的业务能力比自己这样天天做业务的人都更清楚,数据记得更清楚。也为A以后从事业务埋下了伏笔。

--------------2015.11.11

目睹BAT的大数据故事

一次偶然的机会,A有幸参加了整个数据圈举办的大数据峰会。这一天来自各个公司的大拿都齐聚大数据,针对商业智能、移动互联网和互联网金融领域的应用和大数据的发展走向作探讨。

首先是阿里的某位数据泰斗上台分享大数据的历史,现状和未来发展。讲诉了这几年大数据如何是从每天几G的数据量到攒下超过100PB已清洗的数据。

从2003年淘宝起步开始,阿里集团数据事业部负责人QG就一直和数据在打交道,他的经历勾勒了这家数据巨人的演变轨迹。

阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起步非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基本指标,比如UV/PV等,当时的淘宝数据员工也只有数名。

在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手-ebay,当时的ebay和亚马逊都已经成立了BI部门,恰是与易趣的竞争,推动了整个阿里的数据发展。据淘宝当时的相关人士回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化的分析需求,淘宝的数据分析团队开始积累流量数据的分析经验。

04年~05年是淘宝逆袭的一年,这一年业务量突增,品类也扩张的很迅速,数据量随之跃升。淘宝开始意识到不能再靠拍脑袋决策了,需要实时掌握用户量和交易量的变化,进行精准分析。

05年淘宝成立了BI部门,成为当时淘宝技术研发部门JP的直属部门,这一年,阿里拥有了第一款严格意义上的数据产品——“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务——两项业务均带有天然的数据属性,成为阿里大数据运营的开端。QG讲这个由此阿里对数据和应用场景的理解越来越清晰,目标越来越明确——搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI。

09年阿里数据进入产品化的时代,“淘数据”从一个内部报表系统变成了内部数据的统称。09年4月和12月,BI又分别开发出可预警的“KPI系统”、服务业务部门的“数据门户”。

阿里对外的数据产品也开始浮出水面,脱胎于“雅虎统计”的“量子恒道”,为外部商铺提供了统计分析工具,用于跟踪自有店铺的流量、点击、购买等数据的变化情况。

与数据产品的大裂变同步,09年阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的WJ,一手主导了阿里架构从oracle商用系统向hadoop开源平台的迁移。相比较IBM、Oracle等商用系统,hadoop的优点在于成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。

同年,WJ成立阿里集团研究院,将集团内各公司自行搭建的hadoop集群统一,开发出“云梯1”系统,以实现全集团的所有数据打通、整合的管理与分享。

这一系列变革之后,阿里最高层提出了“数据开放”。10年初,淘宝推出了“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成了大中型商户追捧的利器。产品研发出于对客户的走访了解。当时,宝洁公司希望能够了解到行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产品化,阿里的数据价值出来了。

此后阿里的数据产品开发进入了井喷阶段,淘宝数据部门开发出“活动直播间”,帮助卖家更好的参与促销运营。11年上半年,“卖家云图”“页面点击”接连出现。

11年,现任阿里数据委员会负责人的CPJ加盟支付宝,发现阿里数据产品线存在很多短板:高层一端数据过多,关联性不强,难以快速并且进行全局诊断;一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。于是CPJ研发了两款数据产品,“观星台”:高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;“地动仪”:可以看到用户投诉的最多功能有哪些,甚至可以获取最原始的客服录音电话录音。随后,CPJ进入淘宝,又研发了两款产品“黄金策”“无量神针”。QG领导的另一支数据团队也研发了一系列的产品,“淘宝指数”“淘宝时光机”。

一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片,甚至一组Flash,看上去越来越没有“数据味”,但是其对消费场景和行为的洞察却越来越深了。

12年阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。

阿里云拆分,独立运行;阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由CEO LZX亲自掌管;同时成立虚拟组织“集团数据委员会”,CPJ出任首任会长。

WJ领导的阿里云是“密码盘”中的最底层框架,提供基础的运算平台。譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;在此之上,则是QG领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;再往上即是CPJ领导的淘宝网BI部门,他们使用数据进行分析。同时“数据委员会”的成员们分属阿里各业务公司,他们利用QG团队的工作成果进行再分析。

可以理解为三层架构:阿里云即是IasS(基础设施即服务),阿里数据平台事业部是PasS(平台即服务),而CPJ团队即是SaaS(软件即服务)。

阿里集团内的数据大多经过这样的旅程——用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到QG团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被存储在分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,就可能被采用。

目前,数据业务平台已整合了阿里集团的全部数据,此外,阿里小微集团中创新金融事业部的数据也与该平台直接相连。

阿里的前世差不多是这些,那阿里的今生又是什么样子呢?

围绕大数据,阿里在广告、搜索、推荐、风控、个人授信、保险、智能客服等领域也是做出了很多数据产品。

广告方面首屈一指的当属阿里妈妈,联盟平台从以服务淘宝系商家为主,转向面向全网所有广告主开放。比如当英菲尼迪投放了一款与宝马Mini互为竞品的新车时,阿里妈妈会通过电商交易数据,找出对这款车可能感兴趣的用户,同时广告主——它们有可能是英菲尼迪的经销商、也有可能是希望借机推送宝马Mini广告的宝马经销商,以竞价方式竞得推送广告的权利。整个过程可以在用户打开网页的瞬间完成。

这一过程都是在基于阿里妈妈刚开发完成不久的“达摩盘”,除了网页广告,还整合了移动、社交媒体、邮件等营销手段。

这种RTB广告(又称实时竞价广告,即Real Time Bidding)对于广告界来说并不是新事物。Google曾在全球范围内第一个推出RTB平台。随后跟进的包括Facebook、腾讯、百度、新浪等互联网公司,现在这个领域还出现了品友互动、悠易互通、MediaV等众多新兴公司。

在RTB广告交易中,广告主按效果付费,为了获得更多的点击,就必须精准地找到目标受众。

来自广东的店主罗亦挺2014年开始使用“生意参谋”,一款阿里巴巴B2B平台上的数据分析工具。“我可以知道店铺的流量来源,知道来自哪个网站、通过哪些搜索的关键词过来的。”他对界面新闻记者介绍。并且从去年下半年开始,还有了无线端的销售金额统计。

2014年全年,罗亦挺的店广告支出20万元,收入为1000万。

阿里妈妈达摩盘还对本月刚刚上市的全新英朗进行了“全网匹配”。按其自身的统计,点击率提高了136%,下订金的客户80.3%来自此案例的定制人群。

分析和交易数据成了达摩盘的基础。这可能也是阿里妈妈相比腾讯、百度等其它对手最大的不同——它有4亿用户交易的真实数据。

个人征信方面芝麻信用通过对用户海量数据的挖掘得出相应的芝麻分,能直观地呈现用户的信用水平。芝麻分的数据来源可不仅来源于阿里巴巴哦。从渠道来看的话,芝麻分的电商数据来自阿里巴巴体系,互联网金融数据则来自蚂蚁金服,还有部分数据来自众多公共机构及合作伙伴,也有用户自主提交的数据,例如结婚证、房产证等,未来阿里系数据仅会占30%——40%权重。

芝麻分的分值区间为350-950,芝麻分越高代表用户的信用状况越好。影响芝麻分高低的有身份特质、信用历史、行为偏好、履约能力以及人脉关系5个因素。

芝麻分应用场景分析

1、消费贷款

针对芝麻信用分,蚂蚁金服自己推出了3款产品:花呗、借呗和好期贷。花呗是支付宝推出的一款“赊账消费”工具,消费者可以通过花呗购买产品,下月再进行还款。中申网小编查阅数据发现,花粉的用户33%是90后,80后用户则占48.5%,而70后用户只有14.3%。可见蚂蚁“花呗”深受新生代消费群体欢迎。

芝麻分达到600分的用户有机会申领借呗,现在还未全面开放。芝麻信用用户可以凭借芝麻分申请相应额度的个人消费贷款,申请到的额度可以提现到支付宝余额。贷款额度为1千元——5万元,还款最长期限为12个月,贷款日利率是0.045%,随借随还。

“好期贷”是招联金融旗下产品,门槛比“借呗”高一些,目前需要芝麻分700及以上才行,而且有每日1000个名额限制。不过6月好期贷将降低芝麻分门槛,而且将进行首度开放。好期贷额度在2千-1万元之间,贷款期限分为3、6、12个月,可随时还款,好期贷的年贷款利率为17.8%。按月计息,还款当月按日计息,还款方式为等额本息。

此外,芝麻信用也已开始与其他金融机构合作,把芝麻分作为放贷的依据。比如引入芝麻信用分的玖富表示芝麻分高,可以享受的借款额度就会更高,利率也会更低。而金融搜索平台融360也已与芝麻信用建立数据战略合作。融360将利用芝麻分计算放贷金额,申请贷款用户在融360在线金融平台上借款,最快10分钟审批,24小时放款。

可见,芝麻信用分的推出对金融机构意义重大,不仅可以降低金融机构的贷款风险,还可以简化贷款流程加快放款速度。

2、婚恋

5月20日婚恋网站百合网宣布引入“芝麻信用”。虽然百合网实行实名制,但依然无法避免不法分子利用婚恋网站“骗婚”的问题,通过引入芝麻信用可以增加相亲双方的信任度。百合网用户可以先查看对方的芝麻分了解对方的信用如何再决定是否和对方深入发展。芝麻分的引入,能够提高单身男女对相亲对象的信任感,更利于感情修成正果。

3、租房

青客公寓和淘宝房产试水租房电商模式,结合“芝麻信用分”租客还能享受房租1元的信用权益。淘宝此次推出信用抵房租活动,恰逢毕业季,正好缓解不少毕业生的租房难题。中申网统计发现,新增的求租、换租需求在毕业季的一段时间内会放大,出租房源会出现季节性供应紧张导致租金上涨。淘宝此次与青客公寓合作,将‘芝麻信用’变成了一种‘租房福利’,也是租房行业的一次大胆尝试。

4、租车

现在芝麻分用户已经可以享受凭芝麻分租车服务。芝麻分达到600分可享受车纷享智能租车,无需押金还能先用车后付款。芝麻分达到650分用户无须交押金或刷预授权,就可以在全国700多家神州租车直营门店预订押金在5000元以下的短租自驾产品。

6月6日起,一嗨租车也将引入芝麻信用。一嗨租车用户只要芝麻信用分在650分及以上,同时无负面记录,即可申请租车免预授权服务,一嗨租车根据芝麻分授予用户5000元的免预授权额度。

5、住宿

“阿里去啊”推出了基于芝麻信用的“信用住”酒店服务计划,600分以上的用户预订酒店可以享受“零押金”入住等服务。小猪短租也联合芝麻信用推出600分以上免押金入住服务。

将来芝麻信用分还将在购物、社交、民生等领域发挥更大的作用。所以,千万别小瞧这个小小的“芝麻分”,将来它可能关系到你的钱途哦!

接下来是腾讯的blue介绍大数据的具体应用。

大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生、传递、存储、运算到应用。有段时间,看到一些大数据文章,就感觉纯属凑热闹,小数据都没搞明白,成天扯大数据。大数据,真的不是普通公司可以做的。

早上9点开始到晚上18点,7个小时,都是关于数据的演讲,腾讯、华为、京东、大众点评等公司的数据专家分别讲述各自的数据理论与实践,当天简直是信息爆炸,我用手机拍下200多张PPT,即使原来对数据有些研究,对腾讯数据平台也比较了解,要整理出来和大家分享,也需要一些时间消化整理。

曾经是腾讯内部举办的商业智能日,如今走向开放。

腾讯数据平台的思路,早已熟悉,这次算复习,再次感受腾讯数据平台的成长,技术性已经是领先水平,在产品与业务发展的指导与支撑并转化为生产力方面,仍有非常大的想象空间。

当天几家公司的大数据应用,相对局限于个性化推荐,例如广告精准投放、推荐商品、推荐用户、推荐应用等等。或许,国内的大数据应用由于商业公司功利性的限制,当天几家演讲的公司,大数据的商业化目标明确,而精准个性推荐是其中最有效的手段。

腾讯大数据现状

IBM将“大数据”理念定义为4个V:大量化(Volume)、多样化(Variety)、快速化(Velocity)以及产生的价值(Value)。我们可以从这几个方面一起看看腾讯大数据现状。

从业务角度

腾讯数据真的够大。腾讯数据平台自研的TDW替换了商业数据库,实现公司级数据集中存储,总记录达到375万亿条,日接入5千亿条,覆盖移动设备数7.7亿。

从平台角度看

腾讯数据平台设备8400台,单集群5600台,总存储100PB+;日新增数据200TB+,月数据增长率10%,日均JOB数100万,日均计算量5PB,量够大,速度也够快。

从用户角度看

这里的用户,指的是腾讯内部员工。腾讯员工2万多人,腾讯数据门户的月活跃是2500左右,也就是说访问腾讯数据门户的人占比公司10%+;每月处理数据提取分析的任务数是1万个,如果访问者每人都会提数据任务,平均就是一个人提4个左右的分析提取任务;用户画像分析任务为1.2万,可以看出腾讯对用户画像的重视程度。

腾讯大数据的多样性

下面的图,腾讯数据平台已经接入100多个产品的各类数据,例如:用户行为、账号属性、收入数据等等。

腾讯数据平台产品架构

腾讯数据平台从五个方面进行产品设计,分别是:数据管理、数据监控、数据分析、数据可视化、数据挖掘。

这也是我曾经在腾讯、YY语做过的数据产品运营工作的主线,五个方面分别通过各种数据产品落地,为公司内部产品策划、产品运营、产品营收、客服、财务等提供数据支撑。

腾讯业务平台与数据服务

下面这张图非常清晰的阐明了腾讯数据平台的数据服务与业务平台的关系。数据服务的核心是分布式存储、实时计算(TRC)、离线计算(TDW),以数据产品的方式对外呈现于应用,业务平台则考虑用户接入、业务逻辑、关系型存储的工作。

其中,对于海量数据来说,至关重要的是 Gaia高效的资源调度,提供高并发的任务调度与资源管理,为实现秒级的数据监控与实时运算提供保证。

Gaia高效的资源调度

腾讯大数据应用成效

数据成为生产力,支持海量用户产品发展。

腾讯广点通,精准广告投放

腾讯信鸽——大数据精准移动推送

用户留存率提升100%,用户活跃提升100%。

游戏模型,助力手游精细化运营

自助分析

自助报表

黄金眼——快速报表

实时监控

用户画像

紧接着,百度研究院大数据实验室也分享了名为《从数据到智能》的演讲,着重向业界介绍了百度大数据引擎以及大数据智能分析案例等内容。

我们都处在一个信息爆炸的社会,我们感知世界的方式可以通过搜索等手段转化成数据,在国内,百度无疑是搜索领域的领头羊,人们每天用百度搜索,当用户搜索行为被记录下来后,数据就形成了。

仅从百度的搜索业务看,作为国内最大的搜索引擎,每天要索引天量的网页,同时响应天量的用户搜索请求。根据沈志勇介绍,目前百度拥有2000PB的大数据存储能力,并且通过数据分析、数据挖掘等手段,百度每天可以处理10-100PB的数据量。在大数据领域上,搜索引擎的数据搜集能力,或者说产生数据的能力毋庸置疑,这也促使百度将这方面的技术运用的炉火纯青,可以说百度天生就是一家大数据公司。

其实在大数据的处理方面,智能分析已经越来越引起业界的重视关联和挖掘大数据已经成了业界最为关心的事情,无论是银行、保险、电信,还是传统软件厂商、互联网公司、创业公司,都能够借助大数据让自己的生产和运营更为顺畅。

可是由于条件所限,很多公司自己做不了大数据,正是看到了这一点,百度做为国内最早进行大数据技术研究的公司之一,大数据技术领域“先富起来的人”,在寻找“先富带动后富”的,希望能与整个产业界,实现在大数据上的“共同富裕”。

在互联网时代,一个公司想要发展用户体验、实现商业变现、制定决策系统等,离不开大数据智能分析技术的支持。百度在智能分析技术的很多积累,尤其是应用于广告的超大规模机器学习技术在世界上是领先的。

“如今,百度专门成立了大数据实验室BDL,并且百度大数据引擎还将百度大脑、百度数据工厂、百度开放云作为3级开放平台开放给业界,希望能够凭借百度的大数据技术推动整个行业的发展。”沈志勇说。

大数据的魔力从预测旅游到预测体育

在现场,最令听众感兴趣是分享的百度预测项目实践。通过小伙伴们支持的百度大数据部的旅游预测项目和世界杯预测项目向大家阐述了基于百度大数据的预测中的一些技术与经验。

人流量预测一直是旅游行业的一大难题,旅游管理机构和旅游目的地企业都渴望做到对未来“心中有数”,可是结果往往不甚理想。百度旅游预测基于百度大数据的预测模型。一方面,百度通过其LBS产品反映了全国所有景区的历史人流数据;另一方面,从百度的搜索日志中,得知用户想去的任何景点旅游的需求数据,以及该地在近期将举办的大型活动、民俗集会等相关信息,还可以获取对应时间下的天气、空气质量等数据。“这些数据通常是按照时间排列的一系列数值,这些因素对目标数值影响的效果在我们采用的模型中被量化、系统化,进而可以预测将来。”

百度对于人流量的精准预测得到了社会的普遍肯定,小长假期间被央视等各大媒体作为预测范本报道宣传。可以说百度预测的出现无论对旅游行业宏观把握和调控,还是对目的地营销活动的引导,以及对旅游人流流向和流量的调整,都具有很大的现实意义。

另一个典型的案例是世界杯预测:在2014年世界杯比赛中,包括Yahoo、微软、Google在内的互联网公司对比赛进行了基于大数据分析的预测。结果百度的预测是最准确的,独冠群雄。

除了上述的两类预测,百度目前还与中国疾病预防控制中心进行合作,基于百度搜索数据来构建传染病预测模型,结果显示与病例实际数据具有极高的一致性。同时百度预测也可以进行经济指数预测、高考预测,并且百度还开放了预测开放平台给业界,如果你有历史数据,希望预测未来走势可以通过预测开放平台进行预测。

大数据的未来民生、企业都能惠及的巨大价值

除了预测,百度大数据实验室还有很多正在探索的方向,这些方向既有惠及民生的,也有服务企业,了解企业需求和真正“痛点”,提供完整的预测解决方案,可以帮助企业实现智能运维/运营。

一个典型的例子是,百度基于对海量大数据的智能分析,可以对使用百度产品的用户进行画像,即通过用户输入的搜索词来理解用户的意图,从而就能实现个性化的精准广告推荐提升用户对广告的点击率和对产品的订单转化率。

在惠及民生的公益事业方面,近日,百度已经和联合国签署协议,建立了大数据联合实验室。该实验室的成立意味着百度将利用自身大数据技术帮助联合国去解决一些全球性问题。同时,联合国把百度视为合作伙伴,也说明了百度在大数据智能分析领域的技术实力以及在创新能力上的先进性。

无论是惠及民生的预测还是惠及企业的预测,这些预测能力的背后,都是百度强大的数据挖掘和人工智能算法。业内人士指出,现在,很多行业快速积累了大量的数据,但苦于没有数据分析的技术,无法看透数据中蕴藏的无限价值。百度智能分析技术的出现给了业界关于大数据挖掘的全新可能。

百度是一个大数据公司,有着非常大的数据量,这些信息最终产生了价值,而随着互联网的不断发展目前这些价值正在向连接人与服务的方向发展。未来,百度将持续大力投入发展智能分析技术,并希望开放数据处理能力,把数据思维引入、渗透到传统行业来促使产业升级。希望未来百度的大数据智能分析技术能够和行业深度融合,和传统行业、互联网同行一起挖掘出大数据的价值,更好的把控未来。

A在现场听到这么多BAT的数据实力,实在是被震撼到了。从一般的报表分析到商业智能,从一台机器到上千个集群,从人工运营到机器学习智能运营,大数据在商业、金融、互联网、医疗、民生等各个领域影响着人们的生活。会后A回家做了很多笔记和总结,感受就是后面一定要多参加这些干货的分享会,能够了解到行业最前沿的信息。

也是从那之后,A彻底迷恋上大数据,这次不再是因为别人都在谈论大数据,而是它真真切切地在改变人类的生活。每天会关注大数据行业的重要信息,关注36kr的大数据公司的融资信息,关注最新的技术。

-----------------2015.12.21更新-----------------------------------------------------------------------------------------------------

难忘的春节

年初,A回家过年,很开心,请了几天年假外加春节的7天,算起来可以休息大半个月了。相信每个人回家过年的心情都是急切而又开心的,每年就盼着这几天能回家看看家乡的发展变化。在中国,春节是家人团聚的日子,不管你是身处天南还是地北,回家过年是一种召唤,也是一种责任。A回想起曾经过年的感觉,那时候过年真有趣,家家都充满了年味。和小伙伴一起点燃五彩斑斓的烟花,此起彼伏的鞭炮声烘托出浓浓的节日气氛,还有各种各样的春节晚会,欢歌阵阵迎新年。

而现在的除了串门吃饭,就是亲戚间打牌,没有了曾经的味道。大年三十那天,高速上堵成翔,也没有阻挡A回家迫切的心情。大约开车开了6个小时,往常3个小时就回到家。老爸老妈都在家里忙活着烧年夜饭和打扫卫生,老爸早上提着肉,纸钱和鞭炮去上庙、上坟。在坟前一排跪下,祖孙几代都埋在这块土里,烧纸的飞灰在坟前飘起落下,A闭上眼,感受着先祖的气息,脑海深处的记忆,家族的血缘在身上流淌。

小时候姥爷指着这片空地说,这是我的,这是你爸的,这块是你的,是的,那块两米见方的就是最终的归宿,看着那块杂草丛生的土地,有种恍如人生的错觉,不管你的人生经历了怎样的风景,磨难也好,辉煌也好,终将在这里止步,在这里入土。

很小的时候,A比较任性有想法,不愿回家,在外面走南闯北,想努力拼斗做出一番成绩。那时根本不能理解为什么要回到出生的地方,也无法理解何为落叶归根。就这一年,突然理解了。

春节不是一个普普通通的日子,它已经被中国人赋予了更重要的意义。我们害怕失去,害怕失去那些已经习惯的回忆,我们厌烦,厌烦那些我们无法接受的老旧习俗。而人就是喜欢热闹的主儿,在欢笑、嬉闹、开心中,我们才会记得更深刻。

就在今年,A看到央视也在不断播报着大数据的相关信息,在这团聚的日子里,最热门的出行方式仍是火车,但与往年不同的是PC端拼车的关注度超过飞机,一跃上升到第二位。春节除了团圆,年货的储备也必不可少,今年除了常规服饰、酒水/饮料外,生鲜成为新兴热门关注品类,位居关注度第三位。春节长假,外出旅游深受一二线城市年轻人热捧,与往年不同,今年的境外游关注度远远超过国内游,且春节旅游搜索量移动端高出PC端总搜索量201%。

今年春节移动端搜索量整体大幅度超出PC端,七成用户的手机搜索行为比平时更多,春节网民在移动端的搜索行为较平时更为突出。春节期间人们习惯于在PC端进行计划搜索,在移动端进行实时查询搜索。以最热门的火车票搜索为例,网民在移动端进行列车信息查询的行为较多,而在PC端则是火车票购票以及关注购票网址。春节旅游搜索行为也同样呈现该特征,网民在PC端进行出行方式搜索,在移动端则进行酒店预订搜索。

今年春节期间由于火车票预售时间提前60天,整体拉长了春节周期,春节火车票搜索量相比去年上涨明显。为期40天的春运,搜索量整体比同期上涨240%,从春运PC端搜索关注度来看,搜索火车票预购占整体春运的六成以上,而拼车搜索量首次超过飞机,关注度跃居第二位。针对火车票购买,从PC端网民购买火车票来看,最常用的仍为官方网站12306网,其次为去哪儿网、携程网、同程旅游网。今年新兴的拼车出行,网友最爱上58同城、赶集网、百姓网等网站了解信息。而在本次春节迁徙大潮中,迁出人数最多的属广东省,其次是上海、北京、浙江、江苏,其中一线城市包揽前三位。

春节前一个半月,春节旅游搜索达到关注高峰,移动端高出PC端总搜索量201%。大家究竟要去哪儿?

今年春节网民对境外游的热情远高于国内游,境外游热门地点包括:日本、泰国、韩国,而国内游首选地点为:三亚、九寨沟、丽江。出游人群中,20-39岁的年轻人为主要出游人群,且他们大部分来自一二线城市。出游机票酒店预订,网民也颇具共性,最受关注的旅游网站携程网、去哪儿、同程旅游网三家已占据超过80%的在线旅游市场份额。

无年货,不春节。中国人习惯于提前购买年货,既为一年一度的家庭大团圆做准备,同时也是接待亲朋好友的必备佳品。2015年,在网友的年货采购名单中,除了传统服饰、饮料/酒水外,生鲜搜索量上升到第三位,便捷的物流加速了食品的流通,新年人们在品尝家乡美食之际,也可以尝到平时少见的新鲜外地食品。

今年春节期间分别出现了两个年货搜索高峰,第一个搜索高峰主要集中在购完车票后(1月18日-23日),第二个波峰出现在电商年货促销期间,主要集中在2月10日-2月16日(腊月二十二至腊月二十八),淘宝、京东、天猫成为最受关注的电商年货平台。

提到春节热点,就不得不提到红包。今年收发红包的形式不再像往年一般仅仅局限于当面赠与,而是通过多种渠道、多类平台共同营造节日喜庆氛围,微信、支付宝、手机QQ、微博等各大平台,借助春节红包热这一突破口大肆进击,红包发放范围及数额均是惊人。

从农历小年(2月11日)开始,红包搜索就已日趋上升。在2月13日红包搜索达到第一波峰值,2月18日除夕当天达到红包指数最高峰值,其中关注度最高的红包(由高到低)依次为:微信红包、支付宝红包、手机QQ红包。

除夕上午,腾讯地图正式推出红包地图,并在央视新闻频道亮相。从上午9点开始,央视新闻微信公众号准备了2015万现金红包,除夕9小时,通过微信摇一摇,参与抢红包。通过与央视新闻频道合作,腾讯地图利用其开放平台的位置定位数据,真实描绘出一幅红包地图。

从第一次红包摇过之后的不到一个小时,一幅生动的红包地图就出现了。上午这第一轮红包,全国共有2200万人次参与。看,以城市排名来看,果不其然,第一名是北京。

除了北京占有绝对优势之外,以全省角度来看,广东也抢占鳌头,浙江紧随其后,其它地区占比相对少一些。

这个结果,其实与中国不同的经济发达程度基本相符。难道经济越发达的地区,人们越爱抢红包?

北京、广东和浙江人民,乃们是不是都不过除夕了,就盯着手机看了?

想更好地抢红包?这三个地区的上空已经太堵了。

今年春节差点被大数据玩坏了,大家都是刷着手机抢着红包。而在这背后,能够支持全国几亿人民同时打开手机抢红包是大数据云计算平台的支持。而百度迁徙图也是在时刻监控着全国的迁入迁出流量图,选择旅行的可以参考客流量选择错峰出行。

今年春节差点被大数据玩坏了,大家都是刷着手机抢着红包。而在这背后,能够支持全国几亿人民同时打开手机抢红包是大数据云计算平台的支持。而百度迁徙图也是在时刻监控着全国的迁入迁出流量图,选择旅行的可以参考客流量选择错峰出行。

大年初四,按照年前的计划,与同学一起去云南旅行。彩云之南,云南是个很美的地方,但是由于现在很多旅客的到达,打扰了那份宁静。从昆明、大理、丽江到香格里拉,A感受到区别于华东沿海江南水乡的另一番西南风光。这里有云南米线、有耀眼的太阳光线、有淳朴的人民、有美到令人窒息的洱海、也有那一夜成名的艳遇丽江、高处不胜寒的玉龙雪山、他国风光的香格里拉。在这里没有工作的压力,没有生活的繁重,没有嘈嘈杂杂的汽车声,像是来到了乡下。这里的山,云梦萦绕;这里的水,满江春意;这里的花,争相竞艳;这里的人,淳朴善良。千年历史,多民族多文化交融,形成了独特彩云之南。云南,素以其美丽、丰饶、神奇而著称于世,一向被外界称为“秘境”,吸引着世界各地的游客。闻名于世的金沙江、怒江、澜沧江几乎并排地经这里流向远方,险峰峡谷纵横交错,江河溪流源远流长,湖泊温泉星罗棋布,造就了这块神奇美丽的乐土。 从世界园艺博览会举办地的省城昆明,到“风花雪月”的大理名胜;从高原水城丽江、神奇的“香格里拉”—中甸,到孔雀曼舞的西双版纳;从“天下第一奇观”的石林、千姿百态的元谋土林,到世所罕见的“三江”并流,江狭水凶的虎跳峡……这些迥然相异的山川景色,如一个天然的自然博物馆,每一位来到这里的游客,都会深深地感受到这是一块博大而充满激情、深邃而富有魅力的神奇之地。

因为路途不像平原那样的大宽平整的马路,A没有选择自驾,而是坐大巴和火车的方式,不过这一路上也比较艰苦,没有空调的大巴和遍地都是箱包的绿皮火车,不过能看到沿途的美景也是值了。

-----------------2016.1.7更新-----------------------------------------------------------------------------------------------------

“她”的到来

快乐的时光总是短暂的,一眨眼的功夫已经来到了上班的工作日。年头一来整个团队就是在忙着规划这年要干嘛干嘛。团队leader和像A一样的数据工作者们,像一群紧密协作的工蚁们,从各自的想法角度去提自己想做什么样的项目。有计划要做机器学习的可视化平台的,有想做金融大数据分析的,也有想做行业指数预测的。

在A看来,这些都可能是今年或者以后大数据这块会流行的发展方向。

比如机器学习的可视化这块,微软就推出了一款azure ML的产品,通过这一平台,客户可以利用云计算技术开发基于大数据的应用和应用程序接口(API),预测未来事件,而不仅仅是分析以往已发生的事件。

这款产品基于微软一些现有产品,例如Xbox和必应的机器学习功能,并提供了预定义的模板和工作流。相对于传统开发手段,这将帮助客户更快地开发出预测应用。此外,客户还可以在Azure ML平台之上发布API和网络服务。

负责Azure ML的微软企业副总裁约瑟夫·希罗什(Joseph Sirosh)表示,这一平台帮助微软的客户和合作伙伴开发大数据应用,能预测并改变未来的结果。希罗什此前曾供职于亚马逊多年时间。

他表示,前瞻性能力是这款产品的一大特点。

“传统数据分析帮助你预测未来,而机器学习帮助你改变未来。”希罗什表示。他表示,通过支持模式识别,你可以预测需求、疾病的爆发,电梯何时需要维修,甚至预防犯罪。

希罗什表示,由于带来了规模效应,云计算将改变行业发展。此外,云计算带来了强大的计算性能,而如果企业试图自主建设数据中心,那么需要花费几周甚至几个月时间。

“云计算解决了最后一英里的问题。”希罗什表示。在此类服务出现之前,你需要数据科学家确定数据集合,随后让IT部门开发应用,提供支持。在工程上以较大的规模完成最后一步往往需要几周或几个月时间。而Auzre ML简化了这一流程,提供一种方式,使开发者在几小时内就能开发出同样的应用。

此外,Azure ML支持开源项目Project R的300多个包,而这一开源项目目前被许多数据科学家使用。

希罗什表示,微软希望,随着越来越多用户使用这一平台开发API和应用,平台上将形成“数据和API之间的良性循环”。他表示:“人们拥有数据,并携带数据在Azure ML上开发API。人们连接至应用,随后向云计算平台反馈数据,从而推动更多API的开发。”

Azure ML微软已提到了多个例子,其中包括Max 451。Max 451是微软的一家合作伙伴。该公司与大型零售商合作,预测哪些商品最有可能被消费者购买,并在需求出现之前确保库存充足。

卡耐基梅隆大学目前与Auzre ML合作,试图降低校园建筑的能耗。该学校尝试预测及减少活动,从而降低整体的能耗和成本。

微软并不是涉足这一领域的唯一一家公司。IBM去年冬季将超级计算机“沃森”作为一款云计算服务推出,提供了类似的机器学习应用开发功能。上周,一家名为Ersatz Labs的创业公司也推出了深度学习人工智能云计算平台。

最终团队商量决定做机器学习的坏账率控制这块,主要出于考虑在资金体量如此庞大的集团,如果能够降低1%的坏账率,可以给整个公司带来巨大的价值。而眼看着团队也就10个人,而且都是在做算法应用这块的,严重缺乏相应的开发和前端。

团队leader开始四处招人,拉资源。花了一个月的时间,相应的资源方都聊过之后,觉得还是可以做很多东西的,就都开始紧锣密鼓准备开始开干。这么些天,PM在考虑着整体的业务框架,PD在想着做成什么样的产品模型,算法工程师想着需要哪些数据和特征,数仓配合进行数据的搜集和清洗。

这天,开发团队来了一个新同学J,A在看到她的第一眼,内心有些触动。感觉J是个很特别的女孩。而A也没有想到,就是这样一个看起来还不错的女孩,在以后的工作和生活里影响了A的一生。成为了彼此心目中的soulmate。

未完待续。。。

-------------------------------------------------------------------------------

转自:http://zhuanlan.zhihu.com/dataman/20206932

数据分析侠A的成长故事的更多相关文章

  1. 聊聊几个阿里 P8、P9 程序员的故事

    大家好,我是对白. 阿里 P8 程序员年薪百万已经是公开的秘密了,有人关心他们年薪百万,而我更加关注阿里这些 P8.P9 程序员的成长故事,在聊这些大牛的故事之前,跟大家稍微简单聊下阿里技术人等级制度 ...

  2. 《《我是一只IT小小鸟》》读后感

    接触IT也已经半年了,在这半年我没有充足的时间去了解IT这个行业,在大学生职业规划课程上,老师推荐了<<我是一只IT小小鸟>>这本书,我才发现IT这个行业并不是想象的那么无趣, ...

  3. 读《我是IT小小鸟》后有感

    我是一名大一新生,在下半学期开学时,我迎来新课程——<大学生职业生涯规划与就业指导 >.这是一门既新颖,又有许多就业知识和理论的学科.在课上,老师向我们推荐了一本书,名叫<我是IT小 ...

  4. <我是一只IT小小鸟>读书笔记

    这篇文章给我感触最深的是开篇蒋宇东所出的一道选择题--今后的发展选择有三条:A.做一辈子IT民工:B.将大学时欠下来的债补上:C.改行. 他们用自己的成长故事告诉师弟师妹们:一定要弄清楚上大学首要的任 ...

  5. 南桥先生谈《OUTLIERS》

    借来一套语音版的 Outliers 听完了.这本书里有很多故事,可是希望借此找到成功的奥秘恐怕很难,作者做的是一描述而不是预见.听了半天,只听出了六个字: “天时地利人和”. 比如比尔·盖茨,他之所以 ...

  6. 设计师Yoyo:为用户设计产品,让他们生活更美好

    Yoyo设计走过的路:纽约爱立信,西雅图美国在线,硅谷雅虎,ATT,深圳腾讯,华为:Yoyo不仅是顶级的交互体验设计师,还是很Open的知识分享者,从职业选择,以及对年轻人的建议几个角度,摘录他的文章 ...

  7. Denny Zhang:一辈子做一个自由职业者

    程序猿訪谈录供稿 Denny是一个旅居美国的自由职业者,这是一份让人羡慕的职业,选择这个职业意味着他已经实现某种程度上的经济自由,能够最大限度的做自己喜欢的事情,对他来说,选择自由职业作为自己终生的事 ...

  8. jQuery拖动调整表格列宽度-resizableColumns

    实现鼠标可拖动调整表格列宽度 如图: 一.引入文件: <script src="/js/jquery-1.8.0.min.js" type="text/javasc ...

  9. 边做边学入门微信小程序之仿豆瓣评分

    微信小程序由于适用性强.逻辑简要.开发迅速的特性,叠加具有海量活跃用户的腾讯公司背景,逐渐成为了轻量级单一功能应用场景的较佳承载方式,诸如电影购票.外卖点餐.移动商城.生活服务等场景服务提供商迅速切入 ...

随机推荐

  1. ViewPager的简单使用说明

    前提:工程中使用ViewPager,需要导入google提供的jar包(android-support-v4.jar). 要学习ViewPager的使用,建议直接看官方文档 Creating Swip ...

  2. Code obfuscatio (翻译!)

    Description Kostya likes Codeforces contests very much. However, he is very disappointed that his so ...

  3. block知识总结

    一.block在内存中存在的形式 1.当把block句法写在函数或者方法外面时,系统会在静态数据区分配一块内存区域给block对象.这片区域在程序执行期会一直存在. 2.当block句法写在函数或者方 ...

  4. jsp连接MYSQL数据库教程(文字+图)

    步骤: 1.在mysql官网下载JDBC驱动程序.网址:https://dev.mysql.com/downloads/connector/j/ 2.把里面的jar包(mysql-connector- ...

  5. 百度安卓sdk开发

    一 key问题 1 在百度地图api控制台申请key的流程主要用到了app包,开发工具的开发sha1和发布sha1值,这2个值的获取就非常关键了. 一般来说我们都是在windows上开发安卓,使用an ...

  6. 3dContactPointAnnotationTool开发日志(三)

      今天的目的是把obj文件导到场景里.具体将制定路径的obj文件导进去我用的是这个方法.导进去后呈现的是一个黑色的影子.   导入后还想实现一下缩放功能,请看这个方法.缩放实现起来也很简单.   光 ...

  7. YaoLingJump开发者日志(三)

      开始第二关的筹建.   增加了地刺和会移动的砖块.   每次增加一个新东西都要改好多代码,好累吖.   把第二关搞出来后发现太难了,强行调整难度.   修复了一些bug.   调整难度后还是发现太 ...

  8. xpath获取块元素下<br>下的信息

    再爬虫取字段的时候遇到一种类似下面的结构: <p> <br> "通用名称:xxxxxx" </p> 用xpath取的方式://p//text() ...

  9. matlab如何将数组中的NAN值去除

        比如我们一组数据,里面有不少的NaN值,如何将其删除掉呢?可以通过find函数来搞定.     我们可以通过importdata('data.txt')将数据文件data.txt导入数组A中. ...

  10. 青花瓷运用->下载历史版本App

    1.软件准备 [必备]Charles4.0.1 下载密码: jfnk [不需要,配合Charles食用效果更佳]Paw2.3.1 下载密码: t3my 2.正式开始 2.1 打开Charles青花瓷 ...