IT公司该如何落实机器学习?

Cisco发布的总结报告《泽字节时代：趋势和分析》中指出：2016年末，全球年度互联网流量将突破ZB大关(1ZB泽字节：1000EB艾字节)，并将于2020年达到2.3ZB;互联网的流量将在未来五年内增长三倍;智能手机终端的流量将于2020年超过PC终端。(注：泽字节为十万亿亿字节)

　　TalkingData的机器学习

　　TalkingData的日均处理量，现在每天在TalkingData的平台上新产生14TB的数据，有超过370亿条的消息。

　　机器学习有很多算法，学术上的分类都是公认的。TalkingData内部更多的是看一个算法或者算法的实现是适合处理大数据还是小数据，会根据这个标准分成两类。

　　我们既要处理互联网公司的超大规模数据，又要支持很多小规模数据的客户需求，所以我们的情况比较复杂。大规模数据处理的算法栈基于Spark，我们做了大量基于Spark的算法创新和优化;小规模数据的处理主要是一些具体客户项目，比如银行、房地产，对一些乙方数据的挖掘，因为数据处理中遇到的技术问题不是特别大，所以主要使用基于Python、R的算法库。

　　大规模与小规模数据项目的处理模式

　　项目很多，可供选择的算法也很多;那在实际中怎么选择使用呢?这个与上面一样，还是要分两类讨论。

　　大规模机器学习的整个体系还不够成熟，市面上没有特别好用的工具;大互联网公司都是自研平台和系统，实现各自业务的需求。开源那些技术则各有各的问题，像Spark的MLlib，我们进行测试时发现在处理TalkingData规模级别的数据上有些力不从心。形势所迫，我们也是没办法只好自己重新做对应的研发工作。目前看来，大规模机器学习中可用的模型并不多，会考虑一些简单的线性模型，因为数据规模太大，太复杂的模型并不一定好，我们会用到LogisticRegression这样的模型去解决问题。

　　在处理小规模数据时，其实没有绝对偏好;首先理解清楚具体问题;再去寻找找哪个算法更适合，这其中的过程可能会测试很多算法。对小规模问题我们有一些基准算法，比如RandomForest、RandomDecisionTree、RandomDecisionHashing。在这些基准算法的基础上，在逐步细化并尝试其他算法，其中有一些问题我们也在用深度学习去解决。换句话说，我们的原则是哪个适用用哪个。通常，解决小规模问题的逻辑是先用简单的快速的，如果能够解决问题，就用简单的模型;如果问题不能解决，再逐步引入一些更复杂的模型。

　　什么时候进行数据降维

　　在实际应用中，我们的最高维度会超过一千万。在降维的这个处理上，可能比较令大家想象不到的是：大维度的问题，我们反而是不做降维;对维度不太大的小规模问题，会用传统的PCA或者其他方法去做降维。

　　为什么大规模的问题不做降维?首先是很难去做降维，因为维度太大了，数据空间太大了，如果做一次降维，付出的代价非常大。比如如果用PCA做降维，就需要有很多矩阵操作，矩阵操作现在以MapReduce为核心的计算模型效率非常低，尤其对大矩阵而言，那么为降维付出的代价是不值得的。

　　小规模的问题与大规模的问题有很大的不同：小规模数据问题主要面向我们的客户，他们会追求可解释性，需要找到起决定性的稳定因素;这种情况下希望把不重要的维度摒弃掉。

　　反观大规模问题，一千万维度的模型，人工解读也非常难。对于大规模问题我们更多的关注模型的预测能力，为了预测的更精准;很多情况下我们会放弃对模型的理解，而是看在实际中这个模型能不能起到很好的效果。

　　大数据团队的内部工作分工

　　在TalkingData内部，从职位上来看，大数据工作分为两类：大数据工程师、数据科学家。在我们公司内部，大数据工程师主要建设大数据平台，基于大数据平台做一些数据处理工作，涉及算法的工作内容并不太多。TalkingData内部定义跟算法相关的职位是数据科学家。大数据领域更希望有数学和计算机的复合人才，目前复合人才比较稀缺;不过，作为一个团队来说会看重一个团队本身的复合型。

　　从工作内容上讲，我们大数据团队有不同的分工，可以分成三块。有两三个同学一起在做大规模机器学习、深度学习，他们是在底层打基础，提升系统平台基础能力。中间层的工作是挖掘数据，比如人口属性挖掘，丰富标签体系;从地理位置数据挖掘信息，如识别Wi-Fi的类型是家庭还是公司，把我们数据变得更丰富、价值更大。还有一部分工作在上层，要结合到具体的客户项目，比如给某家银行做推荐系统、互联网金融风控、帮助房地产企业做营销等等。

　　算法书中的大数据对接业务

　　TalkingData的有些产品，比如营销云，要面对来自客户的很多需求。我们要帮助客户去筛选人群。怎么筛选?首先，我们提供简单的方法，基于标签的、统计学的去筛选;然后，还有一些基于所谓的人群扩大的方式，这个工作无法通过统计学完成，必须使用机器学习。

　　虽然我们会使用很成熟的机器学习算法，但是由于一方面候选库是十亿级别以上的样本，另一方面我们的数据维度也是超过千万，所以需要将大规模机器学习的能力嵌入到产品里面。

　　对某个业务而言，如果仅从纯数学的角度讲，可能这个业务背后并不是一个特别难、特别复杂的算法;从工程角度看，实际上较大的难点在于怎样算法做到可用，并且在大规模下可用。用传统方法也是可以得出结果的，但是那样可能需要跑一个礼拜才能跑出一个结果;对于项目而言，这个结果实际上是过期的，已经完全没有意义了。需要通过很多努力做到十分钟内算出结果，这样才算的上真正的作用。

　　数据和计算结果的存储

　　这么多年来我们数据一直都有备份，TalkingData作为大数据公司，所有的数据都是存储在自己的云上面。只有一些边缘的系统会去用现在的一些云服务，核心的系统都是我们自己的系统。这样做有两个原因：第一，公司是在2011年发展起来的，那时候云计算还没有到现在的能力;第二，我们本身是一个大数据公司，我们要对自己的数据负责。

　　“初始数据和计算结果是否都有保存?”都会有的，原始的log也会做备份。我们有一个理念：数据经过处理以后，不管处理得多好，里面的信息都会有丢失。对信息做任何操作，信息量不可能增加，只可能减少，最多就是不变。为了实现某个目的，中间做了很多处理，那不可避免地在处理中就舍弃了一些信息。所以，TalkingData原始数据都会做备份;不过会做大量的压缩，用更廉价的方式存放起来，中间过程中某些使用频率高的数据也会都存下来。

　　如何成为一名大数据工作者

　　这一点分两个方向谈，一个是具有IT背景的职场人怎样转向大数据，另外一个方向是在校生怎样踏入大数据领域。

　　IT工程师是可以转向大数据的。个人而言，比起工程方面经验，我更看重的是一个人的基本功。不论是大数据基础还是计算机技术，如果你目前的基本功不扎实，想转大数据，一样有很大的困难。如果你有很强的代码能力，其实要转到大数据并不是一个特别难的事情。如果你有比较好的基础，在大数据公司，比如TalkingData;可能半年、一年也就能够成长为一个还不错的大数据工程师。上面提到，大数据工程师负责建设大数据平台，数据科学家从事算法相关功做。

　　IT背景想成长为数据科学家，我感觉个人如果想做好，可能确实需要补一补数学方面的基础，比如直接看一些相关书籍。团队内部的信任，如果是毕业生，我一般会要求先把大学的概率统计好好复习一遍，这是非常基础的一个学科;然后还有相关如线性代数，如果能够很好掌握，对深入算法非常有帮助。

　　现在还有一种趋势，在小规模问题上，提供的工具越来越多、越来越好用。有些人认为用这些工具处理一个或者同类的问题就可以了。但我认为只能说会使用算法包，但对算法原理不能有清晰认识，不能举一反三，这样的数据科学家，不管你做多长时间，始终会停留在初级的层面上。会使用一千种算法却没有深入了解，相当于是学了一千种招式但内功没有练好;如果你把内功练好，招式学的很快。

　　不能盲从，哪个工具好就用哪个。比如，现在深度学习很火，大家都是用深度学习，但是对深度学习的基本原理又不太了解。这种心态的话是走不长远的，因为使用层面上这个基本上没门槛，对于懂编程的人来说，调用人家的库做一个事情可能也就是一天两天的事情。这样做我不认为有什么特别大价值，一定要去深入了解算法背后的原理。即使你自己不去实现算法，这个对你以后遇到什么问题，用什么样的算法，或者自己去定义问题有很大帮助。数据科学里面有很多是定义问题，你对算法、对数学掌握的更深一些，就能够把问题数学化更好，选择更好的工具来解决。

　　对于学生而言，如果你是一名大学生，学校若是有相关的选修课可以去选修。虽然有一些大学已经开设了大数据专业，但是这还不是普遍性的;因为从高等教育的专业设置跟时代的发展是有一定的滞后性，更多需要自己去关注。网上学习资料很多，包括TalkingDataUniversity也有很多的公开课程，如果自己真的有兴趣的话，可以去自学很多东西。想找到这样的学习资料，机会都是比较容易的，就看自己用不用心。如果是中学生还是好好学习，争取在好大学就读计算机、数学的相关专业，不管大数据还是科学方面打下好的基础。如果既有数学的背景又有计算机背景，在数据科学方面有很大的优势。纯数学背景或者纯计算机背景在数据科学方面都会有一些短板。

　　谈机器学习、人工智能带来的变化

　　怎么看待机器学习和人工智能给人类带来的影响?这个问题很大。AlphaGo是一个非常大的突破：因为之前认为按照计算量的发展，需要50年或者100年才能够达到超越人的水平;没想到2016年就超过了。这突破式发展让大家现在对人工智能抱有很大热情。

　　我个人认为现在人工智能确实可以做很多很多的事情。其实在AlphaGo之前，就已经有很多智能的技术就在影响我们的生活，像推荐系统、精准广告，只不过这是个比较平缓的发展，大家没有感觉出来。未来认为还将依旧是平缓的发展，AlphaGo更像一个标志性事件，意味着达到了一个水平，但是这个突破并不是突然，经过多年的不管是数据、技术还是算法的积累，这是一个必然结果。

　　未来的人工智能应用，目前整个业界更关注的就是智能驾驶，不管是国内的百度、国外的Uber都在做测试。这可能是接下来五年之内人工智能有希望取得比较大的进步方向。其他领域，人工智能可能会比较润物细无声，不会有特别大的变化。

　　现在一直在发展，像广告会做得越来越智能，越来越符合你的需求。我们看看，原来广告是怎么做的，我们会分析人的兴趣;我们昨天还在跟一个剑桥的教授聊，他们在分析人的性格，根据性格，同一个广告我给你不同的广告素材，这不是一个飞跃性的发展，是逐步渐进式的发展。现在还会看到很火热的聊天机器人，我们目前认为通用性的聊天机器人短期内看不到真正落地的场景，现在更多会垂直化发展。

　　在垂直领域产生价值，国外有一些公司在做小场景的应用创新，比如有一家公司在做一个简单的事情，国外很多人都会收到贴停车罚单，这家公司做的是一个法庭申诉咨询聊天机器人，他给你建议，怎么到法庭上申诉，成功率可以达到64%。这里的case不是通用性的，是在法律范围内，属于非常固定的场景，但是能够起到很好的效果。聊天机器人我们用了很多的技术，但现在即使是比较成熟的技术，还没有到能够真正理解人的话语里面的逻辑。做成通用的无所不能的聊天机器人，短期内还是难以实现。在限定领域，第一，问题空间变得很小;第二，人对机器的期望会降低，我并不是说真的把你当做一个朋友在聊，你帮我解决特定的问题。人对体验上的要求降低了，问题空间减少了，这样就能够起到比较好的效果，未来就有比较微小的智能会逐步围绕着我们生活出现。

　　至于人工智能的发展，什么时候量变变成质变。我个人认为，如果从强人工智能的角度看，现在的技术水平离这块比较遥远。举例说明，深度学习的发展，本质上深度学习、神经网络，从数学上看是函数拟合器，现在还不太具备理解世界的能力，更多是去从某种层次上模仿人的决策函数，或者说它并不会理解里面的因果关系。我个人认为在这方面还不能够有特别大的突破，也就是说科幻片里面人工智能还是相对来说比较遥远的。

　　基于现在的技术，包括未来数据会越来越多，在两者的发展结合下，我认为智能确实会越来越多，但是都是功能性的智能：驾驶领域有驾驶的智能，推荐领域有推荐的智能，语音助手中有语音助手的智能，这些都是未来5-10年内能够看到的。

来源：https://blog.csdn.net/dashenghuahua/article/details/53541583

IT公司该如何落实机器学习?的更多相关文章

面试总结之人工智能AI（Artificial Intelligence）/ 机器学习（Machine Learning）
刚面完 AI 岗,这几点分享给你!- AI科技大本营 https://mp.weixin.qq.com/s/05G5HKSkZwhwnmskijToLQ 1.训练决策树时的参数是什么? 2.在决策树的 ...
【译】AI 让科技公司变得更强大吗
机器学习可能是当今技术中最重要的基本趋势.由于机器学习的基础是数据 - 大量的数据 - 很常见的是,人们越来越担心已经拥有大量数据的公司会变得更强大.这有一定的道理,但是以相当狭窄的方式,同时ML也看 ...
英特尔投资：7200万美元投资12家创新公司，包括3家中国公司（www.intelcapital.com）
集微网消息,英特尔投资——英特尔公司全球投资机构,今天在英特尔投资全球峰会上宣布向12家科技创业公司投资超过7200万美元.加上今天宣布的新投资,英特尔投资在2018年投资总额已超过1.15亿美元. ...
谁说搞Java的不能玩机器学习？
简介机器学习在全球范围内越来越受欢迎和使用. 它已经彻底改变了某些应用程序的构建方式,并且可能会继续成为我们日常生活中一个巨大的(并且正在增加的)部分. 没有什么包装且机器学习并不简单. 它对许多人 ...
2016中国人工智能企业TOP100, CBinsight2016年100家人工智能公司
2016中国人工智能企业TOP100 不论在学界还是业界,均有代表人物对人工智能表示了担忧,如史蒂芬·霍金和比尔·盖茨.尽管如此,国内外科技巨头都积极发力人工智能,一波波创业者也相继涌入.人工智能成为 ...
分布式系统(Distributed System)资料
这个资料关于分布式系统资料,作者写的太好了.拿过来以备用网址:https://github.com/ty4z2008/Qix/blob/master/ds.md 希望转载的朋友,你可以不用联系我．但 ...
想从事分布式系统，计算，hadoop等方面，需要哪些基础，推荐哪些书籍？--转自知乎
作者:廖君链接:https://www.zhihu.com/question/19868791/answer/88873783来源:知乎分布式系统(Distributed System)资料 < ...
让项目管理理论“落地”——读《IT项目经理成长手记》有感
最近利用业余时间阅读了一本好书--<IT项目经理成长手记>(潘东.韩秋泉著).本书的两位作者是神州数码(中国本土最大的整合IT服务提供商)的高管,在书中他们介绍了神州数码在IT项目管理领域 ...
使用Spring Cloud连接不同服务
http://www.infoq.com/cn/articles/spring-cloud-service-wiring 主要结论 Spring Cloud为微服务系统中相互依赖的服务提供了丰富的连接 ...

随机推荐

多核vs多处理器
多核vs多处理器多核CPU性能最好,但成本最高:多CPU成本小,便宜,但性能相对较差线程数=cpu处理器个数 * 一个cpu内的核数[如果有超线程,再乘以超线程数] 多核 CPU 和多个 CPU ...
Spring boot后台搭建二集成Shiro权限控制
上一篇文章,实现了用户验证查看,接下来实现下权限控制权限控制,是管理资源访问的过程,用于对用户进行的操作授权,证明该用户是否允许进行当前操作,如访问某个链接,某个资源文件等 Apache Shir ...
【VS开发】VS2015没修改源文件也导致重新编译的解决办法
在使用VS2010编译C++程序的时候,每次修改工程中的某一个文件,点击"生成-仅用于项目-仅生成**"时,往往都是整个工程都需要重新编译一遍.由于这个工程代码量太大,每次编译完成 ...
[ARM-Linux开发]linux 里 /etc/passwd 、/etc/shadow和/etc/group 文件内容解释
linux 里 /etc/passwd ./etc/shadow和/etc/group 文件内容解释一./etc/passwd 是用户数据库,其中的域给出了用户名.加密口令和用户的其他信息 /etc ...
使用memcpy函数时要注意拷贝数据的长度
memcpy函数简介 memcpy函数是C/C++语言中的一个用于内存复制的函数,声明在 string.h 中(C++是 cstring).其原型是: void *memcpy(void *desti ...
2019CCPC网络赛
^&^ (HDU 6702) Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Other ...
Appium移动端自动化测试--录制测试用例并运行
目录文章目录如下录制用例并执行 1.使用Appium desktop录制用例 2.安装Pythony依赖Appium-Python-Client 3.增加隐式等待增强稳定性 4.重新运行文章目录 ...
Django框架深入了解_04(DRF之url控制、解析器、响应器、版本控制、分页)
一.url控制基本路由写法:最常用 from django.conf.urls import url from django.contrib import admin from app01 impo ...
【IDEA使用技巧】（2） —— 模板设置
1.IntelliJ IDEA模板使用 1.1.IDEA Live Templates的使用选择File—Settings,在Editor中选择Live Templates,即可查看现有对所有语言的 ...
Python Paramiko实现sftp文件上传下载以及远程执行命令
一.简介 Paramiko模块是基于Python实现的SSH远程安全连接,用于SSH远程执行命令.文件传输等功能. 安装模块默认Python没有自带,需要手动安装: pip3 install par ...

IT公司该如何落实机器学习?

IT公司该如何落实机器学习?的更多相关文章

随机推荐

热门专题