机器学习可能是当今技术中最重要的基本趋势。由于机器学习的基础是数据 - 大量的数据 - 很常见的是,人们越来越担心已经拥有大量数据的公司会变得更强大。这有一定的道理,但是以相当狭窄的方式,同时ML也看到了很多能力的扩散 - 可能存在与集中化一样多的分散化。

首先,说机器学习是关于数据的意思是什么?由于ML的学术文化,几乎所有的初级科学都是在创建之后发布的 - 几乎所有新的都是一篇你可以阅读和构建的论文。但是你建造什么?那么,在过去,如果软件工程师想要创建一个系统来识别某些东西,他们就会编写逻辑步骤(“规则”)。要识别图片中的猫,你会编写规则来查找边缘,毛发,腿,眼睛,尖耳等等,并将它们全部拼接在一起并希望它能够正常工作。麻烦的是,虽然这在理论上是有效的,但在实践中它更像是试图制造机械马 - 这在理论上是可行的,但所需复杂性的法令是不切实际的。我们实际上无法描述我们用于行走或识别猫的所有逻辑步骤。通过机器学习,您可以向统计引擎提供示例(大量示例),而不是编写规则,并且该引擎会生成可以区分的模型。你给它10万张标有'cat'的照片和100,000张标有'no cat'的照片,然后机器计算出差异。 ML用自动确定的数据模式取代了手写的逻辑步骤,并且对于一个非常广泛的问题更加有效 - 简单的演示在于计算机视觉,语言和语音,但用例更广泛。您需要多少数据才是移动目标:有研究途径允许ML使用更小的数据集,但就目前而言,(更多)数据几乎总是更好。

因此,问题是:如果ML让你做新的和重要的事情,而ML会更好,你拥有的数据越多,那么这意味着那些已经很大且拥有大量数据的公司会变得更强大了多远?赢家通吃效果有多远?很容易想象良性循环强化了赢家:'更多数据=更准确的模型=更好的产品=更多的用户=更多的数据'。从这里开始,这是“Google / Facebook /亚马逊拥有所有数据”或“中国拥有所有数据”等声明的一个简单步骤 - 担心最强大的科技公司会变得更强大,人口众多的国家也会变得更加强大'对集中使用数据的态度。

好吧,有点。

首先,虽然您需要大量的机器学习数据,但您使用的数据非常特定于您尝试解决的问题。通用电气拥有大量来自燃气轮机的遥测数据,谷歌拥有大量搜索数据,而美国运通有很多信用卡欺诈数据。您不能使用涡轮机数据作为例子来发现欺诈性交易,并且您无法使用网络搜索来发现即将发生故障的燃气轮机。也就是说,ML是一种可推广的技术 - 您可以将其用于欺诈检测或人脸识别 - 但您使用它构建的应用程序并不是一般化的。你构建的每件事只能做一件事。这与之前的所有自动化浪潮大致相同:就像洗衣机只能洗衣服而不洗碗或做饭一样,国际象棋程序不能免税,机器学习翻译系统无法识别猫。您构建的应用程序和您需要的数据集都非常特定于您尝试解决的任务(尽管如此,这是一个移动目标,并且正在进行研究以尝试使学习在不同数据集之间更易于转换)。

这意味着机器学习的实现将得到非常广泛的分布。谷歌不会“拥有所有数据” - 谷歌将拥有所有谷歌数据。谷歌将拥有更多相关的搜索结果,通用电气将拥有更好的引擎遥测技术,沃达丰将更好地分析通话模式和网络规划,这些都是由不同公司构建的不同内容。谷歌更善于成为谷歌,但这并不意味着它在某种程度上擅长于其他任何事情。

接下来,人们可以争辩说,这只意味着每个行业中的大公司都会变得更强大 - 沃达丰,通用电气和美国运通各自拥有“所有数据”,无论他们做什么,因此形成了对抗竞争的护城河。但在这里,它更复杂:有各种有趣的问题,关于谁拥有数据,它的独特性以及它的独特性,以及正确的聚合和分析点。

那么:作为一家工业公司,您是否保留自己的数据并构建ML系统进行分析(或者向承包商支付费用为您做到这一点)?您是否从已经接受过其他人数据培训的供应商那里购买成品?您是将您的数据混合到那里,还是从它衍生出的培训中混合?供应商是否需要您的数据,或者他们已经拥有足够的数据?答案在您的业务的不同部分,不同的行业和不同的用例中会有所不同。

从另一端来看,如果您正在创建一家公司来部署ML来解决实际问题,那么有两个基本数据问题:如何获得第一个数据来训练模型以获得第一个客户,你实际需要多少数据?当然,第二个问题分解为很多问题:问题是通过相对少量的数据解决的,你可以很容易地获得(但许多竞争对手可以获得),或者你需要更多,难以获得数据,如果是这样,网络效应可以从中受益,那么胜利者会采取一切动态吗?产品是否会无限期地获得更多数据,或者是否存在S曲线?

这取决于。

某些数据对于业务或产品而言是独一无二的,或者具有强大的专有优势。 GE发动机遥测可能没有太多用于分析劳斯莱斯发动机,但如果是,他们将不会分享它。这可能是公司创建的机会,但也是许多内部大公司IT和承包商项目发生的地方

一些数据将适用于许多公司甚至许多行业中的用例。 “这个电话有些奇怪”可能是所有信用卡公司的常见分析 - “客户听起来很生气”可能适用于有呼叫中心的任何人。这是“混合”的问题。在这里创建了许多公司来解决许多公司或不同行业的问题,这里的数据存在网络效应。

但也有一些情况,在某一点之后,供应商甚至不需要每个增量客户的数据 - 产品已经在运行。

实际上,随着机器学习几乎扩散到所有东西,一个初创公司可能会看到其中的几个。我们的投资组合公司Everlaw生产法律发现软件:如果你起诉某人并且他们给你发了一辆装满纸的卡车,这会有所帮助。机器学习意味着他们将能够对一百万封电子邮件进行情绪分析(“向我显示焦虑的电子邮件”),而无需根据案例中的数据训练该模型,因为培训该模型的情绪示例不需要来自这一特定诉讼(或任何诉讼)。相反,他们也可以对您的数据进行聚类分析(“向我显示与此相同的电子邮件”),而不会在其他任何地方进行。另一家投资组合公司Drishti使用计算机视觉来检测和分析生产线 - 其中一些功能是根据您的数据进行培训的,有些功能根本不是针对您的业务,而是跨行业。

在极端情况下,我最近采访了一家非常大型车辆的制造商,他们正在使用机器学习来获得更精确的瘪胎检测器。这是训练有关数据(很多很多很多来自扁平轮胎和非扁平轮胎的信号的例子),显然,但是获得这些数据并不难。这是一个特征,而不是护城河。

因此,我之前说过ML启动有两个问题:如何获取数据以及您需要多少?但这些只是技术问题:你还会问你如何进入市场,你的可寻址市场是什么,你解决的问题对你的客户有多大价值,等等。也就是说,很快就会有任何“AI”创业公司 - 他们将成为工业过程分析公司,法律平台公司或销售优化公司。事实上,机器学习的传播并不意味着谷歌变得更强大,但各种各样的创业公司都可以比以前更快地用这种前沿科学建立事物。

这让我想到了我在其他地方使用过的比喻 - 我们应该将机器学习与SQL进行比较。它是一个重要的构建块,允许新的和重要的事情,并将成为一切的一部分。如果你不使用它和你的竞争对手,你会落后。有些人会用这种方式创建全新的公司 - 沃尔玛成功的一部分来自于使用数据库来更有效地管理库存和物流。但是今天,如果你创办了一家零售商并说“......我们将要使用数据库”,这不会让你与众不同或有趣 -  SQL成为了一切的一部分然后消失了。机器学习也会发生同样的情况。

本文为简译,更多详情请参见原文

相关文章:
【推荐】 消息中间件客户端消费控制实践
【推荐】 移动端工程架构与后端工程架构的思想摩擦之旅(2)
【推荐】 Kubernetes网络方案的三大类别和六个场景

【译】AI 让科技公司变得更强大吗的更多相关文章

  1. [转]以Facebook为案例剖析科技公司应有的工具文化

    原文:http://36kr.com/p/146507.html 这是一篇几年前的文章,但对于没有涉及到工具文化这个概念的人来说,还是很新的. 前言 前段时间和大众点评的 CEO 张涛聊天的时候碰到内 ...

  2. 以Facebook为案例剖析科技公司应有的工具文化

    http://www.36kr.com/p/146507.html 编者按:本文由 @王淮Harry哥 撰写,摘自他即将出版的新书.王淮是 Facebook 早期员工,中国藉第二位工程师第一位研发经理 ...

  3. Pluralsight 科技公司公布自己的avaScript 成为最受欢迎的开发技术

    根据 SDTimes 报道,Pluralsight 科技公司公布自己的 Technology Index,JavaScript 位居榜首. Pluralsight,是美国的一家面向软件开发者的在线教育 ...

  4. 美国的科技公司是如何使用加密的DNS

    加密设备和“以隐私为中心”的提供商之间的DNS流量可以阻止某人窥探您的浏览器所指向的位置,或者使用DNS攻击将其发送到其他地方. 该网络中立性的死亡和法规对互联网服务供应商如何处理客户的网络流量的松动 ...

  5. [翻译]Kafka Streams简介: 让流处理变得更简单

    Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...

  6. 数据分析 - 美国金融科技公司Prosper的风险评分分析

    数据分析 - 美国金融科技公司Prosper的风险评分分析 今年Reinhard Hsu觉得最有意思的事情,是参加了拍拍贷第二届魔镜杯互联网金融数据应用大赛.通过"富爸爸队",认识 ...

  7. Kafka Streams简介: 让流处理变得更简单

    Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...

  8. 美国部分科技公司创始及IPO信息

    作者:Ben.Z 时间:2018-04-19 做这份统计表格的目的是为了更好地了解当下美国的IT发展,搞清楚那些耳熟能详的名词的来源. 原文是用WPS统计的,本文仅展示截图. 创始人年龄分析: 1.上 ...

  9. atitit.科技公司的超级武器--超级框架,到底要不要自己的框架??

    atitit.科技公司的超级武器--超级框架,到底要不要自己的框架?? 我们生活的时代,,任何一个时代,总有人会以经济之类的理由劝阻人向未知领域探索,基本上,他们的理由无非几种: 1.把钱投到更需要的 ...

随机推荐

  1. hehe,网易邮箱已经流氓到这个地步了

    网易邮箱现在感觉作死,申请个邮箱还要下载你的APP,好,你牛逼,再见. 这是态度的问题. 最近丢了5亿的用户信息死不承认,撞库能把密保问题给撞出来? 如果真是撞库的话,丁三石养猪也已经感染口蹄疫了吧.

  2. AX_Args

    Args args; FormRun formRun; ; args = new Args(); args.name(formstr(FormName)); args.caller(); args.r ...

  3. python之函数篇3

    一:函数的定义 1)函数的简单使用,无参函数 def f1(): # 定义函数指定函数名 print("hello") # 指定功能 f1() # 调用函数,才能执行函数体里面的功 ...

  4. 使用kbmmw smart service 属性时的一个注意事项

    kbmmw 5.0 以后支持smart service, 这个用起来非常方便,kbmmw 通过 定制属性来简化编程,可以参考我以前的文章.但是这个意味着使用单元引用一定要小心, 否则出了问题,都不知道 ...

  5. Oracle导入的常见语句

    登录sql > sqlplus / as sysdba 创建表空间sql > create tablespace TABLESPACE datafile 'e:\tables1.dbf' ...

  6. 2018.11.07 NOIP训练 lzy的游戏(01背包)

    传送门 考虑对于每次最后全部选完之后剩下的牌的集合都对应着一种构造方法. 一个更接地气的说法: 设消耗的牌数为ttt,如果使用的牌的lll值之和也为ttt,则对应着一种构造方式让这种情形成立. 于是做 ...

  7. js中定时器相关

    每三秒(3000 毫秒)弹出 "Hello" : setInterval(function(){ alert("Hello"); }, 3000); setIn ...

  8. LPCSTR与CString转换

    1.LPCSTR是Win32和VC++所使用的一种字符串数据类型,L表示long,P表示指针,C表示常量,STR表示字符串. 2.LPCSTR转化为CString: LPCSTR  lpStr=&qu ...

  9. [小结]了解innodb锁

    原创文章,会不定时更新,转发请标明出处:http://www.cnblogs.com/janehoo/p/5603983.html 背景介绍: innodb的锁分两类:lock和latch. 其中la ...

  10. .net Json JavaScriptSerializer JsonHelper类

    结合.net 的JavaScriptSerializer 类实现Json数据处理 调用1: Model.Users m = BLL.UsersBLL.GetUserById(Convert.ToInt ...