StartDT_AI_Lab | 开启“数据+算法”定义的新世界
继「数据中台技术汇」栏目推出以来,获得了不少技术极客的喜爱。作为AI驱动的数据中台创导者,深度关注核心算法技术的自研创新、融合探索,故推出全新AI算法栏目「StartDT_AI_Lab」,主要介绍算法团队所承担的角色与工作。本文先回顾这些年大数据之路,帮大家理解在奇点云发展过程中,人工智能技术是如何由业务需求孵化并成长为产品一部分的,同时为今后的分享内容做一个宏观概述。
2013年,一本《大数据》成了不少技术人案头必备的读物。它像是一盏照灯,将数字世界的完整尺度突然照亮,这时大家才意识到原来数字世界已经长如此大了。
从彼时起,大数据成了之后几年最热门的话题。随之而出的各类概念,如“DT时代”、“云计算”、 “DMP”等等,层出不穷。而其中的核心要素就是 “数据” ,数据两字似乎已成为技术界的圭臬。很多人将这次由大数据而带起的技术革新浪潮誉为“第四次工业革命”,而将数据比喻为本次工业革命的 “石油”。恍惚间,颇有 “得之则生,弗得则死”之意。随后几年,各家公司都掀起了“囤数据”运动,凡是能存入硬盘的,绝不删除。“不管现在有用没用,先存着,未来一定有用”的观念,成了各家公司CIO、CDO们的指导思想。
然而,在“囤数据”运动方兴未艾,正推着硬盘价格也一路上涨的发展进程中,却有一个声音如幽灵般飘来,并日渐响亮:数据无用!这声音来自于这一运动中“出师未捷身先死”的烈士们,他们曾是“大数据”最忠实的拥趸,却在数据价值的追寻中日趋迷茫,最终被“囤数据”、“开采数据”所带来的成本飙涨压垮。
数据有用还是无用,成了一个可以讨论的辩题。双方各执一词,谁也说服不了谁,共同在这DT时代吐出了这样一句饱含憧憬却无奈的叹息:
如果你爱他,请给他数据,因为数据为王。
如果你恨他,请给他数据,因为数据为亡。
那么数据到底有没有用呢?不妨从奇点云多年积累的数据经验视角,我们一起来认真审视一下。
如果只是裸数据本身,可能确实是用处不大,正如汽车无法通过灌注原油驱动一样。
所以从数据中提取的信息才有用是吗?也不尽然,因为提取出来的信息大都支离破碎,并无法直接洞察商业情报。那么从信息中组合分析得出的商业情报才是价值点?还不够,因为情报本身如果不能转化为决策去执行,再多的情报也无法带来收益。
那以情报为依据,通过业务经验分析判断进行决策,是否就是DT时代的智能商业呢?还不完整,因为同一业务问题,解法是多元的,决策还需有效评估与优化迭代才能补全数据回环。
现在,一幅比较完整的数据转化利用的回环已经形成,而这也是我们的使命「让商业更智能」背后的方法论。
有了这一方法论为依归,整体建设思路也就基本明晰了。目前大家在已有的文章中,已知道我们的Simba和数据中台,其在商业智能化回环中的位置如下图所示:
显然,这一产品架构并没有覆盖整条商业智能化回环。尤其,从我们的愿景出发,帮助实体商家拥有淘宝一样的数据化运营能力,其中很重要的一点是帮助实体商家把线下非数字化、非结构化的各类商业场景数字化、结构化并上云,否则商业智能化回环将无法覆盖实体商家的主要商业场景,所谓的商业效益的提升也就无从谈起了。这其中缺失的便是本文介绍的重点,也是「StartDT_AI_Lab」的主体工作。为了实现覆盖实体商家全面商业场景的完整商业智能化回环而特别研发的三大智能化引擎。其在产品架构中的位置如下:
现在简单为大家介绍一下这三大引擎。
视觉智能引擎,作为数据入口,显然是重中之重。其肩负着为数字世界开疆拓土的重任,有点石成金,化水为油之魔力。
在对其进行产品定义时,我们主要从三个必然和两个凡是对其进行了概念描述:
在战略意义层面:
达成公司愿景的必然前提。
·将实体商家线下场景进行数字化并上线。
线下场景在数字化改造中对于实施成本,部署难度,复制性,易用性等方面要求下的必然要求。
信息革命浪潮中的必然途径。
·拓展互联网,万物互联,全部在线。
在产品定义层面:
凡是实体商家数字化场景需要的。
凡是计算机视觉技术可以发挥比较优势的。
在产品功能定义方面:
可回溯实时多级标签策略
·基础单元->单元属性->行业行为属性->情报摘要,例如人为一级标签,穿着衣饰为二级,是否 试穿某服装为三级,当天这件服装试穿客户的画像分析是四级;
·有业务分析需求反向要求线下数字化;
视频检索
可以回溯视频检索,例如要抽取二级标签相关的信息,只需要根据一级标签的时序、位置信息进行结构化升级和搜索即可;
Vision AI + X:从行业中来的特异性视觉模型
比如“双偷模型”这样的特异模型;
而关于商业洞察引擎和业务决策引擎,在之前的中台栏目中已做过相关介绍,在此不再赘述,只做一点补充。在两个引擎中广泛使用的大数据分析和预测模型得益于视觉智能引擎提供的线下场景数字化后的结构数据,形成了一系列紧贴实体商家实际商业逻辑和经验的特有的大数据模型。
从今日起,本栏目将围绕这三大引擎,自下而上逐一介绍其建构中用到的各类型算法技术和背后的故事,敬请期待!
StartDT_AI_Lab | 开启“数据+算法”定义的新世界的更多相关文章
- EM算法定义及推导
EM算法是一种迭代算法,传说中的上帝算法,俗人可望不可及.用以含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计 EM算法定义 输入:观测变量数据X,隐变量数据Z,联合分布\(P(X,Z|\t ...
- 大数据算法->推荐系统常用算法之基于内容的推荐系统算法
港真,自己一直非常希望做算法工程师,所以自己现在开始对现在常用的大数据算法进行不断地学习,今天了解到的算法,就是我们生活中无处不在的推荐系统算法. 其实,向别人推荐商品是一个很常见的现象,比如我用了一 ...
- Mock.js——数据模板定义
1. 安装 npm install mockjs --save-dev //安装开发依赖 2. 数据模板定义规则 Mock.mock({...}) String: 'string|num1-num2' ...
- OGG_GoldenGate数据表定义方式DEFGEN(案例)
2014-03-09 Created By BaoXinjian
- 【数据算法】Java实现二叉树存储以及遍历
二叉树在java中我们使用数组的形式保存原数据,这个数组作为二叉树的数据来源,后续对数组中的数据进行节点化操作. 步骤就是原数据:数组 节点化数据:定义 Node节点对象 存储节点对象:通过Linke ...
- 大数据算法设计模式(1) - topN spark实现
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...
- React对比Vue(01 数据的定义,使用,组件的写法,目录结构等)
1.脚手架对比 两个都需要安装node node自带npm 然后安装cnpm yarn(有时候 npm会丢包,所以) npm install -g cnpm --registry=https://re ...
- 大数据算法:kNN算法
\一.kNN算法概述 kNN是k-Nearest Neighbour的缩写,这是一种非常简单且易于理解的分类算法.回想我们从小到大在认知事物的过程当中,我们是如何判断一种事物是属于哪种类别的?通常的一 ...
- 滴滴大数据算法大赛Di-Tech2016参赛总结
https://www.jianshu.com/p/4140be00d4e3 题目描述 建模方法 特征工程 我的几次提升方法 从其他队伍那里学习到的提升方法 总结和感想 神经网络方法的一点思考 大数据 ...
随机推荐
- rocketmq 使用
rocketmq 基本使用可以看官网和官网给的demo. https://github.com/apache/rocketmq/tree/master/example 这里主要说明几个点:rocke ...
- 统计web 访问日志的请求数据
tomcat日志格式 在配置文件 server.xml 中,具体参照官方文档 https://tomcat.apache.org/tomcat-8.0-doc/config/valve.html#A ...
- 树上问题&图论模板整理
去除过水的模板,包括但不限于dijkstra(甚至堆优化都被过滤了).SPFA.kruskal.拓扑排序等. 欧拉回路:http://uoj.ac/problem/117 #include<bi ...
- ubuntu搭建web服务器
https://www.linuxidc.com/Linux/2015-11/125477.htm 到“sudo apt-get install libapache2-mod-php5”出现1错误.
- 利用hutool配置发送邮件的问题 及 阿里企业邮箱526 Authentication failure 错误问题
hutool 中发送邮件的配置的比较简单.可以参考hutool 官方的教程. 个人尝试了qq邮箱发送邮件 和 阿里企业邮箱发送邮件. 主要是配置不一样: 一.qq邮箱 qq邮箱 我的邮箱配置是: # ...
- javaweb学习——会话技术(二)
文中部分借鉴了:https://www.cnblogs.com/xdp-gacl/p/3855702.html https://blog.csdn.net/p744174529/article/det ...
- c# 异常处理 try --catch
初学 try---catch 语法 try { 可能会出现异常的代码; 异常出现的那行代码下面的代码全不会执行,直接跳到catch中执行 ... ... } //try和catch之间不能有其他的代码 ...
- 通过编写c语言程序,运行时实现打印另一个程序的源代码和行号
2017年6月1日程序编写说明: 1.实现行号的打印,实现代码的读取和输出,理解主函数中的参数含义. 2.对fgets函数理解不够 3.对return(1); return 0的含义理解不够 4.未实 ...
- SYN洪泛(dos)攻击和DDOS攻击
在TCP三次握手中,服务器为了响应一个收到的SYN,分配并初始化连接变量和缓存,然后服务器发送一个SYNACK进行响应,并等待来自客户的ACK报文段,如果客户不发送ACK来完成该三次握手,最终,服务器 ...
- 以KNN为例用sklearn进行数据分析和预测
准备 相关的库 相关的库包括: numpy pandas sklearn 带入代码如下: import pandas as pd import numpy as np from sklearn.nei ...