阿里巴巴B2B搜索学习

1.搜索业务

主搜索：商品搜索、商家搜索、采购搜索、app搜索

行业搜索：淘货源、淘工厂、聚好货、主题市场、品牌馆等

2.优势

由于用户多，需求强烈，收益大，所以功能、场景、架构做到极致高效。

代码复用性强：基础通用功能进行组件抽象化
组件通用性好：一些组件或者组件进行组合的服务，适用更多场景，支持更多功能
转化效果好：算法做的比较深入、细致

3.搜索技术架构

架构分为三部分：离线、实时、在线。

离线

NLP文本分析：Natural Language Processing，基于自然语言处理进行文本分析，提取特征
ODPS-MPI：Open Data Processing Service，阿里自己开发的开发数据处理服务，也就是基于Hadoop/MapReduce来跑大数据量的任务，进行机器学习、数据挖掘等工作
ODPS-UNIV：理解应该是一个web平台，来管理复用计算模块、计算任务，如任务调度，输入输出的设置，模块复用等
Dump平台：Universe数据中心生成的离线索引，通过dump平台传到线上搜索引擎

实时

实时部分针对用户行为进行处理反馈，实现个性化

Pora平台用户实时分析：基于Storm的流式计算平台，通过用户行为进行实时收集和分析，及时更新用户特征
Antispam平台内容分析：更新offer特征（offer就是一条返回内容，可以是一个商家、或者一个商品），像标题、交易状态发生变化时重新计算offer的特征，通过dump平台的增量流程，将数据更新到线上搜索引擎
TT实时数据源：淘宝研发的日志收集和分发系统–TimeTunnel

在线

在线搜索引擎接收线上请求，返回排序结果。

SP查询计划：search plane，将查询请求分发给各个平台，对各平台返回结果进行拼串
QP平台：Query Parse
Ups平台：猜测是User parse service，获取用户特征
Isearch平台：搜索引擎，维护索引，接收query，匹配文档，返回结果

4.Query分析

query分析很重要，能更精确的返回用户需要的结果。流程有：

拼写纠错
分词、属性标注
语义归一：同义词标准化
分类：query意图分类，如是搜商家的、或者是泛查询、或者是搜商品
聚类：我理解是用于query扩展，对长尾query给出与其相关更精确的query，扩大召回，提高准确率
个性化：用户历史行为的使用

用到query分析的产品很多，开发就使用了上文提到的代码组件化、功能通用化的思想，如下图，基本小功能模块化，小模块组合成较大的模块，支持不同的应用。

后面的应用场景就不再记录了。

学习资料

http://www.infoq.com/cn/presentations/b2b-search-field-algorithm-challenges

http://www.aliyun.com/product/odps/

http://www.searchtb.com/2012/11/pora.html

阿里巴巴B2B搜索学习的更多相关文章

[转载]SharePoint 2013搜索学习笔记之搜索构架简单概述
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件.可以将这6种组件分别部署到Sharepoint场内的多个服务器上, ...
[转载]SharePoint 2013搜索学习笔记之自定义结果源
搜索中心新建好之后在搜索结果页上会默认有所有内容,人员,对话,视频这四个结果分类,每个分类会返回指定范围的搜索结果,这里我再添加了部门日志结果分类,搜索这个分类只会返回部门日志内容类型的搜索结果,要实 ...
SSM+solr 通过商品搜索学习solr的简单使用
学习了一下https://github.com/TyCoding/ssm-redis-solr这个github上的solr搜索功能,现在来记录一下. 我的理解就是solr有点类似于数据库,但它是有索引 ...
Lucene/Solr企业级搜索学习资源
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http GSol ...
Sharepoint2013搜索学习笔记之搜索构架简单概述(一)
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件.可以将这6种组件分别部署到Sharepoint场内的多个服务器上, ...
Sharepoint2013搜索学习笔记之自定义结果源(七)
搜索中心新建好之后在搜索结果页上会默认有所有内容,人员,对话,视频这四个结果分类,每个分类会返回指定范围的搜索结果,这里我再添加了部门日志结果分类,搜索这个分类只会返回部门日志内容类型的搜索结果,要实 ...
Sharepoint2013搜索学习笔记之自定义结果精简分类(八)
搜索结果页左边的结果精简分类是可以根据搜索结果自定义的,在搜索的部门日志结果集页面上我搜索测试关键字,左边分类导航在默认分类的基础上增加了一个日志类型的分类,如下图: 要实现这个效果,导航到之前定义的 ...
Sharepoint2013搜索学习笔记之自定义结果显示模板(九)
搜索结果通过套用定义好的显示模板来展示结果,显示模板由js和html组成,我们可以通过修改显示模板,然后将修改好的显示模板跟搜索结果绑定起来,来修改搜索结果的显示效果,例子如下图: 修改前修改后第 ...
Sharepoint2013搜索学习笔记之自定义查询规则(十)
自定义查询规则,可以根据搜索的关键字将指定的一个或一堆搜索结果提升到第一的位置,如我搜索周杰伦,可以指定搜索最靠前的结果是sharepoint网站内周杰伦的视频如下图: 第一步,进入管理中心,点击管理 ...

随机推荐

（Python）异常处理try...except、raise
一.try...except 有时候我们写程序的时候,会出现一些错误或异常,导致程序终止.例如,做除法时,除数为0,会引起一个ZeroDivisionError 例子: a=10 b=0 c=a/b ...
ZOJ3790_Consecutive Blocks
给出一个数组,最多可以删除k个数,问能够获得的最长的一个数字连续段为多少? 把所有相同的数字都提取出来,保存取得每个数字需要删除的数字,然后二分枚举就可以了. 召唤代码君: #include < ...
BZOJ1742[Usaco2005 nov]Grazing on the Run
Description John养了一只叫Joseph的奶牛.一次她去放牛,来到一个非常长的一片地,上面有N块地方长了茂盛的草.我们可以认为草地是一个数轴上的一些点.Joseph看到这些草非常兴奋, ...
Java 反射工具类封装
封装了常用的反射相关方法 public class ReflectUtil { /** * 通过类路径获取Class * * @author LHY <br> * Description ...
viewpage滑动查看图片并再有缩略图预览
首先看下效果图, 主要功能分为3大块一是滑动查看,通过viewpage来实现,方法见 http://www.cnblogs.com/lovemo1314/p/6109312.html 二.点击放大 ...
用Python写爬虫爬取58同城二手交易数据
爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import request ...
关于mock server
这篇技术博客是在知乎上看到的知乎js大神张云龙写的这里贴过来记录下,如果侵权请告知将及时删除. --------------------------- 为了更好的分工合作,让前端能在不依赖后端环 ...
Postman-进阶
Postman-简单使用 Postman-进阶使用 Postman-CI集成Jenkins 管理请求保存请求-添加“打开百度首页请求” 设置请求方式为Get,地址为www.baidu.com.点击右 ...
基于OpenCv的人脸检测、识别系统学习制作笔记之三
1.在windows下编写人脸检测.识别系统.目前已完成:可利用摄像头提取图像,并将人脸检测出来,未进行识别. 2.在linux下进行编译在windows环境下已经能运行的代码. 为此进行了linux ...
[转] spring @Entity @Table
实体bean,entity 注解设置持久化是位于JDBC之上的一个更高层抽象.持久层将对象映射到数据库,以便在查询.装载.更新或删除对象的时候,无须使用像JDBC那样繁琐的API.EJB的早期版本中 ...