1. 问题描述 给你若干篇文档,找出这些文档中最相似的两篇文档? 相似性,可以用距离来衡量.而在数学上,可使用余弦来计算两个向量的距离. \[cos(\vec a, \vec b)=\frac {\vec a*\vec b}{||\vec a||*||\vec b||}\] 因此,用向量来表示文档,然后就可以用余弦来计算两篇文章之间的相似度了. 2. 词袋模型 一篇文档里面有很多很多句子,每个句子又是由一个个的词组成.词袋模型,通俗地讲,就是:把一篇文档看成词袋,里面装着一个个的词. 从而,将一…
VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量. 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core concept):把词语的类型分类,按照其在不同分类上的“倾斜程度”决定向量的值.but,很难决定基向量. 2.把出现过的term(词语)都当作是一个基向量,假定所有的基向量都是相互正交相互独立的.以下我们…
搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏.虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是用户查询与网页内容的相关性.(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响了用户体验).这里要讲的就是:给定用户搜索词,如何从内容相关性的角度对网页进行排序.判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型,常见的检索模型有:布尔模型.向量空间模型.概率模型…
最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的. 1.看一下TF/IDF 我们先来看下一个叫TF/IDF的概念,一般它用来作为一个搜索关键字在文档或整个查询词组的权重的计算方式.前几天看了吴军老师的数学之美系列文章,这个TF/IDF可以追…
原文:http://blog.csdn.net/zhangbinfly/article/details/7734118 最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的. 1.看一下TF/IDF 我们先来看下一个叫TF/IDF的概念,一般它…
深度学习课程笔记(十七)Meta-learning (Model Agnostic Meta Learning) 2018-08-09 12:21:33 The video tutorial can be found from: Model Agnostic Meta Learning Related Videos: My talk for Model Agnostic Meta Learning with domain adaptation Paper: https://arxiv.org/p…
Vector Space Model The vector space model provides a way of comparing a multiterm query against a document. The output is a single score that represents how well the document matches the query. In order to do this, the model represents both the docum…
xml中文档(query)的结构: <topic> <number>CIRB010TopicZH006</number> <title>科索沃難民潮</title> <question> 查詢科索沃戰爭中的難民潮情況,以及國際間對其采取的援助. </question> <narrative> 相關文件內容包含科省難民湧入的地點.人數.受安置的狀況,難民潮引發的問題,参與救援之國家與國際組織,其援助策略與行動內容…
几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序. 贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档: 基于检索代价的概率排序原理: crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D) 如何计算概率 文档d可以表示为向量(d1…
之前的SVM非常的hard,要求每个点都要被正确的划分,这就有可能overfit,为此引入了Soft SVM,即允许存在被错分的点,将犯的错放在目 标函数中进行优化,非常类似于正则化. 将Soft SVM进行对偶转化后,发现与之前的hard SVM非常的像,只是其中一个系数多了个上界. 通过对阿尔法值的范围的讨论,将SVs分成三类:边界外的.free vector.bounded vector 最后讲的是模型的选择.需要注意的是,我们可以根据support vector的数量来确定cross v…
相关反馈的两种类型: “真实”的相关反馈: 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈,返回一些不同的,更好的结果 “假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. 系统根据这些结果改善query 3. 根据改善后的query得到结果并返回 Rocchio's Modified Query Modified query vector = Original query vector + Mean of relevant documents found by or…
主要目的: 在网络信息检索中,对每个文档的重要性作出评价. Basic Idea: 如果有许多网页链接到某一个网页,那么这个网页比较重要. 如果某个网页被一个权重较大的网页链接,那么这个网页比较重要. 随机游走模型: 过程:1.在所有网页中,随机选择一个网页作为游走的开端. 2.然后在当前网页上的超链接中,随机选择一个超链接跳转到下一个网页. 3.大量重复1.2的过程. 重要度计算方法: Pr(pi|p1)表示从编号为1的网页跳转到编号为i的网页的概率,其计算方式为 Pr(Pi|P1) = 1/…
这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样的函数K能使用kernel trick. 此外,核函数还可以衡量两个特征的相似度,值越大,越相似(可用于跟踪哦 ). 接着讲的是Polynomial Kernel,需要注意的是核函数的系数和常量,这会影响到最终的margin. 再接着讲了高斯Kernel,它能将原始数据映射到无限维!但是如果参数选的…
这节课讲的是SVM的对偶问题,比较精彩的部分:为何要使用拉格朗日乘子以及如何进行对偶变换. 参考:http://www.cnblogs.com/bourneli/p/4199990.html http://www.cnblogs.com/xbf9xbf/p/4619866.html…
一.  搜索引擎 组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideration: 1.Economics  2.Scalability 3. Legal issue 二. 网络爬虫(web crawler) web crawler 需要考虑两个问题: politeness (遵守robots协议以及不要频繁访问同一个主机) performance (多线程) 工作过程: 首…
两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接. 注:循环定义 算法过程: 1.找出root set :用户输入一个query,根据query中的term,在文档集中找出包含至少一个term的的文档,使他们构成root set. 2. 找出base se…
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现的. 4.在某一主题下文档中不经常出现的词语,这个词语在这个主题中也是不经常出现的. 5.由此,概率计算方法可以近似为: Ranking 当给定查询q时,怎么根据统计语言模型进行排序呢?有三种排序方法,分别是:1.Query-likelihood 2.Document-likelihood 3.Di…
C#实现在: http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3.统计所得的词频表(杜撰的,为了便于演示用法)如下: w1 w2 w3 w4 w5 w6 w7 w8 w9 w…
主要知识点: boolean model IF/IDF vector space model     一.boolean model     在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定term的doc.must/must not/should(过滤.包含.不包含 .可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据.     二.TF/IDF…
深度学习课程笔记(二)Classification: Probility Generative Model  2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS17.html 本节主要讲解分类问题: classification 问题最常见的形式,就是给定一个输入,我们去学习一个函数,使得该函数,可以输出一个东西(label).如下所示: 其实好多其他的问题,都是分类问题演化而来,都可以通过分类问题来解决,如:物体…
Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer ence, 2013. 源码:https://github.com/danielfrg/word2vec 文章目的 本文的目的是提出学习高质量的词向量(word2vec)的方法,这些方法主要利用在十亿或者百万词汇的数据集上.因此作者提出了两个新颖的模型(CBOW,Skip…
CSS 视觉格式化模型(visual formatting model)是用来处理文档并将它显示在视觉媒体上的机制.他有一套既定的规则(也就是W3C规范),规定了浏览器该怎么处理每一个盒子.以下内容翻译自W3C官方文档,其中加上了自己的一些理解.相关链接:https://www.w3.org/TR/CSS2/visuren.html#block-boxes. 1.可替换元素(Replaced element) 下面的一段话引自MDN: 典型的可替换元素有 <img>. <object&g…
操作系统学习笔记----进程/线程模型----Coursera课程笔记 进程/线程模型 0. 概述 0.1 进程模型 多道程序设计 进程的概念.进程控制块 进程状态及转换.进程队列 进程控制----进程创建.撤销.阻塞.唤醒.... 0.2 线程模型 为什么引入线程 线程的组成 线程机制的实现 用户级线程.核心级线程.混合方式 1. 进程的基本概念 1.1 多道程序设计 允许多个程序同时进入内存运行,目的是为了提高CPU系统效率 1.2 并发环境与并发程序 并发环境: 一段时间间隔内,单处理器上…
1 基础模型(Basic models) 一个机器翻译的例子,比如把法语翻译成英语,如何构建一个神经网络来解决这个问题呢? 首先用RNN构建一个encoder,对法语进行编码,得到一系列特征 然后用RNN构建一个decoder,将编码后的特征信息,解码成英语,以此来生成对应的英语翻译 一个图像生成字幕的例子 首先用CNN构建一个encoder,对图像进行编码,得到一系列特征 然后用RNN构建一个decoder,将编码后的特征信息,解码成文本,以此来生成对图像的字幕描述 2 选择最可能的句子(Pi…
深度学习课程笔记(十二) Matrix Capsule with EM Routing  2018-02-02  21:21:09  Paper: https://openreview.net/pdf/99b7cb0c78706ad8e91c13a2242bb15b7de325ad.pdf  Blog: https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/  [Abstract] 一个…
Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep learning 的教程,虽然介绍的内容很浅,毕竟针对大部分初学者.不管学习到什么程度,能将课程跟一遍,或多或少会对知识体系的全貌有一个大致的理解.如果有时间的话,强烈建议跟完课程的同时完成各项作业.但值得注意的是,机器学习除了需要适当的数理基础之外,还是一门实践科学,只有通过不断的深入积累才能有更好…
深度学习课程笔记(一)CNN 解析篇 相关资料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html 首先提到 Why CNN for Image ? 综合上述三个特点,我们可以看到图像识别有如下的特色: =================================== 分割线 ======================================================= 以上就是整体上来感受下深度神经网络,接下…
vue—你必须知道的   目录 更多总结 猛戳这里 属性与方法 语法 计算属性 特殊属性 vue 样式绑定 vue事件处理器 表单控件绑定 父子组件通信 过渡效果 vue经验总结 javascript 经验总结 更多总结 猛戳这里 属性与方法 不要在实例属性或者回调函数中(例如,vm.$watch('a', newVal => this.myMethod())使用箭头函数.因为箭头函数会绑定父级上下文,所以 this 不会按照预期指向 Vue 实例,然后 this.myMethod 将是未定义.…