解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量
话接上文的召回多样性优化,多路索引的召回方案可以提供更多的潜在候选内容。但候选越多,如何对这些内容进行筛选和排序就变得更加重要。这一章我们唠唠召回的信息密度和质量。同样参考经典搜索和推荐框架,这一章对应排序+重排环节,考虑排序中粗排和精排的区分主要是针对低延时的工程优化,这里不再进一步区分,统一算作排序模块。让我们先对比下重排和排序模块在经典框架和RAG中的异同
- 排序模块
- 经典框架:pointwise建模,局部单一item价值最大化,这里的价值可以是搜索推荐中的内容点击率,或者广告中的ecpm,价值由后面使用的用户来决定
- RAG:基本和经典框架相同,不过价值是大模型使用上文多大程度可以回答问题,价值的定义先由背后的大模型给出,再进一步才能触达用户。更具体的定义是,排序模块承担着最大化信息密度的功能,也就是在更少的TopK内筛选出尽可能多的高质量内容,并过滤噪声信息。
- 重排模块
- 经典框架:Listwise建模,通过对item进行排列组合,使得全局价值最大化,进而使得用户多次行为带来的整体体验感更好。这里的整体可以是一个搜索列表页,一屏推荐信息流,也可以是更长的一整个session内用户体验的整体指标,以及背后的商业价值。常见的做法是打散,提高连续内容的多样性,以及前后内容的逻辑连贯性,不过打散只是手段,全局价值才是终极目标
- RAG:概念相似,通过重排优化模型对整体上文的使用效率。优化模型对上文的使用,提升信息连贯性和多样性,最小化信息不一致性和冲突。不过当前大模型对话式的交互方式更难拿到用户体验的反馈信号,想要优化用户体验难度更高。
下面我们分别说两这两个模块有哪些实现方案
1. 排序模块
上一章提到使用query改写,多路索引,包括bm25离散索引,多种embedding连续索引进行多路内容召回。这种方案会提供更丰富的内容候选,但也显著增加了上文长度。而很多论文都评估过,过长的上文,以及过长上文中更大比例的噪声信息,都会影响模型推理的效果,如下图
因此如何从这些召回内容中排序筛选出更出质量更高的内容,过滤噪声信息就是排序模块需要做的。考虑不同索引之间对于相似度的计算打分相互不可比,更不可加,因此需要统一的打分维度来对候选内容进行排序,这里提供两个无监督的混合排序打分方案
1.1 RRF混排
多路召回混合排序较常见的就是Reciprocal Rank Fusion(RRF),把所有打分维度都转化成排名,每个文档的最终得分是多路打分的排名之和的倒数。通过排名来解决不同打分之间scale的差异性。公式如下,其中r(d)是单一打分维度中的文档排名,K是常数起到平滑的作用,微软实验后给的取值是60。
以下是微软搜索中使用RRF类合并文本检索和向量检索的一个示意图,使用RRF分别对文本检索和向量检索的多路召回内容进行混合排序
1.2 信息熵打分
除了使用排名来对各路召回的内容质量进行归一化,当然也可以使用统一的模型打分来对内容质量进行衡量,比如可以使用Bert Cross-Encoder BGE-Reranker来对所有候选文档来进行打分排序,利用cross模型比embedding模型更精准的特点来进一步对召回内容进行过滤。
这里我想聊聊除了相关性之外的另一个内容质量评估维度 - Information-Entropy。Information-Entropy是从文本信息熵的角度对内容有效性和质量进行打分筛选,有以下几种不同的信息熵度量方式
1.2.1 Selective-Context
Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering
Selective-Context使用自信息对内容质量进行评估。上一次碰到自信息,还是在做新词挖掘的算法。放在内容质量筛选也是同样的道理,熵值越低(不确定性越低),自信息越低的token带给语言模型的信息量就越低,例如停用词,同义词等等。因此自信息更低的内容本身的价值更低。不过自信息的计算是token粒度的,想要对短语,句子,段落进行计算可以近似采用token求和的方式,也就是假设token之间是相互独立。但是越大粒度的信息合并,简单求和的自信息误差越大,因为token并非真正独立。因此单纯使用内容自信息的计算方式更适合短语粒度的上文内容压缩,似乎不完全适合对RAG召回的段落内容进行打分,不过不要着急接着往后看哟~
以下是Selective-Context通过自信息对Context进行压缩的效果,至于压缩幅度和压缩后对模型推理的影响我们放到最后一起对比
1.2.2 LLMLingua
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
LLMLingua同样是使用token熵值来对内容质量进行打分,不过进一步放松了token独立性的假设。 计算公式如下,先把整个上文context分段,论文使用100个token为一段。以下\(S_{j,i}\)为第j个段落中第i个字,\(\tilde{S}_j\)是第j个段落前所有段落经过压缩后的内容。也就是在计算当前段落每个字的熵值时,会把之前已经压缩过的内容拼接在前面,使得对更大粒度的段落熵值估计更加准确。
1.2.3 LongLLMLingua
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
LongLLMLingua进一步把完全基于内容的信息熵,优化成了基于内容回答问题的条件熵,更完美的适配RAG框架中排序模块对召回内容整体打分的要求。
以上LLMLinugua和Selective-Context单纯对上文内容的熵值进行计算,但很有可能熵值高的内容虽然包含大量信息但都和问题无关,只是单纯的信息噪声。因此LongLLMLingua在熵值计算中引入了问题,那无非就是两种计算方案,要么给定问题计算内容的熵值,要么给定内容计算问题的熵值。论文考虑内容中可能是有效信息和噪声信息的混合,因此选用了后者。也就是给定每段召回内容,计算问题的熵值。
这里论文还在问题前加了一段指令,"\(X^{restrict}=\)we can get the answer to this question in the given documents",通过增加内容到问题的关联程度,来优化条件熵的计算。
论文对比了不同打分排序方案,包括BM25,各种向量embedding,以及LLMLingua,其中LongLLMLinuga在TopK文档的召回率上显著更优,如下图。具体的压缩率和推理效果对比,我们放到后面的重排模块一起来说。
LongLLMLingua在以上的段落打分之外,还加入了对段落内部token级别的内容压缩。也就是先筛选TopN段落,再在段落内筛选有效Token。不过看论文效果感觉段落排序的重要性>>内容压缩,这部分就不再赘述,感兴趣的朋友去看论文吧~
重排模块
针对排序模块筛选出的TopK上文候选,重排模块需要通过对内容进一步排列组合,最大化模型整体推理效果。和排序模块最大的差异在于它的整体性,不再针对每个Doc进行独立打分,而是优化整个Context上文的效果。主要有以下两个优化方向:一个是文档位置的优化,一个是文档之间关联性的优化
文档位置
- LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
- Lost in the Middle: How Language Models Use Long Contexts
- https://api.python.langchain.com/en/latest/document_transformers/langchain.document_transformers.long_context_reorder.LongContextReorder.html#
针对文档位置的最优化就是Lost in the Middle(上图),相信大家可能都比较熟悉。简单说就是大模型在使用上文推理时,倾向于使用最前面和最后面的内容,而对中间的内容爱搭不理。因此可以基于内容的质量,把重要的内容放在Context的前面和后面。
LongLLMLingua也做了类似的尝试,并且认为前面的位置比后面更加重要,因此直接使用上面排序模块对段落的打分,对排序后保留的候选内容,进行重新排列,按照分数由高到低依次从前往后排列。
最后来一起看下效果,在LongLLMLingua中,论文对比了各种相似度排序方案保留TopN文档,并使用该排序方案进一步重排内容的效果。在2倍和4倍的压缩率下LongLLMLingua的效果都是显著最好的,不过可以发现只使用LongLLMLingua进行排序(Retrieval-base Methods)并做重排(Reorder列)的效果其实就已经不差了,而段落内部的token压缩更多是锦上添花。
文档关联性
- https://python.langchain.com/docs/integrations/retrievers/merger_retriever
- MetaInsight: Automatic Discovery of Structured Knowledge for
Exploratory Data Analysis
以上排序和重排的逻辑,都是考虑问题和召回内容之间的关联性,但都没有引入Context内部不同召回内容之间的关联性。
langchain的LOTR (Merger Retriever)实现了部分类似的功能,包括使用embedding对多路召回的内容进行消重,以及对内容进行聚类,每个聚类中筛选最靠近中心的一条内容。这一步可以放在排序中去做,也可以放在排序后的重排模块。
之前解密Prompt系列19. LLM Agent之数据分析领域的应用章节提到的微软的MetaInsight也引入了类似的打散逻辑。其中
- 内容的整体价值=每条内容的价值之和-内容之间重合的价值
- 两两内容重合价值=两条内容打分的最小值*内容重合率
那放到RAG框架可能就可以使用以上的信息熵来作为打分,相似度来作为重合率
这块我们也在尝试中,所以没有结论性的内容,这里只抛出几个问题,有试验过效果的有缘人可以在评论区回复
- 信息连贯性:把内容相似的多个召回连续排列,会比散落在Context各处效果更好么
- 信息多样性:对召回内容进行聚类,把内容相似观的多个召回进行消重,或者只使用每个cluster内距离类中心最新的一条或TopN条内容,会提升推理效果么
- 信息一致性:观点或内容冲突的多个召回内容,对推理的影响有多大
想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryPrompt
Reference
- 推荐系统[四]:精排-详解排序算法LTR (Learning to Rank)_ poitwise, pairwise, listwise相关评价指标,超详细知识指南。
- 多业务建模在美团搜索排序中的实践
- 搜索重排序和推荐列表重排序,在建模思路上有什么异同?
- Transformer 在美团搜索排序中的实践
- 工业界(搜索 推荐)粗排模型一般怎么做?
- 知乎搜索排序模型的演进
解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量的更多相关文章
- 解密Prompt系列6. lora指令微调扣细节-请冷静,1个小时真不够~
上一章介绍了如何基于APE+SELF自动化构建指令微调样本.这一章咱就把微调跑起来,主要介绍以Lora为首的低参数微调原理,环境配置,微调代码,以及大模型训练中显存和耗时优化的相关技术细节 标题这样写 ...
- 解密prompt系列5. APE+SELF=自动化指令集构建代码实现
上一章我们介绍了不同的指令微调方案, 这一章我们介绍如何降低指令数据集的人工标注成本!这样每个人都可以构建自己的专属指令集, 哈哈当然我也在造数据集进行时~ 介绍两种方案SELF Instruct和A ...
- 解密Prompt系列2. 冻结Prompt微调LM: T5 & PET & LM-BFF
这一章我们介绍固定prompt微调LM的相关模型,他们的特点都是针对不同的下游任务设计不同的prompt模板,在微调过程中固定模板对预训练模型进行微调.以下按时间顺序介绍,支持任意NLP任务的T5,针 ...
- 解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning
这一章我们介绍在下游任务微调中固定LM参数,只微调Prompt的相关模型.这类模型的优势很直观就是微调的参数量小,能大幅降低LLM的微调参数量,是轻量级的微调替代品.和前两章微调LM和全部冻结的pro ...
- 解密Prompt系列4. 升级Instruction Tuning:Flan/T0/InstructGPT/TKInstruct
这一章我们聊聊指令微调,指令微调和前3章介绍的prompt有什么关系呢?哈哈只要你细品,你就会发现大家对prompt和instruction的定义存在些出入,部分认为instruction是promp ...
- 2.Java 加解密技术系列之 MD5
Java 加解密技术系列之 MD5 序 背景 正文 结束语 序 上一篇文章中,介绍了最基础的编码方式 — — BASE64,也简单的提了一下编码的原理.这篇文章继续加解密的系列,当然也是介绍比较基础的 ...
- 10.Java 加解密技术系列之 DH
Java 加解密技术系列之 DH 序 概念 原理 代码实现 结果 结束语 序 上一篇文章中简单的介绍了一种非对称加密算法 — — RSA,今天这篇文章,继续介绍另一种非对称加密算法 — — DH.当然 ...
- 8.Java 加解密技术系列之 PBE
Java 加解密技术系列之 PBE 序 概念 原理 代码实现 结束语 序 前 边的几篇文章,已经讲了几个对称加密的算法了,今天这篇文章再介绍最后一种对称加密算法 — — PBE,这种加密算法,对我的认 ...
- 4.Java 加解密技术系列之 HMAC
Java 加解密技术系列之 HMAC 序 背景 正文 代码 结束语 序 上一篇文章中简单的介绍了第二种单向加密算法 — —SHA,同时也给出了 SHA-1 的 Java 代码.有这方面需求的童鞋可以去 ...
- 1.Java 加解密技术系列之 BASE64
Java 加解密技术系列之 BASE64 序号 背景 正文 总结 序 这段时间,工作中 用到了 Java 的加解密技术,本着学习的态度,打算从这篇文章开始,详细的研究一番 Java 在加解密技术上有什 ...
随机推荐
- langchain中的LLM模型使用介绍
简介 构建在大语言模型基础上的应用通常有两种,第一种叫做text completion,也就是一问一答的模式,输入是text,输出也是text.这种模型下应用并不会记忆之前的问题内容,每一个问题都是最 ...
- padans 常用的统计方法
#coding=utf-8import pandas as pdimport numpy as npfile="./IMDB-Movie-Data.csv"data=pd.read ...
- 西门子Teamcenter 许可分析
西门子Teamcenter 许可 绑定了主机名称,mac地址 另外,Teamcenter可以支持多个许可服务 所以.......................找个正式许可复制就可以 end succ ...
- 8月Node服务的3场事故
有句话叫每一起严重事故的背后,必然有 29 次轻微事故和 300 起未遂先兆以及 1000 起事故隐患. 而我最近更是碰到了 3 起比较严重的线上事故,都是大意惹的祸. 一.数据库锁死 第一起事故发生 ...
- 造轮子之ORM集成
Dotnet的ORM千千万,还是喜欢用EF CORE 前面一些基础完成的差不多了,接下来可以集成数据库了,官方出品的ORM还是比较香.所以接下来就是来集成EF CORE. 安装包 首先我们需要安装一下 ...
- 自学一周python做的一个小游戏《大球吃小球》
需求 1,显示一个窗口. 2,我们要做到的功能有鼠标点击屏幕生成小球. 3,生成的小球大小随机,颜色随机,向随机方向移动,速度也随机. 4,大的球碰到小球时可以吃掉小球,吃掉后会变大. 5,球碰到边界 ...
- db-cdc之mysql 深入了解并使用binlog
1.什么是binlog? 2.binlog可以用来干什么? 3.怎么样使用binlog? binlog是记录所有数据库表结构变更(例如CREATE.ALTER TABLE-)以及表数据修改(INSER ...
- JVM-内部类分析
一.内部类和外部类调用及字节码解释 外部类使用 内部类: 非静态内部类: JVM字节码 非静态内部类类 多了一个外部类对象的属性:final synthetic Field this$0:" ...
- 比较并交换(compare and swap, CAS)
比较并交换(compare and swap, CAS),是原子操作的一种,可用于在多线程编程中实现不被打断的数据交换操作,从而避免多线程同时改写某一数据时由于执行顺序不确定性以及中断的不可预知性产生 ...
- 用ps命令查看进程的内存
http://blog.csdn.net/tigerscorpio/article/details/5960705 http://blog.csdn.net/licanhua/article/deta ...