本教程演示如何使用向量检索服务（DashVector），结合LLM大模型等能力，来打造基于垂直领域专属知识等问答服务。其中LLM大模型能力，以及文本向量生成等能力，这里基于灵积模型服务上的通义千问 API以及Embedding API来接入。

背景及实现思路

大语言模型（LLM）作为自然语言处理领域的核心技术，具有丰富的自然语言处理能力。但其训练语料库具有一定的局限性，一般由普适知识、常识性知识，如维基百科、新闻、小说，和各种领域的专业知识组成。导致 LLM 在处理特定领域的知识表示和应用时存在一定的局限性，特别对于垂直领域内，或者企业内部等私域专属知识。

实现专属领域的知识问答的关键，在于如何让LLM能够理解并获取存在于其训练知识范围外的特定领域知识。同时可以通过特定Prompt构造，提示LLM在回答特定领域问题的时候，理解意图并根据注入的领域知识来做出回答。在通常情况下，用户的提问是完整的句子，而不像搜索引擎只输入几个关键字。这种情况下，直接使用关键字与企业知识库进行匹配的效果往往不太理想，同时长句本身还涉及分词、权重等处理。相比之下，倘若我们把提问的文本，和知识库的内容，都先转化为高质量向量，再通过向量检索将匹配过程转化为语义搜索，那么提取相关知识点就会变得简单而高效。

接下来我们将基于中文突发事件语料库（CEC Corpus）演示关于突发事件新闻报道的知识问答。

整体流程

主要分为三个阶段：

本地知识库的向量化。通过文本向量模型将其转化为高质量低维度的向量数据，再写入DashVector向量检索服务。这里数据的向量化我们采用了灵积模型服务上的Embedding API实现。

相关知识点的提取。将提问文本向量化后，通过 DashVector 提取相关知识点的原文。

构造 Prompt 进行提问。将相关知识点作为“限定上下文+提问” 一起作为prompt询问通义千问。

前提准备

1. API-KEY 和 Cluster准备

开通灵积模型服务，并获得 API-KEY。请参考：开通DashScope并创建API-KEY。

开通DashVector向量检索服务，并获得 API-KEY。请参考：DashVector API-KEY管理。

开通DashVector向量检索服务，并创建Cluster。

获取Cluster的Endpoint，Endpoint获取请查看 Cluster详情。

说明

灵积模型服务DashScope的API-KEY与DashVector的API-KEY是独立的，需要分开获取。

2. 环境准备

说明

需要提前安装 Python3.7 及以上版本，请确保相应的 python 版本。

pip3 install dashvector dashscope

3. 数据准备

git clone https://github.com/shijiebei2009/CEC-Corpus.git

搭建步骤

说明

本教程所涉及的 your-xxx-api-key 以及 your-xxx-cluster-endpoint，均需要替换为您自己的API-KAY及CLUSTER_ENDPOINT后，代码才能正常运行。

1. 本地知识库的向量化

CEC-Corpus 数据集包含 332 篇突发事件的新闻报道的语料和标注数据，这里我们只需要提取原始的新闻稿文本，并将其向量化后入库。文本向量化的教程可以参考《基于向量检索服务与灵积实现语义搜索》。创建embedding.py文件，并将如下示例代码复制到embedding.py中：

点击查看代码

import os

import dashscope

from dashscope import TextEmbedding

from dashvector import Client, Doc

def prepare_data(path, batch_size=25):

    batch_docs = []

    for file in os.listdir(path):

        with open(path + '/' + file, 'r', encoding='utf-8') as f:

            batch_docs.append(f.read())

            if len(batch_docs) == batch_size:

                yield batch_docs

                batch_docs = []

    if batch_docs:

        yield batch_docs

def generate_embeddings(news):

    rsp = TextEmbedding.call(

        model=TextEmbedding.Models.text_embedding_v1,

        input=news

    )

    embeddings = [record['embedding'] for record in rsp.output['embeddings']]

    return embeddings if isinstance(news, list) else embeddings[0]

if __name__ == '__main__':

    dashscope.api_key = '{your-dashscope-api-key}'

    # 初始化 dashvector client

    client = Client(

      api_key='{your-dashvector-api-key}',

      endpoint='{your-dashvector-cluster-endpoint}'

    )

    # 创建集合：指定集合名称和向量维度, text_embedding_v1 模型产生的向量统一为 1536 维

    rsp = client.create('news_embedings', 1536)

    assert rsp

    # 加载语料

    id = 0

    collection = client.get('news_embedings')

    for news in list(prepare_data('CEC-Corpus/raw corpus/allSourceText')):

        ids = [id + i for i, _ in enumerate(news)]

        id += len(news)

        vectors = generate_embeddings(news)

        # 写入 dashvector 构建索引

        rsp = collection.upsert(

            [

                Doc(id=str(id), vector=vector, fields={"raw": doc})

                for id, vector, doc in zip(ids, vectors, news)

            ]

        )

        assert rsp

在示例中，我们将 Embedding 向量和新闻报道的文稿（作为raw字段）一起存入DashVector向量检索服务中，以便向量检索时召回原始文稿。

2. 知识点的提取

将 CEC-Corpus 数据集所有新闻报道写入DashVector服务后，就可以进行快速的向量检索。实现这个检索，我们同样将提问的问题进行文本向量化后，再在DashVector服务中检索最相关的知识点，也就是相关新闻报道。创建search.py文件，并将如下示例代码复制到search.py文件中。

点击查看代码

from dashvector import Client

from embedding import generate_embeddings

def search_relevant_news(question):

    # 初始化 dashvector client

    client = Client(

      api_key='{your-dashvector-api-key}',

      endpoint='{your-dashvector-cluster-endpoint}'

    )

    # 获取刚刚存入的集合

    collection = client.get('news_embedings')

    assert collection

    # 向量检索：指定 topk = 1

    rsp = collection.query(generate_embeddings(question), output_fields=['raw'],

                           topk=1)

    assert rsp

    return rsp.output[0].fields['raw']

3. 构造 Prompt 向LLM(通义千问)提问

在通过提问搜索到相关的知识点后，我们就可以将 “提问 + 知识点” 按照特定的模板作为 prompt 向LLM发起提问了。在这里我们选用的LLM是通义千问，这是阿里巴巴自主研发的超大规模语言模型，能够在用户自然语言输入的基础上，通过自然语言理解和语义分析，理解用户意图。可以通过提供尽可能清晰详细的指令（prompt)，来获取更符合预期的结果。这些能力都可以通过通义千问API来获得。

具体我们这里设计的提问模板格式为：请基于我提供的内容回答问题。内容是{}，我的问题是{}，当然您也可以自行设计合适的模板。创建answer.py，并将如下示例代码复制到answer.py中。

点击查看代码

from dashscope import Generation

def answer_question(question, context):

    prompt = f'''请基于```内的内容回答问题。"

	```

	{context}

	```

	我的问题是：{question}。

    '''

    rsp = Generation.call(model='qwen-turbo', prompt=prompt)

    return rsp.output.text

知识问答

做好这些准备工作以后，就可以对LLM做与具体知识点相关的提问了。比如在 CEC-Corpus 新闻数据集里，有如下一篇报道。因为整个新闻数据集已经在之前的步骤里，转换成向量入库了，我们现在就可以把这个新闻报道作为一个知识点，做出针对性提问：海南安定追尾事故，发生在哪里？原因是什么？人员伤亡情况如何？，并查看相应答案。

创建run.py文件，并将如下示例代码复制到run.py文件中。

点击查看代码

import dashscope

from search import search_relevant_news

from answer import answer_question

if __name__ == '__main__':

    dashscope.api_key = '{your-dashscope-api-key}'

    question = '海南安定追尾事故，发生在哪里？原因是什么？人员伤亡情况如何？'

    context = search_relevant_news(question)

    answer = answer_question(question, context)

    print(f'question: {question}\n' f'answer: {answer}')

可以看到，基于DashVector作为向量检索的底座，LLM大模型的知识范畴得到了针对性的扩展，并且能够对于专属的特定知识领域做出正确的回答。

写在最后

从本文的范例中，可以看到DashVector作为一个独立的向量检索服务，提供了开箱即用的强大向量检索服务能力，这些能力和各个AI模型结合，能够衍生多样的AI应用的可能。这里的范例中，LLM大模型问答，以及文本向量生成等能力，都是基于灵积模型服务上的通义千问API和Embedding API来接入的，在实际操作中，相关能力同样可以通过其他三方服务，或者开源模型社区，比如ModelScope上的各种开源LLM模型来实现。

免费体验阿里云高性能向量检索服务：https://www.aliyun.com/product/ai/dashvector

DashVector x 通义千问大模型：打造基于专属知识的问答服务的更多相关文章

阿里版ChatGPT：通义千问pk文心一言
随着 ChatGPT 热潮卷起来,百度发布了文心一言.Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型"通义千问"正式开启测试! 申请地址:http ...
DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...
华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
AI大模型学习了解
# 百度文心上线时间:2019年3月官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古上线时 ...
无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
PowerDesigner 学习：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
PowerDesigner 15学习笔记：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
文心大模型api使用
文心大模型api使用首先,我们要获取硅谷社区的连个key 复制两个api备用获取Access Token 获取access_token示例代码之后就会输出作文创作作文创作:作文创作接口基于文 ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...

随机推荐

#线性基，点分治#洛谷 3292 [SCOI2016]幸运数字
题目分析题目就是将\(x\)到\(y\)路径上的线性基合并求解, 这里用的是点分治,每次换根到重心的时候维护前缀线性基, 查询的时候如果属于不同的子树就能询问答案,记得\(x=y\)要特判代码 ...
Jetty的console-capture模块
console-capture模块用于记录Jetty运行时向标准输出和标准错误写出的信息. Java的标准输出流,即System.out. Java的标准错误流,即System.err. consol ...
C# Dev GridControl小结
1. 如何解决单击记录整行选中的问题 View->OptionsBehavior->EditorShowMode 设置为:Click 2. 如何新增一条记录 (1).gridView.Ad ...
MyBatis resultMap中collection过滤空字段
在使用MyBatis查询数据时,返回值可以定义为resultMap. 如果返回的对象中有列表,还可以使用collection标签进行定义. 此时,如果不想某些字段为空的数据加入列表,可以使用notNu ...
《苏丹的复仇》携手华为HMS生态，实现用户、收入双增长
中国出海中东和北非地区的策略类手游<苏丹的复仇>(Revenge of Sultans,ROS)和华为HMS生态深度合作,为本地用户带来创新游戏体验,成为当地广受欢迎的游戏之一,下载量居应 ...
BI小白收藏|一文告诉你什么是商务智能
近年来,商务智能(BI)已成为继企业资源计划之后企业信息化建设的热点领域,在国内发展迅速.利用商务智能可以为企业整合集成现有的业务数据,在深度挖掘分析的基础上为管理决策者提供决策辅助,提高科学决策水平 ...
什么是报表工具？和 EXCEL 有什么区别？
报表是什么? 带数据的表格和图表就都是报表,像工资表,考勤表,成绩表,资产负载表等等都是报表. 那报表工具,顾名思义就是用来做报表的工具,那 Excel 是不是也算报表工具?广义上讲当然也算.但 IT ...
ubuntu 20.04.1 安装 PHP+Nginx
ubuntu 20.04.1 安装 PHP+Nginx 更新源 sudo apt-get update 安装环境包 sudo apt-get -y install nginx sudo apt-get ...
Flutter开发技巧集锦
flutter中单例的写法 class AccountManager { factory AccountManager() => _instance ??= AccountManager._() ...
react中<link>和<navlink>区别
两者都是实现路由的跳转.但点击<Link>时,url会更新,组件会被重新渲染,但是页面不会重新加载...使用to链接组件时,它的值既可是字符串,也可以是location对象(包含path ...

DashVector x 通义千问大模型：打造基于专属知识的问答服务

背景及实现思路

整体流程

前提准备

搭建步骤

知识问答

写在最后

DashVector x 通义千问大模型：打造基于专属知识的问答服务的更多相关文章

随机推荐

热门专题