概览

Retrieval-Augmented Generation，检索增强生成。顾名思义，用检索到的信息增强大模型生成的内容，可能是增强准确性，也可能为了增强多样性，总之就是在增强这个大模型的回答。

这项技术可以帮你构建一个更专业的“智能客服”，“知识助手”。

问题

需要一个大模型，但是这个大模型不可能了解你家产品，更不可能知道你家产品和其他众多产品的具体差异。

或许可以把公司的各种文档和用户的问题一起交给大模型？

可以的，但是你的文档或许会太长（甚至超过了模型上下文窗口大小，模型会边读边忘），模型找不到准确位置，也难以理解和总结。模型推理成本很高，模型推理很慢。

RAG 首先将文档切分成片段，根据用户的问题定位具体片段，将片段和问题一起发给大模型。

分片的方法很多，可以简单的几千字一段，也可以按照章节段落等。

🍡通过 Embedding 将片段转化为向量，然后将向量和片段文本存入数据库。向量可以作为查找到索引（一般几百几千维）

嵌入模型推荐

各个片段的嵌入向量会存入向量数据库（原始文本也存），得到嵌入向量并存好的过程就叫索引。

用户提问后，将问题进行嵌入，嵌入后发送到向量数据库，找到若干个（看你想要多少个）相似的嵌入向量，将对应文本片段返回。求相似度一般使用余弦相似度，欧氏距离或者点积。

从召回的片段里选一些和问题最相似。看起来和召回阶段重复，其实两者求相似度的方法不同。

召回阶段，只是为了快速找到合适的片段，准确率低。

重排阶段，使用名为 cross-encoder 的模型计算问题与片段的相似度。准确率高，但更慢。

将筛选到的片段和问题一起发给模型。

BV1JLN2z4EZQ