RAG on Young的博客

PRCA论文阅读笔记

Fri, 26 Dec 2025 00:00:00 +0000

该模块可作为开发物件之一 初步方案：符合语言的Seq2Seq类模型+PRCA调度逻辑微调

1 文献目标

问题

LLM参数太多，调参成本有限
调整logits输出无法适用于通过API提供服务的黑盒模型

解决方案

创建即插即用PRCA 适配器

PRCA模块和RECOMP信息压缩器处于同一生态位，都属于RAG适配器（Adapter）。具体实现上，可以只实现调度部分，

2 具体实现

2.1 训练潜在问题

PRCA模块本身也是一个生成式的模型，它与[[RECOMP(arXiv2310.04408)论文精读笔记#2.3 Abstractive Compressor| Abstractive Expressor]]相似，但是PRCA的训练信号来自于奖励值，而不是来自于LLM和自监督。

PRCA拦在LLM和文档之间的特点带来了如下问题：

文档先经过PRCA吗，才给到LLM，使得检索质量、PRCA加工质量和生成器能力耦合在一起，形成黑箱，难以判定PRCA的实际效用
LLM本身也是个黑盒，无法从中获取梯度以传递给PRCA，标准的监督学习路径被截断

这也是RECOMP可能遇到的问题

PRCA通过划分信息提取阶段和奖励驱动阶段来解耦生成能力和内容调度能力的评估

2.2 信息提取阶段(Contextual Extraction Stage)

第一阶段遵从常规的序列到序列模型微调流程，其目标为：

$$ min \ L(\theta) = -\frac{1}{N}\sum_{N}^{i=1} C_{truth}^{(i)}\log(f_{PRCA}(S_{input}^{(i)}:\theta)) $$

符号：

$C_{truth}^{(i)}$: 真实标签或者期望答案。论文原文没有给出具体获取途径，需要单独设计
$f_{PRCA}$: PRCA神经网络，表达前向传播
$S_{input}^{(i)}$: 查询

原论文中，$f_{PRCA}$使用了BART-Large，此处可以用任意序列到序列模型替代,或更改预训练数据集，以适配具体需求和语种

此处，$C$和$S$都是自然语言序列，具体获取方法为用序列到序列的tokenizer来分别处理，以得到可以被计算机处理的数组数据。

信息提取阶段是PRCA训练的基础，其作用为让序列到序列模型具备文本输出能力或适应领域知识。

2.3 奖励驱动阶段(Reward-Driven Stage)

2.3.1 问题定义

第二阶段通过强化学习微调PRCA，使其生成的上下文更能帮助下游生成器产生正确答案。具体而言，PRCA学习提取和组织信息的方式，以最大化生成器输出与真实答案的相似度。

需要注意的是，在PRCA的设计下：为保障模型的通用性，LLM被视作一个黑盒，只能输出自然语言，允许不输出如logprob，梯度等内部状态。其作用/目的如下：

适配闭源模型 - 可使用任何提供文本API的LLM作为生成器(如GPT-4、Claude、Gemini等)，无需访问模型内部参数或梯度
跨模型迁移能力

训练阶段:可使用成本较低的模型(如DeepSeek)作为奖励信号来源
推理阶段:训练好的PRCA可无缝切换到其他生成器(如Claude、GPT-4)
降低训练成本(使用便宜的API训练)提升推理质量(使用更强的API推理) 规避ToS限制(某些模型禁止用输出训练,但可用于推理)

请注意检查LLM提供商的使用协议，以保障训练行为合规！

该阶段将问题建模为马尔可夫决策过程(MDP):

PKG论文精读笔记

Mon, 15 Dec 2025 00:00:00 +0000

1 文献目标

问题：

LLM缺乏领域针对性知识的获取，如相关知识及专有名词
SOTA LLM通常是黑盒，缺乏透明性且成本高昂导致难以针对领域只是微调
能承担微调费用的用户有隐私暴露风险解决方案：
通过instruction fine-tuning，在与训练阶段将指定领域的知识融入PKG模块
提问时，PKG先生成领域知识，领域知识传递给黑盒LLM辅助作答

2 具体实现

套用Generate-Read 的Modular RAG范式

2.1 内容生成

得到问题$Q$后，LLM通过最大化后验估计(MAP)来生成回应

$$ \hat{A} = argmax_{A} P(A|Q, M^{LLM}) $$

其中$M^{LLM}$是黑盒LLM的参数。该公式含义为：在给定查询$Q$和LLM参数$M^{LLM}$的情况下，总是返回“最可能”的答案。该公式是直接使用LLM时的答案返回机制。

2.2 知识对齐

此时向问题传入PKG模块，其参数为$M^{PKG}$。该模型同样通过最大后验估计来生成回答，此处仅处理背景知识：

$$ \hat{K} = argmax_KP(K|Q, M^{PKG}) $$

即，通过已有的PKG模块$M^{PKG}$，总是返回“最可能”的背景知识。

这一步的实现具体为使用 instructions, input, response三元组的形式来控制PKG模块的输出，大概模板具体如下：

<元指令，告诉模型接下来的输入数据格式是什么，让模型清楚知道自己在干啥>
### Instruction
<用于PKG模块的查询>
% 例如:
### Input
<具体输入的指令和数据>
例如：
### Response:
<期望输出>
% 在此编写你希望模型回复的形式，例如具体的计算过程，要不要用某些指定框架实现，怎么呈现背景知识

以下是一个具体的例子

The following content is an instruction of how to solve a background knowledge providing problem, which contains "instruction", "input" and "expected output". You need to follow such steps for further queries and return content similar to "expected output" descriped below.
### Instruction
Generate background knowledge that helps with data mining problems.
### Input
What is the average salary.
Table:
| name | salary |
| Alice | 70000 |
| Bob | 80000 |
### Output
To calculate average:
- Sum: 70000+80000=150000
- Count: 2 employees
- Average: 150000 / 2 - 75000

2.3 强化查询

将PKG模块融入到LLM中后，后验概率变更为：

RAG综述阅读笔记

Thu, 11 Dec 2025 00:00:00 +0000

论文链接：https://arxiv.org/abs/2312.10997 [[RAG survey.pdf|RAG综述]]

近期更新：2025.12.15，更新次数：1

1.RAG

1.1 什么是RAG

全称：检索增强生成（Retrieval-Augmented Generation）。

1.2 RAG作用阶段

RAG可作用于LLM生命周期的如下位置

预训练：需要自行训练
微调：需要本地部署
推理：这是RAG最早被应用的LLM生命阶段，也是我唯一能够执行操作的阶段

RAG技术早期注重于推理阶段应用，而后逐渐转向微调阶段和预训练阶段

1.3 RAG常见范式

Naive RAG

Naive RAG只有indexing, retrieval和generation三个步骤，是一个线性的过程。

indexing: 包含数据预处理（PDF, markdown, etc. $\rightarrow$ txt），分块，获取嵌入向量
retrieval: 用相同的嵌入模型嵌入用户查询，然后检索文件块
generation: 用文件块扩充查询，让LLM生成答复

特别注意：文档嵌入是离线的，用户输入嵌入是在线的

该方法弊端：

检索部分在精确率和召回率存在不足
模型或将遭遇幻觉，导致输出不存在内容
强化存在障碍：输出不连贯、相似检索导致重复响应

Advanced RAG

该范式主要基于Naive RAG增加了预处理、后处理手段：

预强化(pre-retrieval)：用于强化indexing和用户查询的效用，这是可操作的部分之一。包含如下方法
- Query Routing: 要求某个查询使用指定的检索范围
- Query Rewriting: 重写查询
- Query Expansion: 扩展查询以具体化检索目标，防止找不到先验知识
后强化(post-retrieval)：对查询进行进一步处理。这一步已经被主流RAG框架实现了，无需重新搓轮子。主要包含如下步骤
- Rerank: 重排序文件块
- Summary: 压缩文件块内容
- Fusion: 组合多查询（包括不同的查询策略）整合文件块

Modular RAG

这是一种更优秀，更复杂的RAG范式。论文介绍了如下模块（有一部分是对Advanced RAG中改良方法的封装）

模块名	作用
Search	场景针对性、多数据源
Fusion	多查询策略，可并行
Memory	强化对话/文档上下文，无界记忆池
Routing	多数据源，更优查询路径
Predict	以LLM直接预测相关内容，降噪
Task Adapter	对下流任务定制retrieval方案

注：DeepSeek R1 使用的是全强化学习+GRPO，而非类似于Modular RAG + RL的过程