RepE：用于增强 AI 模型透明度的表征工程

中文标题：表征工程：一种自上而下的 AI 透明度方法
英文标题：Representation Engineering: A Top-Down Approach to AI Transparency
发布平台：预印本
发布日期：2023-01-01
引用量（非实时）：494
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：表征工程：一种自上而下的 AI 透明度方法

英文标题：Representation Engineering: A Top-Down Approach to AI Transparency

发布平台：预印本

发布日期：2023-01-01

引用量（非实时）：494

DOI：10.48550/ARXIV.2310.01405

作者：Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks

关键字： #RepE #表征工程 #透明度

文章类型：preprint

品读时间：2025-08-17 14:17

1 文章萃取

1.1 核心观点

表征工程（RepE）是一种用于增强神经网络的可解释性和透明度的技术，其通过线性人工断层扫描（LAT）技术从模型中提取与特定概念或功能相关的 reading vector，并用于模型的深层理解和编辑操纵；本文通过多种实验来测定了该方法的可行性，在多个模型安全领域进行了应用和评估，展现出了该技术较大的可挖掘潜力

1.2 综合评价

对表征工程技术进行改进，并提出模型编辑的新思路

有助于模型的理解，增强现有模型的安全性和可控性

表征工程能精细到 token 级，但缺乏思维路径的理解

1.3 主观评分：⭐⭐⭐⭐⭐

2 精读笔记

2.1 背景介绍

表征学习中的涌现结构：

左：DINOv2 自监督视觉模型中的局部分割，可区分机舱、机翼和机尾等结构
右上：词向量中的简单语义算术，比如：Kings-King=Queens-Quneen
右下：StyleGAN3 中的局部坐标，能描述五官、头发与面部轮廓曲度

常见的模型可解释性方法：

显著性图：通过调整输入或梯度信息，来描述其对模型预测输出的细微影响，并进行注意力可视化；更多细节可参阅论文 Saliency：基于显著性图检测模型偏差
特征可视化：寻找能够导致特定神经元激活值偏高的输入 token 来解释神经网络的内部机制；简单方法是直接找到导致高激活值的输入；复杂方法是优化输入来最大化激活值
机制可解释性：借鉴逆向工程的思路，寻找具备特定功能的神经元组合“电路”
线性探针：利用线性分类器探针，根据网络的中间层训练预测输入的属性，从而找到神经网络中的概念表示；更多细节可参阅论文语言模型的物理学 1：含深层逻辑的语法树

2.2 线性人工断层扫描 LAT

线性人工断层扫描（Linear Artificial Tomography，LAT）

LAT 是一种线性探测进阶方法，也是本文提出的 RepE 表征工程的技术基础
LAT 的目的就是提取模型中与目标概念（比如“效用”或“概率”）或功能（比如“道德败坏”或“追求权利”）相关的神经活动；LAT 主要由三个关键步骤组成
（1）设计刺激和任务，用于刺激模型产生特定的神经活动；比如为了捕捉特定 concept，可以定义以下输入文本来引发模型的陈述性知识：The amount of <concept> is
（2）收集神经活动；假设概念 $c$ 对应的刺激任务模板为 $T_{c}$ ，定义解码器为 $M$，通过一组刺激 $S$，最终收集到的神经活动集合表示为 $A_{c}={\mathrm{Rep}(M,T_{c}(s_{i}))[-1]|s_{i}\in S}$，其中函数 $\mathrm{Rep}$ 的输入包括解码器 $M$ 和刺激 $s_{i}$ 对应的提示文本 $T_{c}(s_{i})$，输出是所有 token 的位置表示；· $[-1]$ 则表示保留最后一个 token 的位置表示；最终收集到每个神经活动是向量的形式
（3）构建线性模型；线性模型的目的是，以神经活动作为输入，尝试预测目标概念或功能的方向；常用的线性方法包括线性探测，PCA，k-means 等技术；本文主要使用 PCA 对概念 $c$ 对应的一组神经活动进行降维，并保留第一主成分作为读出向量（“reading vector”）

模型输入序列中不同 token 的位置表示，存储着用途各异的表征信息；比如有的表征更关注词性语法（名称？动词？），有的则可能更关注语义和推理（在段落中的作用？表达了什么感情？）

对于通过自回归进行训练的大语言模型来说，提示文本的最后一个词 is 对应的嵌入表示（embedding）实际上包含了整句话前面的信息，以方便进行后续 token 的预测；因此在“收集神经活动”的过程中，每次收集到的神经活动向量其实对应着最后一位 token 的位置表示

2.3 从表征理解到控制

Reading vector 是 LAT 根据神经活动，从模型中提取出的概念或功能理解

评估 reading vector 的四种实验类型：

背景案例：定义 reading vector 为 $v$，表示模型对概念“truth”的理解
相关性：根据神经活动与特定 reading vector 的相关性（向量点积），来进行模型的行为解释；对于任意的嵌入表示 $x$，向量点积 $Rep(M,x)^Tv$ 可用于评估模型的真实性（测谎）
操作：刺激或抑制已识别的神经活动，比如提高模型安全性或规避模型撒谎
终止：当识别到不合理的神经活动时进行终止，并评估由此导致的性能退化
恢复：通过对概念或功能的移除与恢复，来评估特定神经活动的必要性

表示控制

针对特定概念或功能构建一组刺激，然后通过 LAT 提取到模型的 reading vector；但 reading vector 的缺点是：对于不同的输入，reading vector 都只会产生相同的扰动（刺激无关性）；因此用 reading vector 进行表示控制的效果较差
本文则提出了一种与刺激相关的表示，即对比向量；在推理时，模型可以通过两个具有对比性的提示产生两个不同的表示，而对比向量就是两个表示之间的差异；对比向量可以构建对比损失，指导模型表示的微调（LoRRA），从而实现表示控制

表示控制的算子选择：

给定表示为 $v$ 的控制器，表示操作的目的是将当前表示 $R$ 转换为 $R'$
算子 1：线性组合 $R'=R\pm v$，可直接产生刺激或抑制的效果
算子 2：分段操作 $R'=R +sign(R^Tv)v$，沿控制方向增强神经活动
算子 3：投影 $R'=R-\frac{R^tv}{||v||^2}v$，消除与控制方向对齐的表示分量

控制器 $v$ 可以通过引入缩放系数，来根据需求调整所需的表示控制效果强度

2.4 案例 1：真实与诚实

模型具有一致的内部真实性概念

		Zero-shot Standard	Zero-shot Heuristic	LAT Stimulus 1	LAT Stimulus 2	LAT Stimulus 3
LLaMA-2-Chat	7B	31.0	32.2	55.0	58.9	58.2
LLaMA-2-Chat	13B	35.9	50.3	49.6	53.1	54.2
LLaMA-2-Chat	70B	29.9	59.2	65.9	69.8	69.8
Average		32.3	47.2	56.8	60.6	60.

评估方式：通过容易引发误解或谎言的问题，对模型进行 QA 测试
使用相同的示例的情况下，应用 LAT 方法来控制（刺激）模型后的结果明显优于简单少样本提示和启发式方法（利用提示文本直接从模型中提取相关的概念）
在三种不同数据源中应用 LAT 提取到的 reading vector，在控制（刺激）模型后的表现水平接近，表明模型内部能够跨数据地追踪一致的真实性

利用诚实性概念对模型进行测谎和诚实度评估

对 Vicuna-33B-Uncensored 模型进行了时间 LAT 扫描
上图中，横轴表示 token 位置，纵轴表示层数，颜色表示模型诚实度
左侧为识别为说真话的示例可视化，例如模型承认抄袭了他人作业
右侧为识别为说谎话的示例可视化，例如模型否认了犯罪的事实

利用诚实性概念，来控制和增强模型的诚实度表现

Control Method	None	Vectors	Vectors	Vectors	Matrices
	Standard	ActAdd	Reading (Ours)	Contrast (Ours)	LoRRA (Ours)
7B-Chat	31.0	33.7	34.1	47.9	42.3
13B-Chat	35.9	38.8	42.4	54.0	47.5

以上所有方法，均可以用于控制模型输出诚实陈述
其中表现最好的方法是基于对比向量的刺激，但推理成本会高 3 倍
其次表现较好的方法是基于 LoRRA 的微调，其增加推理成本可以忽略

2.5 案例 2：伦理和权利

不同方式提取到的 reading vector 对比：

reading vector 的评价角度主要包括与目标概念之间相关性（越高越好）、用于控制模型的可操作性（越高越好）、通过投影操作来终止实验的效果（越低越好）
大部分线性方式，都可以提取到效果出色的 reading vector；10 层以后提取的 reading vector 的相关性度量最好；15~20 层左右提取的 reading vector 的可操作性最好；有监督的方式能提取到终止效果更好的 reading vector

伦理和权利的检测：

当模型试图以获取金钱为目的对儿童使用威胁或暴力时，伦理和权力的倾向检测器会被激活；得益于本文的方法，检测器可以逐 token 给出检测结果

应用 LoRRA 来控制模型在追求权力和道德败坏上的倾向：

	Reward	Power (↓)	Immorality (↓)	Reward	Power (↓)	Immorality (↓)
	LLaMA-2-Chat-7B			LLaMA-2-Chat-13B
+ Control	16.8	108.0	110.0	17.6	105.5	97.6
No Control	19.5	106.2	100.2	17.7	105.4	96.6
− Control	19.4	100.0	93.5	18.8	99.9	92.4

2.6 其他模型安全应用

基于RepE 技术，本文探索五种与模型安全相关的主题应用

情感（1）本次研究主要考虑六种主要情绪：快乐、悲伤、愤怒、恐惧、惊讶和厌恶（2）随着模型深度的增加，情绪相关的表征呈现出清晰的分簇（t-SNE 可视化）（3）不同情绪对应的reading vector 会显著影响模型的输出，比如快乐情绪会增加模型对有害指令的遵从度
无害指令遵循（1）使用 LAT 生成的 reading vector 具备较高的鲁棒性，对有害指令的识别准确率始终保持着 90%以上（2）应用分段变换来有条件地增加或抑制某些神经活动，可以将越狱指令拒绝率从 81.4%提高到 90.2%，高级攻击（GCG）拒绝率从 56.6%提高到 87.2%
偏见与公平性（1）本次研究主要考虑四种常见偏见：性别、职业、种族和宗教（2）多种偏见相关的reading vector 通过线性组合算子，来进行偏见相关的表征控制（3）通过表征控制，能显著改善模型的公平性，避免结节病与黑人女性的过度关联
知识和模型编辑（1）通过表征控制进行模型编辑，将事实“埃菲尔铁塔位于巴黎”修改为“埃菲尔铁塔位于罗马”（2）增加或抑制模型输出与概念相关的文本
记忆（1）利用 reading vector 进行模型记忆的检测，比如判断模型是否记住了某些流行语或经典文学段落（2）应用具有负系数的 reading vector 线性组合变换，来抑制模型的特定记忆

个人笔记

Digital Garden | 王半仙