Circuit Tracing:用归因图解释大模型的思维过程 发表评论 11 views 中文标题:电路追踪:揭示语言模型中的计算图 英文标题:Circuit Tracing: Revealing Computational Graphs in Language Models 发布平台:在线平台 发布日期:2025-03-27 引用量(非实时):无 1 文章萃取 1.1 核心观点 1.2 综合评价 1.3 主观评分:⭐⭐⭐⭐⭐ 2 精读笔记 2.1 算法细节 2.2 归因图应用 2.3 实验分析与评价 后记 相关资源 中文标题:电路追踪:揭示语言模型中的计算图 英文标题:Circuit Tracing: Revealing Computational Gr Read more
RepE:用于增强 AI 模型透明度的表征工程 发表评论 10 views 中文标题:表征工程:一种自上而下的 AI 透明度方法 英文标题:Representation Engineering: A Top-Down Approach to AI Transparency 发布平台:预印本 发布日期:2023-01-01 引用量(非实时):494 1 文章萃取 1.1 核心观点 1.2 综合评价 1.3 主观评分:⭐⭐⭐⭐⭐ 2 精读笔记 2.1 背景介绍 2.2 线性人工断层扫描 LAT 2.3 从表征理解到控制 2.4 案例 1:真实与诚实 2.5 案例 2:伦理和权利 2.6 其他模型安全应用 相关资源 中文标题:表征工程:一种自上而下 Read more
语言模型的物理学 3.2:知识操控 发表评论 1104 views 中文标题:语言模型的物理学 3.2:知识操控 英文标题:Physics of Language Models: Part 3.2, Knowledge Manipulation 发布平台:预印本 发布日期:2023-09-25 引用量(非实时):3 1 文章萃取 1.1 核心观点 1.2 综合评价 1.3 主观评分:⭐⭐⭐⭐ 2 精读笔记 相关资源 中文标题:语言模型的物理学 3.2:知识操控 英文标题:Physics of Language Models: Part 3.2, Knowledge Manipulation 发布平台:预印本 发布日期:2023-09-25 Read more
语言模型的物理学 1:含深层逻辑的语法树 发表评论 1181 views 中文标题:语言模型的物理学 1:含深层逻辑的语法树 英文标题:Physics of Language Models: Part 1, Context-Free Grammar 发布平台:无 发布日期:2023-01-01 引用量(非实时):10 1 文章萃取 1.1 核心观点 1.2 综合评价 1.3 主观评分:⭐⭐⭐⭐ 2 精读笔记 相关资源 中文标题:语言模型的物理学 1:含深层逻辑的语法树 英文标题:Physics of Language Models: Part 1, Context-Free Grammar 发布平台:无 预印本 发布日期:2023-01-01 引 Read more
语言模型的物理学 3.1:知识存储和提取 发表评论 1492 views 中文标题:语言模型的物理学 3.1:知识存储和提取 英文标题:Physics of Language Models: Part 3.1, Knowledge Storage and Extraction 发布平台:无 发布日期:2023-01-01 引用量(非实时):3 1 文章萃取 1.1 核心观点 1.2 综合评价 1.3 主观评分:⭐⭐⭐⭐⭐ 2 精读笔记 2.1 半合成可控数据 2.2 模型训练 2.3 知识增强 2.4 知识探索 2.5 其他实验和补充 相关资源 中文标题:语言模型的物理学 3.1:知识存储和提取 英文标题:Physics of Langua Read more