分类目录归档：DeepLearning

Prompt 提示词技巧

发表评论

421 views

提示词框架
用 XML 格式包装提示词
破解 NotebookLM 系统提示词

提示词框架

RTF（Role-Task-Format）框架

Role 角色设定：为 AI 赋予一个虚拟身份或专业视角，引导其用特定角色思维回答问题
Task 任务指令：清晰定义AI需要完成的具体动作和内容要求，避免模糊指令或用词
Format 输出格式：指定AI结果的结构化呈现方式，比如格式、排版或特殊规范

CO-STAR 提示词框架

用 XML 格式包装提示词

原始提示词：

你是一个资深的文学家，你正在阅读一篇文章，请仔细阅读，然后基于文章的内容，按如下格式返回总结：

## 文章概览

[对文章的整

Agent 通信协议

发表评论

468 views

MCP 模型上下文协议
- MCP 工具投毒
A2A 智能体通信协议
Function Calling 模型调用

MCP 模型上下文协议

由 Anthropic 提出，用于标准化 LLMs 与外部系统交互的接口
开发者能以统一的方式将大模型对接到各种数据源和工具

目前 MCP 协议已得到了广泛的生态支持，兼具通用性和灵活性

MCP 的两种模式：

Stdio：主要用在本地服务上，操作本地的软件或者本地的文件
SSE：主要用在远程服务上，比如基于 API 访问谷歌邮件，谷歌日历等

MCP 工具投毒

工具投毒攻击（Tool Poisoning Attack，简称 TPA），主要

注意力机制进阶

发表评论

314 views

普通线性注意力
Flash Attention
Lightning Attention
NSA
MoBA

前置知识： 10.《动手学深度学习》注意力机制

普通线性注意力

原始 Tansformer（左） VS 线性 Tansformer（右）：

N：序列长度，在自然语言处理任务中，指句子中 Token 或词的数量。
d：特征维度，即每个元素（如单词的词向量）的维度。
O(N²d)、O(Nd²) ：计算复杂度。大 O 描述了计算量随输入序列变长的增长速度，如 O(N²d) 表示计算量与 N² 和 d 成正比。
Q（Query）：“查询” 矩阵，用于在自注意力机制中向其他元素询问相关

上下文学习 ICL

发表评论

302 views

大语言模型（LLMs）的上下文学习：经过预训练的 LLMs 能根据文本提示或任务示例来直接对下游任务进行预测，而无需更新模型权重，这种能力也被称为上下文学习（in-context learning，ICL）或语境学习

简单来说，ICL 就是在不更新模型参数的前提下，通过输入经典示例作为提示来增强模型的能力

以情感分析为例，来说明 ICL 的一般流程（图源）：

ICL 需要一些示例来形成一个用于情景演示的上下文，作为提示输入来增强 LLMs
ICL 示例一般用自然语言模板编写，并拼接真实的输入查询（Text）与结果（Label）

ICL 的分类：

Few-shot learning，

TabPFN 表格数据基础大模型

发表评论

1824 views

1 TabPFN 算法原理
- 1.1 先验数据拟合网络 PFNs
- 1.2 从 PFNs 到 TabPFN
2 TabPFN 的实验分析
3 TabPFN 的后续发展
4 补充资料与实践工具

TabPFN 的主要特点：

一种面向小规模表格数据（样本量<=10000）的预训练 Transformer 模型
不同与以往基于 X 预测 Y 的传统模型，TabPFN 更类似于 AutoML 或者元学习的思路，其先基于真

贝叶斯神经网络 BNN

发表评论

903 views

BNN 的定义
BNN 的变分学习
BNN 的分析总结

前置知识：贝叶斯算法、高斯过程回归

BNN 的定义

贝叶斯神经网络（Bayesian neural networks, BNNs）：

神经网络中的可训练参数，即权重（weight）和偏置（bias）都表示为一个分布
一种最简单的 BNN 就是将模型参数看作服从均值为 $\mu$，方差为 $\delta$ 的高斯分布；考虑到中心极限定理的存在，一般认为模型参数符合高斯分布是一种合理的假设
在预测时，BNN 会从每个高斯分布采样，得到一个确定的神经网络，然后用于预测；也可以对参数多次采样后分别进行预测，然后将多次预测结果进行汇总（类

大模型开发技巧

发表评论

617 views

低显存GPU环境调试大模型
低显存 GPU 环境推理大模型

低显存GPU环境调试大模型

方案：将 config.json 文件中 num_hidden_layers 的值修改为较小的值（比如 1）

原理：隐藏层中 block 的输入输出维度是一致的，因此去除重复的 block 并不会影响模型的处理逻辑；但需要注意该方法会影响模型的性能，因此只适合模型调试阶段使用。

低显存 GPU 环境推理大模型

分层推理法：将模型根据层来进行拆分存储，推理时分批次将要处理的层导入显存

代码示例：

from accelerate import init_empty_weights
from accele

模型量化 Quantization

发表评论

3644 views

1 量化的基本概念
2 量化的对称性
- 2.1 最大绝对值量化
- 2.2 零点量化
3 不同阶段的量化
4 常见的量化算法
5 常见的模型量化库
参考

前置知识：模型参数的数据类型、大模型的显存占用

模型融合 ModelMerge

发表评论

2295 views

基本概念
常见融合方法
其他补充
拓展资料

基本概念

模型融合（model merging）：

将多个神经网络模型进行合并，得到一个融合模型
优势在于节省计算/时间成本、无需训练数据（隐私保护）
有时能取得类似多任务学习的效果，也可能具备更好的泛化性

思考：如何验证模型融合的合理性？（此处

图表示学习

发表评论

788 views

图嵌入表示
- DeepWalk
- node2vec
- LINE
- struc2vec
图神经网络
- 图同构网络 GIN
- Cluster-GCN

图表示学习方法一般包括图嵌入表示和图神经网络

图嵌入表示（Node Embedding）为每个节点学习一个嵌入表示（低维稠密向量），使得在原始网络中相似的节点，它们的嵌入表示也更为相似
图神经网络（Graph Neural Networks）通过聚合邻域节点的信息来生成节点的表示

图嵌入表示

基于随机游走的图嵌入经典方法：

等长度、无偏的随机游走：DeepWalk (2014 KDD Perozzi et al.)
有偏的、局部与全局视

个人笔记

Digital Garden | 王半仙

提示词框架

用 XML 格式包装提示词

MCP 模型上下文协议

MCP 工具投毒

普通线性注意力

BNN 的定义

低显存GPU环境调试大模型

低显存 GPU 环境推理大模型

基本概念

图嵌入表示