分类目录归档：学习

马尔可夫决策过程 MDP

364 views

MDP 的定义
贝尔曼方程
最优价值函数
动态规划求解
MDP 应用与进阶
参考

前置知识：马尔可夫模型，强化学习入门

MDP 的定义

马尔可夫奖励过程（Markov reward process，MRP）

在马尔可夫过程的基础上加入奖励 $R$ 和奖励衰减因子 $\gamma$
马尔可夫奖励过程中时刻 $t$ 的回报 $G_{t}$ 是未来奖励的衰减折现

$$ G_{t}=R_{t}+\gamma R_{t+1}+\gamma^2 R_{t+2}+\dots+\gamma^n R_{t+n} $$

马尔可夫奖励过程中的状态价值函数 $v(s)=E[G_{t}|S_{t}=s]$

强化学习入门

386 views

强化学习的定义
强化学习的分类

强化学习的定义

强化学习（reinforcement learning，RL）

RL 是 Agent 通过动作与环境交互，从而实现特定目标最优化的一种计算方法
Agent 在环境状态为 $S_{t}$ 的情况下产生一个动作决策 $A_{t}$，并将 $A_{t}$ 作用到环境中
然后环境发生相应的改变，并将相应的奖励反馈 $R$ 和下一轮状态 $S_{t+1}$ 传回机器
以上交互是迭代进行的，目标是最大化在多轮交互过程中获得的累积奖励的期望

强化学习的三个基本要素：

状态 $S$，Agent 需要能感知当前环境的状态；比如 AlphaGo 需要了

大模型输出配置

325 views

输出长度 output length
温度 temperature
Top-K 抽样
Top-P 核采样
输出配置技巧

输出长度 output length

指定输出文本中的 token 最大长度，一般达到最大 token 时会自动截断
输出长度的设置，并不会导致 LLMs 的输出简洁（可以通过提示工程来实现）
限制最大输出长度，有助于减少能耗，降低响应时间，规避 LLMs 的无效输出

温度 temperature

控制结果的随机性，较高的温度设定会导致输出结果的多样化和不确定性增加
温度较低可以增强 LLMs 对提示词的服从性，偏创意输出的试验可考虑高温度

注意：

当温度设

多 Agent 设计

307 views

多 Agent 设计技巧：

分工合作：大模型负责任务拆分与深度思考，小模型负责子任务执行与广度探索；二者配合，不但能实现并行推理，提高推理的速度和效率，还可以改善最终的任务完成效果
理解 Agent：观察并代入 Agent 的思考模式，并通过精准而有效的提示词来引导 Agent
任务分配：每个子 Agent 都需要有详细的任务目标、输出约束、工具和资源列表、任务边界；在合理的情况下，考虑通过子 Agent 的任务并行来加快效率（比如独立工具的并行调用）
根据查询复杂度调整工作规模：简单的信息收集仅需 1 个智能体，调用 3-10 次工具；直接比较可能需要 2-4 个子智能体，每个调用 1

思维链 CoT 进阶

421 views

思维树 ToT
思维图 GoT
原子思维 AoT
其他 CoT 进阶

前置知识：思维链提示 CoT 和自洽性 self-consistency

思维树 ToT

思维树 ToT （Tree of Thoughts，2023-05）：

ToT 的核心思想是将问题解决过程视为在思想树中的搜索，其中每个节点代表一个部分解决方案，每个分支代表对解决方案的修改，通过多条推理路径评估实现更优的推理决策

以“24 点数字”游戏为例来说明 ToT 的实现步骤：

“24 点数字”是一种简单的数字推理游戏，给定 4 个数字，比如 $[4,9,10,13]$；游戏目标是将 4 个字数进行加减乘除的四

提示工程 Prompt

1047 views

基础提示技巧
思维链与自洽性
- 思维链提示 CoT
- 自洽性 self-consistency
提示工程进阶
提示工程实践
- 常用提示词技巧与经验
- JSON 格式修复

基础提示技巧

一个好的提示包含以下内容：系统提示、角色提示、语境提示、示例提示

提示词基础技巧

肯定式指令，减少不精确的模糊描述，提高紧迫感（PUA）
通过示例明确输出格式，必要时可引导任务的拆分或自检
找一个好的提示词框架，明确角色、目标、行为、场景与期望

系统提示

系统提示：定义模型的基本功能和总体目标

有

Agent 通信协议

1009 views

MCP 模型上下文协议
A2A 智能体通信协议
AP2 智能体支付协议
Function Calling 模型调用
- 其他 Agent 协议

MCP 模型上下文协议

MCP 协议基本架构（图源）

由 Anthropic 提出，用于标准化 LLMs 与外部系统交互的接口
开发者能以统一的方式将大模型对接到各种数据源和工具
MCP 采用了经典的 C/S 架构，包含主机、服务端和客户端三部分

目前 MCP 协议已得到了广泛的生态支持，兼具通用性和灵活性

MCP 底层通信

MCP 的会话管理

通过一个健壮的两步握手（i

过敏性休克 Anaphylaxis

1305 views

定义与诊断
检测和预测
个性化治疗

定义与诊断

过敏性休克

一种严重、可能危及生命的过敏反应，通常由接触药物、食物或毒液引起
可影响多个身体系统，如皮肤、呼吸道、消化系统和心血管系统
其重要性在于其突然发作和迅速进展
如果不及时有效治疗，可能导致休克、呼吸困难和甚至死亡

美国过敏性休克的终身患病率估计在 0.05%至 2%之间

过敏性休克的临床标准：美国国立过敏和传染病研究所（NIAID）金标准

标准 1：急性发作的疾病（从几分钟到几个小时），伴随皮肤、黏膜组织或两者的受累（例如，全身性荨麻疹、瘙痒或潮红、嘴唇-舌头-悬雍垂肿胀）并且至少有以下之一： a. 呼吸困难（例如，呼

流形学习降维 UMAP

1220 views

UMAP 算法

全称为均匀流形近似与投影，Uniform Manifold Approximation and Projection
UMAP 是一种基于黎曼几何和代数拓扑理论框架的数据降维与可视化算法
UMAP 能同时捕捉数据的局部和全局结构，可拓展性强，对嵌入维度没有限制
MAP 不具备PCA 或因子分析等线性技术可以提供的解释性（因子载荷）

UMAP 定义的概念解释与补充：

Uniform 均匀假设：通过空间的扭曲，对样本稀疏/密集的位置进行收缩或拉伸
Manifold 流形：一种拓扑空间，每个点的附近局部类似于欧几里得空间
Approximation 近似：用一组有限的样本组

t-SNE 降维可视化

1041 views

t-SNE 算法

全称为 t 分布-随机邻近嵌入（t-distributed Stochastic Neighbor Embedding）
该算法将高维空间中的数据映射到低维空间中，并保留数据集的局部特性
t-SNE 算法能够捕捉数据间的非线性关系，数据可视化效果好，常用于探索性数据分析
t-SNE 算法的缺点主要是占用内存较多、运行时间长，容易丢失大规模信息 (集群间关系)

算法过程概述：

计算原始高维空间中数据点之间的相似度：对于样本 $i$，算法会使用以 $i$ 为中心的高斯分布来计算其他数据点的条件概率 $P_{j|i}$，进而得到样本 $i$ 和样本 $j$ 在高维原