分类目录归档:学习

Prompt 提示词技巧

提示词框架

RTF(Role-Task-Format)框架

  • Role 角色设定:为 AI 赋予一个虚拟身份或专业视角,引导其用特定角色思维回答问题
  • Task 任务指令:清晰定义AI需要完成的具体动作和内容要求,避免模糊指令或用词
  • Format 输出格式:指定AI结果的结构化呈现方式,比如格式、排版或特殊规范

CO-STAR 提示词框架

用 XML 格式包装提示词

原始提示词:

你是一个资深的文学家,你正在阅读一篇文章,请仔细阅读,然后基于文章的内容,按如下格式返回总结:

## 文章概览

[对文章的整

Read more

Agent 通信协议

MCP 模型上下文协议

  • 由 Anthropic 提出,用于标准化 LLMs 与外部系统交互的接口
  • 开发者能以统一的方式将大模型对接到各种数据源和工具

目前 MCP 协议已得到了广泛的生态支持,兼具通用性和灵活性

MCP 的两种模式:

  1. Stdio:主要用在本地服务上,操作本地的软件或者本地的文件
  2. SSE:主要用在远程服务上,比如基于 API 访问谷歌邮件,谷歌日历等

MCP 工具投毒

工具投毒攻击(Tool Poisoning Attack,简称 TPA),主要

Read more

过敏性休克 Anaphylaxis

定义与诊断

过敏性休克

  • 一种严重、可能危及生命的过敏反应,通常由接触药物、食物或毒液引起
  • 可影响多个身体系统,如皮肤、呼吸道、消化系统和心血管系统
  • 其重要性在于其突然发作和迅速进展
  • 如果不及时有效治疗,可能导致休克、呼吸困难和甚至死亡

美国过敏性休克的终身患病率估计在 0.05%至 2%之间

过敏性休克的临床标准:美国国立过敏和传染病研究所(NIAID)金标准

  • 标准 1:急性发作的疾病(从几分钟到几个小时),伴随皮肤、黏膜组织或两者的受累(例如,全身性荨麻疹、瘙痒或潮红、嘴唇-舌头-悬雍垂肿胀)并且至少有以下之一: a. 呼吸困难(例如,呼

Read more

流形学习降维 UMAP

UMAP 算法

  • 全称为均匀流形近似与投影,Uniform Manifold Approximation and Projection
  • UMAP 是一种基于黎曼几何和代数拓扑理论框架的数据降维与可视化算法
  • UMAP 能同时捕捉数据的局部和全局结构,可拓展性强,对嵌入维度没有限制
  • MAP 不具备PCA 或因子分析等线性技术可以提供的解释性(因子载荷)

UMAP 定义的概念解释与补充:

  1. Uniform 均匀假设:通过空间的扭曲,对样本稀疏/密集的位置进行收缩或拉伸
  2. Manifold 流形:一种拓扑空间,每个点的附近局部类似于欧几里得空间
  3. Approximation 近似:用一组有限的样本组

Read more

t-SNE 降维可视化

t-SNE 算法

  • 全称为 t 分布-随机邻近嵌入(t-distributed Stochastic Neighbor Embedding)
  • 该算法将高维空间中的数据映射到低维空间中,并保留数据集的局部特性
  • t-SNE 算法能够捕捉数据间的非线性关系,数据可视化效果好,常用于探索性数据分析
  • t-SNE 算法的缺点主要是占用内存较多、运行时间长,容易丢失大规模信息 (集群间关系)

算法过程概述:

  1. 计算原始高维空间中数据点之间的相似度:对于样本 $i$,算法会使用以 $i$ 为中心的高斯分布来计算其他数据点的条件概率 $P_{j|i}$,进而得到样本 $i$ 和样本 $j$ 在高维原

Read more

Pydantic 数据验证与转换

Pydantic 是目前最流行的 Python 数据验证工具

  • Python 作为一种动态类型语言,在开发和易用性上存在优势
  • 因此也需要对程序进行功能更强大的类型检查和数据验证

Pydantic 的特点

  1. 自定义与扩展:可用于任意 Python 对象的数据类型验证,支持嵌套结构
  2. 验证的灵活性:类型丰富,验证的时间点灵活,严格模式 vs 宽松模式
  3. 序列化:Pydantic 对象支持序列化和反序列化为字典和 JSON 字符串
  4. 高性能:核心验证逻辑基于 Rust 编写,性能出色且可靠,

Read more

调查问卷分析

调查问卷分析的一般流程:

  1. 初步设计调查问卷并严格评估合理性,比如文献研究,对象访谈,Delphi 专家函询
  2. 针对少量人群(40~60 人)展开预调查,了解调查问卷设置条目的合理性,完整性和可理解性
  3. 确保预调查结果质量,包括调查内容审核录入与信效度分析(此步骤也适用于正式调研阶段)
  4. 估计样本量,确定调查人群,完成调查员培训,分配调查任务并展开具体的正式调查
  5. 对调查结果进行数据分析,包括分布描述,独立性检验,方差分析,相关性分析,多因素分析等
  6. 根据初步分析结果,进行整理和深入的分析,得到可验证的结果,最后撰写调查报告

De

Read more

注意力机制进阶

前置知识: 10.《动手学深度学习》注意力机制

普通线性注意力

原始 Tansformer(左) VS 线性 Tansformer(右):

  • N:序列长度,在自然语言处理任务中,指句子中 Token 或词的数量。
  • d:特征维度,即每个元素(如单词的词向量)的维度。
  • O(N²d)、O(Nd²) :计算复杂度。大 O 描述了计算量随输入序列变长的增长速度,如 O(N²d) 表示计算量与 N² 和 d 成正比 。
  • Q(Query):“查询” 矩阵,用于在自注意力机制中向其他元素询问相关

Read more

上下文学习 ICL

大语言模型(LLMs)的上下文学习:经过预训练的 LLMs 能根据文本提示或任务示例来直接对下游任务进行预测,而无需更新模型权重,这种能力也被称为上下文学习(in-context learning,ICL)或语境学习

简单来说,ICL 就是在不更新模型参数的前提下,通过输入经典示例作为提示来增强模型的能力

以情感分析为例,来说明 ICL 的一般流程(图源):

  • ICL 需要一些示例来形成一个用于情景演示的上下文,作为提示输入来增强 LLMs
  • ICL 示例一般用自然语言模板编写,并拼接真实的输入查询(Text)与结果(Label)

ICL 的分类:

  • Few-shot learning,

Read more

LSH 局部敏感性哈希

LSH(locality sensitivity Hashing,局部敏感性哈希)算法

  • 一种从海量数据中进行相似性搜索的算法
  • 常用于文本查重、图像识别、推荐系统和搜索引擎

以相似文档检索为例,说明 LSH 的算法过程

  1. Shingling,文档进行向量化表示

    • 统计 k 个文档中连续出现的 token(字符或单词)
    • 按照 one_hot 的形式对文档进行向量化的矩阵表示
    • 每一列表示一个文档,每一行表示文档的信息矩阵
  2. Min-Hashing,对文档信息进行降维

    • 依次对文档矩阵的每一列进行重排序
    • 选择第一个非 0 行的行号作为的最小哈希值
    • 重复多次,得到若干个最小哈希组成的文档矩阵

Read more