CS224W 图机器学习18:GNN与算法对齐

课程目标 1:GNN 与传统图算法的关系

课程目标 2:理解 GNN 学习映射的过程

1 GNN 与经典任务

前置知识:WL 图同构检验4 图同构网络 GIN

前置知识的概括总结:

  • GIN 是 1-WL 算法的“神经版本”,二者的表现力相似
  • 只不过 GIN 用可学习的 MLP 替换了 1-WL 的 HASH 函数
  • 未经训练的 GNN(随机 MLP = 随机哈希)接近 1-WL 算法

思考:除了 1-WL,GNN 还可以轻松地模拟哪些其他任务?

任务 1:特征提取

  • 输入:一堆包含颜色、位置描述的物体
  • 输出

Read more

2024 企业中的生成式 AI 现状

参考文章:2024: The State of Generative AI in the Enterprise

核心观点:

  • 企业生成式 AI 正在从实验转向执行;2024 年 AI 支出 138 亿美元, 2023 年是 23 亿;72% 的决策者预计在不久的将来,会更广泛地采用生成式 AI 工具
  • 企业生成式 AI 仍处于大规模转型的早期阶段;企业生成式 AI 投资的 60% 来自创新预算;超过三分之一的受访者对于实施生成式 AI 没有明确的愿景,仍在探索生成式 AI 对企业的作用
  • 生成式 AI 正在深入到程序应用中; 2024 年 AI 应用支出 46 亿美元, 2023 年是 6 亿

Read more

Ollama - 本地 LLMs 推理框架

Ollama 基础

Ollama 是一个支持在本地下载、管理运行大语言模型的工具

  • 支持多平台安装,包括压缩包、EXE 文件、Linux 脚本、Docker 镜像等
  • 能够管理并下载主流的 LLMs 文件,也支持第三方的模型导入(GGUF 格式)
  • 启动模型后,支持在命令行界面交互、也提供了REST API接口用于第三方服务

项目地址 105k ⭐

支持的 LLMs 模型列表

Ollama 基本操作:

ollama pull llama3.3 # 下拉模型
ollama 

Read more

大模型开发技巧

低显存GPU环境调试大模型

方案:将 config.json 文件中 num_hidden_layers 的值修改为较小的值(比如 1)

原理:隐藏层中 block 的输入输出维度是一致的,因此去除重复的 block 并不会影响模型的处理逻辑;但需要注意该方法会影响模型的性能,因此只适合模型调试阶段使用。

低显存 GPU 环境推理大模型

分层推理法:将模型根据层来进行拆分存储,推理时分批次将要处理的层导入显存

代码示例:

from accelerate import init_empty_weights
from accele

Read more

CS224W 图机器学习17:链接预测和因果关系

前置知识:因果推断

1 因果关系介绍

因果 DAG(有向无环图):使用图来表示因果关系

用于决策干预的链路预测任务(比如搜索或推荐)往往是存在因果关系的

因果关系在决策中的示例:

  • 上图中,$X_i$ 表示第 $i$ 个房子的特征,$Y_i$ 表示第 $i$ 个房子的价格,$W_i$ 表示房主是否准备出售房子;实线表示因果关系,虚线表示由父节点决定的相关性
  • 一般情况下,模型可以根据市场上的待售房屋的信息和报价,来预估个人的房屋价格;但实际应用时,房主的出售行为 $W_i$ 是房屋属性 $X_i$ 和价格 $Y_i

Read more

BM25 搜索排序算法

BM25(Best Matching 25),一种经典的信息检索方法

  • BM25 综合考虑了 TF-IDF 和文档长度等信息,计算效率高,实用性强
  • BM25 在信息检索领域使用广泛,是 Elasticsearch 的默认检索方法
  • BM25 的语义理解能力不足,无法有效捕捉词序信息和上下文关系
  • BM25 可以通过调整参数来适用不同的应用场景,但个性化能力有限

TF-IDF

词频 TF(Term Frequency),词语 $t$ 在文档 $d$ 中出现的频率

$$ \text{TF}(t, d) = \frac{\text{词t在文档d中的

Read more

共形预测 Conformal Prediction

共形预测(conformal prediction,CP)是一种置信度预测器

  • 给定置信度水平,共形预测能为预测器模型生成具有统计有效性的预测区间
  • 共形预测可以逐类分析,独立保证每个类的错误率,适用于数据偏斜的情况
  • 广泛应用于假设检验,能为机器学习系统的预测提供有保证的不确定性量化
  • 共形预测易于理解和应用,通用性强,适用于不同领域不同类型的预测模型
  • 共形预测的算法相对新颖,相关的开源实现较少,更多的研究停留在学术界

由于翻译用词缺少官方定义,共形预测也称共形推理或保形预测

算法原理

共形预测的一般过程:

  1. 根据输入 $x

Read more

CS224W 图机器学习16 PART2:量化 GNN 的不确定性

由于本小节为论文研讨课,因此本文将以论文阅读笔记的形式展开

前置知识:了解基本的共形预测 Conformal Prediction 概念与评价方法(覆盖率)

《Uncertainty Quantification over Graph with Conformalized Graph Neural Networks》

摘要:

  • 本文提出了一种共形 GNN(conformalized GNN,简称 CF-GNN),将共形预测扩展到图模型以估计模型预测的不确定性。预定义覆盖率(比如 90%)后,CF-G

Read more

高音量与听力损失

摘录自 《少数派 - 你应该了解的听力测试与保护知识》

根据世界卫生组织 2024 年的报告,不安全的用耳习惯使超过 10 亿青年面临永久性听力损失的风险。

在导致听力损伤的后天因素中,噪声或强声暴露尤为关键:约 16% 的成人听力损失与工作场所的过度噪声暴露有关;12 至 35 岁人群中,有 50% 因在娱乐环境(包括夜店、Livehouse 和演唱会等)中接触不安全音量而面临听力损失风险

高音量与听力损失之间的关系,主要由以下几个变量决定:

  • 音量的大小:音量越大,则可能会在越短的时间内造成永久性的听力损失
  • 暴露的时间:在噪音环境中的时间越长,越容易造成永久性的听力损失

Read more

中国生育成本报告2024版总结

摘录自 《中国生育成本报告2024版 - 育娲人口研究》

  • 全国家庭0-17岁孩子的养育成本平均为53.8万元;0岁至大学本科毕业的养育成本平均为约68万元

按城镇和农村区分:

  • 0-17岁城镇孩子的养育成本平均为66.7万元
  • 0-17岁农村孩子的养育成本平均为36.5万元

按不同省份区分:

  • 上海和北京家庭0-17岁孩子的平均养育成本分别为101万元和93.6万元
  • 相比之下,西藏和青海家庭0-17岁孩子的平均养育成本分别为34.9万元和 37.9 万元

按收入水平区分:

  • 低收入组家庭0-17岁孩子的平均养育成本为125533元,即约12.6万元
  • 中间偏下收入组家庭0-17岁孩子

Read more