分类目录归档:学习 | Digital Garden

分类目录归档：学习

拉普拉斯特征映射 LE

发表评论

1787 views

拉普拉斯特征映射（Laplacian Eigenmaps，简称LE）是一种基于图的降维算法

前置知识：图论基础概念、拉普拉斯矩阵、谱聚类

LE算法核心思想：在低维空间内，尽可能保证局部样本间的结构不变

LE算法步骤：

构建近邻图，方法可参考谱聚类一文中的数据转图
根据已构建的图计算邻接矩阵$W$、度矩阵$D$和拉普拉斯矩阵$L$
求解拉普拉斯矩阵，得到最小的$k$个特征值对应特征向量
特征向量组成矩阵$H$，每一行都对应每个样本的降维后的稠密表示

LE算法分析：

谱聚类相当于先经过LE（拉普拉斯特征映射）算法降维后的K-means聚类算法，因此谱聚类的核心推导过程就是LE算法。所以L

谱聚类

发表评论

1496 views

1 算法概况
2 算法细节
3 算法分析
4 参考文献

1 算法概况

谱聚类（spectral clustering）：一种基于图的聚类算法

前置知识：图论基础概念、图论基础#3.1 理解拉普拉斯矩阵

核心思想：将数据转化为图的形式，距离近的数据间对应的边权重高，距离远的数据间对应的边权重低。之后通过切图的方式，使得不同子图间的边权值和尽可能低，子图内部的边权值和尽可能高，从而达到聚类的目的

2 算法细节

2.1 数据转图

核心思想：把每个样本看作一个节点，然后构建任意两点$(x_i,x_j)$间权重边$w_{ij}$

方法1

正则表达式

发表评论

2529 views

1 概念理解
2 正则入门
3 常用技巧
- 3.1 手册速查
- 3.2 多模式组合-或与非
4 在Python中使用
5 正则进阶
6 填字游戏

1 概念理解

正则表达式（Regular Expression，简写为regex、或RE）是一种描述句法规则的字符串，常用来匹配符合某个模式（pattern）的文本，以实现针对特定文本的检索（search，findall）、替换（replace）等目的。

常见应用：文本/文件查找、数据/网页清洗、非格式化数据转格式化

在线测试：https://www.mklab.cn/utils/regex

2 正则入门

正则表达式30分钟入门教程

3 常

图论基础

发表评论

1844 views

1 基础概念
2 常见类型
3 图论进阶
参考

图论起源：柯尼斯堡七桥问题

1 基础概念

图 (graph) 常用$G=(V,E)$表示，其中$V$表示顶点/节点的集合，$E$表示边的集合

相邻的 (adjacent)/关联的 (incident)

边两端的顶点和边的关系是关联的或相邻的
通过边相连接的两个顶点之间的关系是相邻的

顶点的度 (degree)：与该顶点关联的边的条数。

对于有向图

拟牛顿类算法

发表评论

2284 views

1 牛顿迭代法
- 1.1 收敛性分析
- 1.2 优缺点分析
2 拟牛顿类算法
- 2.1 BFGS算法
- 2.2 其他拟牛顿类算法
参考

在最优化问题的求解过程中常利用到函数梯度及其高阶信息

这类算法最常见的就是梯度下降法和牛顿迭代法
梯度下降考虑了函数的一阶导数, 是一种一阶优化方法
牛顿算法考虑了函数的二阶偏导, 是一种二阶优化方法

1 牛顿迭代法

牛顿法（Newton's method）又称为牛顿-拉弗森方法（Newton-Raphson method）

牛顿法借助泰勒级数的低阶展开，寻找方程$f(x)=0$的根（因此也被称为切线法）

牛顿法计算步骤：

随机初始化$x=x

SHAP-模型可解释性

发表评论

7639 views

1 SHAP概述
2 入门案例
3 常用绘图
4 进阶技巧

1 SHAP概述

SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法

SHAP库的特性：

支持任意机器学习的可解释输出与可视化展示
针对集成树和神经网络类模型进行特定优化与加速
能解释每一个样本的每一

pandas进阶技巧

发表评论

1247 views

1 常见 Pandas 参数配置
2 Series 与 DataFrame 的互转
3 减少类别型数据的内存消耗
4 警惕 object 类型陷阱
5 基于范围条件进行表连接
6 处理 SettingWithCopyWarning 问题
参考

1 常见 Pandas 参数配置

pd.set_option('display.max_rows', 5) # 最大显示行数

pd.set_option('display.max_columns', 15) # 最大显示列数

pd.set_option('display.max_colwidth'

模型评价

发表评论

1681 views

1 分类模型评价

数据偏斜

发表评论

2132 views

1 数据偏斜概述
2 解决不平衡-重抽样
- 2.1 欠采样
- 2.2 过采样
3 解决不平衡-算法选择
4 解决不平衡-代价敏感
5 用于不平衡数据的评估指标
6 扩展阅读
7 参考资料

1 数据偏斜概述

又称为数据不平衡（imbalanced）问题，指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域，一般认为样本比例大于4：1时，便存在样本不平衡的问题，一些极端的场景下，会存在1000：1的样本比例，甚至一个类型只有一个样本的情况

数据偏斜问题的影响：干扰建模过程，错

Linux环境变量

发表评论

1270 views

1 理解环境变量
2 环境变量类型
3 环境变量语法
4 常见环境变量
5 其他特殊情况
6 参考

1 理解环境变量

在所有 UNIX 、类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量（Windows系统中的环境变量在命名、语法和用法上略有区别）

环境变量是进程运行的环境的一部分，子进程一般会继承其父进程的运行环境（除非手动的修改或删除），环境变量也是动态的，为进程提供了更多的灵活性

2 环境变量类型

临时性VS永久性

通过export命令导入的环境变量是临时的，会立即生效但仅对当前终端有效
通过修改配置文件导入的环境变量是永久的，但是需要通过命令sour

个人笔记

Digital Garden | 王半仙

1 算法概况

2 算法细节

2.1 数据转图

1 概念理解

2 正则入门

3 常

1 基础概念

1 牛顿迭代法

1 SHAP概述

1 常见 Pandas 参数配置

1 分类模型评价

1 数据偏斜概述

1 理解环境变量

2 环境变量类型