分类目录归档:数据降维算法

流形学习降维 UMAP

UMAP 算法

  • 全称为均匀流形近似与投影,Uniform Manifold Approximation and Projection
  • UMAP 是一种基于黎曼几何和代数拓扑理论框架的数据降维与可视化算法
  • UMAP 能同时捕捉数据的局部和全局结构,可拓展性强,对嵌入维度没有限制
  • MAP 不具备PCA 或因子分析等线性技术可以提供的解释性(因子载荷)

UMAP 定义的概念解释与补充:

  1. Uniform 均匀假设:通过空间的扭曲,对样本稀疏/密集的位置进行收缩或拉伸
  2. Manifold 流形:一种拓扑空间,每个点的附近局部类似于欧几里得空间
  3. Approximation 近似:用一组有限的样本组

Read more

t-SNE 降维可视化

t-SNE 算法

  • 全称为 t 分布-随机邻近嵌入(t-distributed Stochastic Neighbor Embedding)
  • 该算法将高维空间中的数据映射到低维空间中,并保留数据集的局部特性
  • t-SNE 算法能够捕捉数据间的非线性关系,数据可视化效果好,常用于探索性数据分析
  • t-SNE 算法的缺点主要是占用内存较多、运行时间长,容易丢失大规模信息 (集群间关系)

算法过程概述:

  1. 计算原始高维空间中数据点之间的相似度:对于样本 $i$,算法会使用以 $i$ 为中心的高斯分布来计算其他数据点的条件概率 $P_{j|i}$,进而得到样本 $i$ 和样本 $j$ 在高维原

Read more

线性判别分析 LDA

LDA 算法是一种监督学习的降维技术

  • LDA 算法将高维空间中的d维数据通过投影转化成1维数据进行处理
  • 对于训练数据,LDA 算法会让同类数据的投影点尽可能接近,异类数据尽可能远离
  • 对于新数据分类,LDA 算法会先进行数据投影,再根据投影点位置来确定样本的类别

  • 左图思路:让不同类别的平均点距离最远的投影方式
  • 右图思路:让同类别的数据距离最近的投影方式

LDA算法降维流程如下:

​ 输入:数据集 $D = { (x_1,y_1),(x_2,y_2), ... ,(x_m,y_m) }$,其中样本 $x_i$ 是n维向量,$y_i \in {C_1, C_2, ..., C_k}$

Read more

瑞利熵问题

1 瑞利熵函数

瑞利熵(Rayleigh quotient)函数定义如下: $$R(A,x)=\frac{x^HAx}{x^Hx}$$

  • 其中$A$为$n\times n$的$Hermitian$矩阵;$x$为非零向量;$H$表示共轭转置
  • $Hermitian$矩阵,即厄尔米特矩阵(共轭转置矩阵和自己相等的矩阵)
  • 由于现实机器学习中很少遇见复数的情况,因此$A$可考虑为实对称矩阵

瑞利熵$R(A,x)$的重要性质: $$\lambda_{min}\leq R(A,x)\leq \lambda_{max}$$

  • 其中$\la

Read more

拉普拉斯特征映射 LE

拉普拉斯特征映射(Laplacian Eigenmaps,简称LE)是一种基于图的降维算法

前置知识:图论基础概念拉普拉斯矩阵谱聚类

LE算法核心思想:在低维空间内,尽可能保证局部样本间的结构不变

LE算法步骤:

  • 构建近邻图,方法可参考谱聚类一文中的数据转图
  • 根据已构建的图计算邻接矩阵$W$、度矩阵$D$和拉普拉斯矩阵$L$
  • 求解拉普拉斯矩阵,得到最小的$k$个特征值对应特征向量
  • 特征向量组成矩阵$H$,每一行都对应每个样本的降维后的稠密表示

LE算法分析:

  • 谱聚类相当于先经过LE(拉普拉斯特征映射)算法降维后的K-means聚类算法,因此谱聚类的核心推导过程就是LE算法。所以L

Read more

自编码器

自编码器,一种借助神经网络结构进行无监督学习的算法,常用于降维

自编码器主要有两个部分组成

  1. 编码器,用于将输入数据编码为低维稠密向量
  2. 解码器,根据低维稠密向量解码还原输入向量

最简单的自编码器形式是一个前馈无循环的神经网络,如下所示:

(图源:维基百科-自编码器)

自编码器VS主成分分析(PCA)

  • 自编码器是非线性降维,PCA是线性降维,前者效果一般更好
  • 前者通过梯度下降法训练,训练速度慢且不容易收敛
  • 后者通过特征分解直接计算,计算成本低效率高

#自编码器

Read more

主成分分析 PCA

主成分分析(Principal components analysis,PCA),一种常用的线性降维方法

算法步骤:

  1. 构建数据的协方差矩阵,并进行特征分解
  2. 特征向量描述的数据的主成分,特征值描述这一成分对应的权重
  3. 通过截断特征值较低的部分,保留数据集当中对方差贡献最大的特征
  4. 最终得到的降维特征无共线性(正交),但解释性差

图像理解:

(图源:维基百科-主成分分析)

  • 上图为二元高斯分布(正态分布),均值为$(1,3)$,方差为$(0.878,0.478)$
  • 黑色向量的方向描述的是协方差矩阵对应的特征向量
  • 黑色向量的长度描述的是特征向量对应的特征值

PCA 的优缺点分析:

  • 计算简单

Read more

局部线性嵌入

1 算法概况

局部线性嵌入(Locally Linear Embedding,以下简称LLE)是一种重要的降维方法。

和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,LLE广泛的用于图像图像识别,高维数据可视化等领域。

2 算法步骤

下图对LLE的原理进行了一个整体描述:

附件/Pasted image 20210820013908.png

2.1 选择近邻:

  • 求K近邻的过程,这个过程借助KNN算法找到最近邻的K个样本
  • 简单来说 ,就是通过计算样本间的欧

Read more