分类目录归档:学习

图论基础

图论起源:柯尼斯堡七桥问题

1 基础概念

图 (graph) 常用$G=(V,E)$表示,其中$V$表示顶点/节点的集合,$E$表示边的集合

相邻的 (adjacent)/关联的 (incident)

  • 边两端的顶点和边的关系是关联的或相邻的
  • 通过边相连接的两个顶点之间的关系是相邻的

顶点的度 (degree):与该顶点关联的边的条数。

  • 对于有向图

Read more

拟牛顿类算法

在最优化问题的求解过程中常利用到函数梯度及其高阶信息

  • 这类算法最常见的就是梯度下降法和牛顿迭代法
  • 梯度下降考虑了函数的一阶导数, 是一种一阶优化方法
  • 牛顿算法考虑了函数的二阶偏导, 是一种二阶优化方法

1 牛顿迭代法

牛顿法(Newton's method)又称为牛顿-拉弗森方法(Newton-Raphson method)

牛顿法借助泰勒级数的低阶展开,寻找方程$f(x)=0$的根(因此也被称为切线法)

牛顿法计算步骤:

  • 随机初始化$x=x

Read more

SHAP-模型可解释性

1 SHAP概述

SHAP (SHapley Additive explanation)是一种解释任何机器学习模型输出的博弈论方法

SHAP库的特性:

  • 支持任意机器学习的可解释输出与可视化展示
  • 针对集成树和神经网络类模型进行特定优化与加速
  • 能解释每一个样本的每一

Read more

pandas进阶技巧

1 常见 Pandas 参数配置

pd.set_option('display.max_rows', 5) # 最大显示行数

pd.set_option('display.max_columns', 15) # 最大显示列数

pd.set_option('display.max_colwidth'

Read more

模型评价

1 分类模型评价

Read more

数据偏斜

1 数据偏斜概述

又称为数据不平衡(imbalanced)问题,指分类任务中不同类别之间的样本数差异过大的情况。数据偏斜常见于医疗诊断、文本分类、金融欺诈、异常检测等领域,一般认为样本比例大于4:1时,便存在样本不平衡的问题,一些极端的场景下,会存在1000:1的样本比例,甚至一个类型只有一个样本的情况

数据偏斜问题的影响:干扰建模过程,错

Read more

Linux环境变量

1 理解环境变量

在所有 UNIX 、 类Unix系统和Windows系统中, 每个进程都有其特定的一组环境变量(Windows系统中的环境变量在命名、语法和用法上略有区别)

环境变量是进程运行的环境的一部分,子进程一般会继承其父进程的运行环境(除非手动的修改或删除),环境变量也是动态的,为进程提供了更多的灵活性

2 环境变量类型

临时性VS永久性

  • 通过export命令导入的环境变量是临时的,会立即生效但仅对当前终端有效
  • 通过修改配置文件导入的环境变量是永久的,但是需要通过命令sour

Read more

常见配置文件格式

1 INI ⭐⭐⭐

INI:Initialization file的格式,最初为Windows系统中的基础配置文件格式

INI格式作为早期常见的配置文件格式,通常由节(Section)、键(key)和值(value)组成

缺点:不适合复杂的格式或多嵌套的情况

[localdb]  
host = 127.0.0.1  
user = root  
password = 123456  
port = 3306  
database = mysql

Python内置con

Read more

图像几何变换

1 图像几何变换

将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置

2D几何变换分类:

  1. 刚体变换:主要操作包括平移+旋转,变换前后的欧式距离不变,自由度为3
  2. 相似变换:主要操作包括平移+旋转+缩放,具有保角性,不同点之间的距离比保持不变,自由度为

Read more

自编码器

自编码器,一种借助神经网络结构进行无监督学习的算法,常用于降维

自编码器主要有两个部分组成

  1. 编码器,用于将输入数据编码为低维稠密向量
  2. 解码器,根据低维稠密向量解码还原输入向量

最简单的自编码器形式是一个前馈无循环的神经网络,如下所示:

(图源:维基百科-自编码器)

自编码器VS主成分分析(PCA)

  • 自编码器是非线性降维,PCA是线性降维,前者效果一般更好
  • 前者通过梯度下降法训练,训练速度慢且不容易收敛
  • 后者通过特征分解直接计算,计算成本低效率高

#自编码器

Read more