作者文章归档：王半仙

损失函数

发表评论

2314 views

1 损失函数的理解与区分
2 常见损失函数
3 交叉熵
4 Center Loss
5 Ranking Loss
参考

1 损失函数的理解与区分

如何理解并区分误差（error）/损失（loss）/成本（cost）/目标（objective）函数？

误差函数描述的是预测值与真实值的偏差：$y_{pred}-y_{true}$
损失函数是对预测误差的负面影响的量化，比如平方误差损失认为3个单位的误差会导致9个单位的负面影响；损失函数通常是针对单个样本的描述
损失函数是成本函数的一部分，成本函数通常是针对训练集的描述，既包含所有样本的损失，也包含针对模型复杂度的惩罚（正则项）
成本函数是

特征工程

发表评论

2012 views

特征工程常用
时序特征工程
- 格拉姆角场

特征工程常用

常用特征处理：

常见时间日期类特征：年/月/时、第几周/周次、是否周末、节假日、时差等
日期类聚合特征：客户最活跃的月份、某类产品上周累计销售、特定客户的周末消费额等
常用统计类特征：最值、均值、唯一值、偏度、峰度、KStat、分位数等

更多时序类衍生特征可参考1_study/Python/Python 数据处理/tsfresh 时序特征聚合工具

其他特征处理技巧：

多项式特征（preprocessing.PolynomialFeatures）
分箱（数值型变量转类别型变量，pandas.cut）
对数化（修正存

基础神经元

发表评论

2152 views

线性神经元
二进制阈值神经元
Relu 神经元
sigmoid 神经元
随机二进制神经元
GELU 神经元
参考

一个典型的神经元

附件/Pasted image 20210902165153.png

Axon 轴突
Dendritic tress 树突
Axon hillock 轴突体

线性神经元

$$y = b+\sum_ix_iw_i$$ 附件/Pasted image 20210903141612.png

二进制阈值神经元

对线性加权运算的结果，进行阈值判定

$$z = b+\sum_ix_iw_i$$ $$\begin{equation} y = \left\{ \begin{array}{rl} 1 & \mbox{if } z \geq 0, \\ 0 &

词嵌入表示 Embeddings

发表评论

2069 views

传统嵌入表示
- One-hot（独热）编码
- TF-IDF
静态嵌入表示
- word2vec
- Glove
- fasText
上下文嵌入表示
- ELMo
- GPT
- BERT
嵌入表示进阶

词嵌入表示方法：应用 NLP 技术，将单词/Token 转化为向量的数值表示形式

随着 LLMs 的进步和发展，该技术也逐渐应用到图像、音频等非文本领域

传统嵌入表示

One-hot（独热）编码

One-hot（独热）编码过程：

用 $N$ 维仅包含 0、1 值的向量去唯一地表示 $N$ 种词
每个词编码后的向量包含 $N-1$ 个 0 和 1 个1

算法分析：

One-hot 编码简单

集成算法

发表评论

2444 views

1 集成学习概述
- 1.1 模型集成的策略
2 boosting
3 bagging
- 3.1 随机森林
4 参考

前置知识：树算法族

1 集成学习概述

核心思想：三个臭皮匠顶个诸葛亮

集成学习三步走

特征抽取

反复建模（弱学习器）

模型集成（强学习器）

1.1 模型集成的策略

1.1.1 平均法

最终的预测输出 = 若干个弱学习器的预测输出的平均

1.1.2 投票法

最终的预测输出 = 若干个弱学习器的预测输出的投票结果

常见的几种投票法

相对多数投票

树算法族

发表评论

2343 views

1 决策树
2 决策树算法总结

1 决策树

决策树通过树结构存储判断流程和规则，实现复杂规则的有效记录

一般来说，树的非叶节点存储了判断逻辑，并通过树分支表达多个判断结果通过自上而下的多层逻辑判断，最终在叶节点输出预测的分类结果

决策树示例：

1.1 决策树ID3算法

ID3算法主要利用信息增益进行特征的选择，并通过递归方法构建特征

从根节点开始，计算所有特征的信息增益
选择信息增益最大的特征作为此节点的判断逻辑，并构建子节点
对子节点递归地调用以上方法，直到最大信息增益过低或没有特征停止递归

回归算法族

发表评论

2317 views

1 线性回归
2 Lasso回归
3 ridge回归
4 非线性回归
5 逻辑回归
6 自回归
其他进阶技巧
实战案例

1 线性回归

面对$N$个形式为$(x_i,y_i)$样本组成的样本集，线性回归就是为了寻找形式为$y_{N\times1}=X_{N \times d}\theta_{d\times 1}$的线性方程，使其能最大程度拟合样本，而第一步便是建立线性回归的损失函数/目标函数： $$Loss(\theta)= (y-X\theta)^T(y-X\theta) $$

其中$y$表示真实值，$X\theta$表示的预测值，所以损失函数$Loss(\theta)$表示的便是真实

梯度下降法族

发表评论

2187 views

1 梯度下降法-简单版
2 梯度下降法-矩阵版
3 批次（Batch）梯度下降法
4 随机（Stochastic ）梯度下降法
5 小批次（mini-batch）梯度下降法
6 带有动量（Momentum）的梯度下降法
7 自适应梯度下降（AdaGrad）算法
8 RMSProp算法
9 AdaDelta算法
10 Adam算法
11 其他优化技巧
进阶阅读
参考

1 梯度下降法-简单版

大部分机器学习模型的构建都是寻找最小损失函数的过程，而梯度下降法（Gradient Descent）便是一种常见迭代优化算法，用于寻找损失最小的参数解。

以简单二次函数为例进行算法的简单说明，模型形式

坐标轴下降法

发表评论

4259 views

坐标下降法（英语：coordinate descent）是一种非梯度优化算法。算法在每次迭代中，在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言，算法可能无法在较小的迭代步数中求得最优解。

附件/Pasted image 20210819215357.png

为了加速收敛，可以采用一个适当的坐标系，例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系，即自适应坐标下降法。

#坐标下降法 #非梯度 #CoordinateDescent

支持向量机

发表评论

1684 views

支持向量机（support vector machine，简称为SVM）

作为经典的有监督学习算法，常用于分类与回归分析问题中
支持向量机有着完备而优雅的数学理论，并且计算成本低效果好
在集成学习与深度学习流行前，SVM 在很多领域都是非常主流的算法

SVM 算法图解：

SVM 核心思想在于通过寻找一个超平面，尽可能的分隔不同类别间的样本
支持向量（support vector）：用于确定超平面边缘的部分样本

SVM 借助核技巧将输入隐式映射到高维特征空间中，从而有效地进行非线性分类

常见的核函数：

核函数	表达式	备注
Linear Kerne

个人笔记

Digital Garden | 王半仙

1 损失函数的理解与区分

特征工程常用

线性神经元

二进制阈值神经元

传统嵌入表示

One-hot（独热）编码

1 集成学习概述

1.1 模型集成的策略

1.1.1 平均法

1.1.2 投票法

1 决策树

1.1 决策树ID3算法

1 线性回归

1 梯度下降法-简单版