个人笔记 | Digital Garden

基础神经元

发表评论

1573 views

线性神经元
二进制阈值神经元
Relu 神经元
sigmoid 神经元
随机二进制神经元
GELU 神经元
参考

一个典型的神经元

附件/Pasted image 20210902165153.png

Axon 轴突
Dendritic tress 树突
Axon hillock 轴突体

线性神经元

$$y = b+\sum_ix_iw_i$$ 附件/Pasted image 20210903141612.png

二进制阈值神经元

对线性加权运算的结果，进行阈值判定

$$z = b+\sum_ix_iw_i$$ $$\begin{equation} y = \left\{ \begin{array}{rl} 1 & \mbox{if } z \geq 0, \\ 0 &

word2vec 系列

发表评论

1500 views

1 word2vec概述
2 word2vec前置知识
- 2.1 one-hot（独热）编码
3 word2vec经典实现
- 3.1 skip-gram
- 3.2 CBOW
4 word2vec拓展模型

1 word2vec概述

广义上指能将词语文本转化为向量的一类技术，也称词嵌入（word embedding）

狭义上指借助神经网络模型为基础构建词向量的过程，其中最经典的两类word2vec技术分别为skip-gram和CBOW

最终获取的词向量，可看作表示单词意义的向量，也可以看作是词的特征向量

2 word

集成算法

发表评论

1751 views

1 集成学习概述
- 1.1 模型集成的策略
2 boosting
3 bagging
- 3.1 随机森林
4 参考

1 集成学习概述

核心思想：三个臭皮匠顶个诸葛亮

集成学习三步走

特征抽取

反复建模（弱学习器）

模型集成（强学习器）

1.1 模型集成的策略

1.1.1 平均法

最终的预测输出 = 若干个弱学习器的预测输出的平均

1.1.2 投票法

最终的预测输出 = 若干个弱学习器的预测输出的投票结果

常见的几种投票法

相对多数投票法：少数服从多数

绝

树算法族

发表评论

1713 views

1 决策树
2 决策树算法总结

1 决策树

决策树通过树结构存储判断流程和规则，实现复杂规则的有效记录

一般来说，树的非叶节点存储了判断逻辑，并通过树分支表达多个判断结果通过自上而下的多层逻辑判断，最终在叶节点输出预测的分类结果

决策树示例：

1.1 决策树ID3算法

ID3算法主要利用信息增益进行特征的选择，并通过递归方法构建特征

从根节点开始，计算所有特征的信息增益
选择信息增益最大的特征作为此节点的判断逻辑，并构建子节点
对子节点递归地调用以上方法，直到最大信息增益过低或没有特征停止递归

回归算法族

发表评论

1580 views

1 线性回归
2 Lasso回归
3 ridge回归
4 非线性回归
5 逻辑回归
6 自回归
其他进阶技巧
实战案例

1 线性回归

面对$N$个形式为$(x_i,y_i)$样本组成的样本集，线性回归就是为了寻找形式为$y_{N\times1}=X_{N \times d}\theta_{d\times 1}$的线性方程，使其能最大程度拟合样本，而第一步便是建立线性回归的损失函数/目标函数： $$Loss(\theta)= (y-X\theta)^T(y-X\theta) $$

其中$y$表示真实值，$X\theta$表示的预测值，所以损失函数$Loss(\theta)$表示的便是真实

梯度下降法族

发表评论

1662 views

1 梯度下降法-简单版
2 梯度下降法-矩阵版
3 批次（Batch）梯度下降法
4 随机（Stochastic ）梯度下降法
5 小批次（mini-batch）梯度下降法
6 带有动量（Momentum）的梯度下降法
7 自适应梯度下降（AdaGrad）算法
8 RMSProp算法
9 AdaDelta算法
10 Adam算法
11 其他优化技巧
进阶阅读
参考

1 梯度下降法-简单版

大部分机器学习模型的构建都是寻找最小损失函数的过程，而梯度下降法（Gradient Descent）便是一种常见迭代优化算法，用于寻找损失最小的参数解。

以简单二次函数为例进行算法的简单说明，模型形式

坐标轴下降法

发表评论

3594 views

坐标下降法（英语：coordinate descent）是一种非梯度优化算法。算法在每次迭代中，在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言，算法可能无法在较小的迭代步数中求得最优解。

附件/Pasted image 20210819215357.png

为了加速收敛，可以采用一个适当的坐标系，例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系，即自适应坐标下降法。

#坐标下降法 #非梯度 #CoordinateDescent

支持向量机

发表评论

1250 views

支持向量机（support vector machine，简称为SVM）

作为经典的有监督学习算法，常用于分类与回归分析问题中
支持向量机有着完备而优雅的数学理论，并且计算成本低效果好
在集成学习与深度学习流行前，SVM 在很多领域都是非常主流的算法

SVM 算法图解：

SVM 核心思想在于通过寻找一个超平面，尽可能的分隔不同类别间的样本
支持向量（support vector）：用于确定超平面边缘的部分样本

SVM 借助核技巧将输入隐式映射到高维特征空间中，从而有效地进行非线性分类

常见的核函数：

核函数	表达式	备注
Linear Kerne

最小二乘法

发表评论

1415 views

1 最小二乘法

1 最小二乘法

狭义上的最小二乘法，主要针对线性回归问题，以残差平方和的总和最小为原则，化一般情况下，运用矩阵运算寻找最优的系数解，具体实现可参考1 线性回归的求解过程。

广义上的最小二乘法，增加了针对非线性问题的处理，围绕均方误差构建损失函数，使用迭代优化策略（比如梯度下降法）解决最小化优化问题

狭义最小二乘法的算法分析：

求解方便，不需要迭代优化，可以直接通过矩阵运算求出解析解
仅能处理线性回归问题，当特征维度高时矩阵求逆的运算成本偏高

最小角回归

发表评论

1595 views

在统计学中，最小角回归(LARS)是一种将线性回归模型拟合到高维数据的算法

用 $T(\hat{\boldsymbol{\beta}})$ 表示 $\hat{\boldsymbol{\beta}}$ 的绝对值范数 $$T(\hat{\boldsymbol{\beta}})=\sum_{j=1}^m|\hat{\beta_j}|\tag{7}$$ 则Lasso即为下面的约束优化问题： $$\min S(\hat{\boldsymbol{\beta}}) \quad \text{s.t.} \quad T(\hat{\boldsymbol{\beta}}) \le t\tag{8}$$ Las