分类目录归档：学习

3795 views

1 常见距离测度
2 动态时间规整
3 互相关

1 常见距离测度

欧氏距离：对应元素求差后计算平方和（要求两个时序长度一致） $$ D(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + ... + (x_n-y_n)^2} = \sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2} $$ 曼哈顿距离：基于网格地图的路程（比如出租车的行驶路线长度） $$ D(x,y) =|x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n| =\sum\limits_{i=1}^{n}|x_i-y_i| $$ 闵可夫斯基距离

K-means聚类

发表评论

1809 views

1 K-means算法概况
2 K-means算法细节
3 K-means算法改进
参考：

1 K-means算法概况

K均值算法（即，k-means clustering），是一种无监督聚类算法

K-means算法属于NP-hard问题，不过存在高效的启发式算法，能快速收敛到一个局部最优解

2 K-means算法细节

算法步骤

对于N个样本，随机选择其中K个，作为最初的质心

遍历所有样本，选择最新的质心进行归类，形成K个簇

根据每个簇的样本重新计算质心（比如求均值）

重复步骤2-3，直到每个簇质心基本不再变化或达到最大迭代次数

算法的收敛过程如下所示：

（图源来自https

概率论基础

发表评论

1884 views

1 有偏方差VS无偏方差
2 条件概率密度函数

1 有偏方差VS无偏方差

有偏样本方差：$Var=\frac{1}{n}\Sigma_{i=1}^n(X_i-X_{mean})^2$

无偏样本方差：$Var=\frac{1}{n-1}\Sigma_{i=1}^n(X_i-X_{mean})^2$

当数据量较少时，无偏样本方差更合理；当数据量较大时，二者不存在明显差异

Python相关方差计算

numpy包中默认计算方差是有偏的，无偏计算需要设定参数ddof=1

pandas包中默认计算方差是无偏的，有偏计算需要设定参数ddof=0

2 条件概率密度函数

定义随机变量$X$的概率

条件随机场 CRF

发表评论

2463 views

1 马尔可夫随机场
2 条件随机场
3 CRF 目标函数
- 3.1 目标函数简化
- 3.2 特征函数举例
4 CRF常见应用
5 CRF VS HMM
6 参考

1 马尔可夫随机场

一个无向图，结点表示随机变量，边表示两个随机变量之间的概率依赖关系，每个随机变量都可以指定一种可能取值，当变量满足马尔可夫性（即变量的可能取值只与它的临近变量有关）时，这时的图就叫马尔可夫网络，也就是马尔可夫随机场。（非严谨定义）

以构建以词性标注为例，假设一个句子由10个单词组成的句子，每个单词的词性选择有10种，则马尔可夫随机场就限制了所有单词的词性只和它前后的单词有关系。

2 条件随机场

条件随机场

隐马尔可夫模型 HMM

发表评论

3590 views

1 马尔可夫模型
2 隐马尔可夫模型
3 HMM的常见应用
4 高阶HMM
5 层次化HMM
6 参考

1 马尔可夫模型

马尔可夫模型（The Hidden Markov Model），简称HMM，又称为可视马尔可夫模型，具备无记忆性的特点，即当前时刻的状态，只受前一时刻的影响

以典型的天气模型为例，设状态有三种：{ Sunny，Rainy，Cloudy }

由于每天的天气都不一定，所以对于天气的每天观察就构成了一个马尔可夫链

通过历史数据统计不同状态之间的转移概率，就可以得到马尔可夫模型：

2 隐马尔可夫模型

马尔可夫模型的状态是可知的，而隐马尔可夫模型的状态是不可知，但存在可知的

概率图基础

发表评论

1933 views

概率图模型
概率图模型的分类

概率图模型

概率图模型，在概率模型的基础上，使用基于图的方法来表示概率分布（概率密度/密度函数），是一种通用化的不确定性知识表示和处理方法。

在图模型中，随机变量构成了图中的节点，而随机变量之间的关系（比如相关、独立、不独立、条件独立、因果）则构成了图中节点之间的边

随机变量的常见关系度量指标：

线性相关性：皮尔逊相关系数
独立性评价：互信息、 KL散度
其他指标：偏相关性、HSIC

对于随机变量之间的因果关系分析

维特比算法Viterbi

发表评论

4017 views

1 维特比算法概述
2 维特比算法核心
3 维特比算法示例
4 参考

1 维特比算法概述

维特比算法（Viterbi algorithm）是一种寻找最短路径的动态规划算法。可以用于寻找最有可能产生观测事件序列的维特比路径——隐含状态序列，适应于多步骤每步多选择模型的最优选择问题，比如HMM。

2 维特比算法核心

维特比算法是针对暴力枚举法的优化

假设有一个长度为$l$的序列，其中$l$对应总天数

其中第$i$天的隐含状态可能情况有$n$种，第$i+1$天的隐含状态可能情况有$m$种

第$i$天的最大概率为$P_i=argmax_k({P_{ik}},k=1,...,n)$，其中$P_{

多模式匹配算法 AC

发表评论

2377 views

1 AC 算法概况
2 构建前缀字典树（生成goto表）
3 添加失配指针（生成fail表）
4 多模式匹配

1 AC 算法概况

AC 算法，即 Aho-Corasick 自动机算法，是两位创始人的名称凑出来的（国际惯例起名法了属于是，但是简称和强化学习里的 Actor-Critic 算法重名，需要注意区分~）

此算法的时间复杂度为O(n)，与匹配字符串的数目无关，只跟被匹配字符串长度有关

特性：核心思想和[[1_study/algorithm/字符串类算法/单模式匹配算法 KMP]]（建议先看懂这个）是一致的，都通过寻找字符串的内部规律，达到每次失配时的高效跳转，只不过AC算使用前缀

单模式匹配算法KMP

发表评论

2020 views

1 KMP 算法概况
2 部分匹配表 PMT
3 应用 PMT 加速匹配

1 KMP 算法概况

KMP，全称为Knuth-Morria-Pratt，是三位创始人的名称凑出来的

KMP 算法是一种字符串匹配算法，时间复杂度：O(n+m)

特性：字符串头部和尾部会有重复的部分，利用这部分信息，减少匹配次数

理解字符串的前缀和后缀

把字符串切割成非空的两份，前面那份就是前缀，后面那份就是后缀

所有前缀的可能性组成了前缀集合，所有后缀的可能性组成了后缀集合，比如”Harry”的前缀集合是{”H”, ”Ha”, ”Har”, ”Harr”}，而”Potter”的后缀集合是{”otter”,

Python 优质模块汇总

发表评论

2040 views

1 数据探索
2 数据处理
3 文本分析
4 模型解释
- 4.1 InterpretML-机器学习可解释性技术整合

个人笔记

Digital Garden | 王半仙

1 常见距离测度

1 K-means算法概况

2 K-means算法细节

1 有偏方差VS无偏方差

2 条件概率密度函数

1 马尔可夫随机场

2 条件随机场

1 马尔可夫模型

2 隐马尔可夫模型

概率图模型

1 维特比算法概述

2 维特比算法核心

1 AC 算法概况

1 KMP 算法概况