作者文章归档：王半仙

高效精准的时序聚类算法K-Shape

发表评论

8151 views

中文标题：高效精准的时序聚类算法K-Shape
英文标题：k-Shape: Efficient and Accurate Clustering of Time Series
发布平台：ACM SIGMOD
发布日期：2015-05-27
引用量（非实时）：703
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：高效精准的时序聚类算法K-Shape

英文标题：k-Shape: Efficient and Accurate Clusteri

概率论基础

发表评论

2330 views

1 有偏方差VS无偏方差
2 条件概率密度函数

1 有偏方差VS无偏方差

有偏样本方差：$Var=\frac{1}{n}\Sigma_{i=1}^n(X_i-X_{mean})^2$

无偏样本方差：$Var=\frac{1}{n-1}\Sigma_{i=1}^n(X_i-X_{mean})^2$

当数据量较少时，无偏样本方差更合理；当数据量较大时，二者不存在明显差异

Python相关方差计算

numpy包中默认计算方差是有偏的，无偏计算需要设定参数ddof=1

pandas包中默认计算方差是无偏的，有偏计算需要设定参数ddof=0

2 条件概率密度函数

定义随机变量$X$的概率

基于Lattice LSTM的中文命名实体识别

发表评论

2252 views

中文标题：基于Lattice LSTM的中文命名实体识别
英文标题：Chinese NER Using Lattice LSTM
发布平台：ACL
发布日期：2018-01-01
引用量（非实时）：596
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：基于Lattice LSTM的中文命名实体识别

英文标题：Chinese NER Using Lattice LSTM

发布平台：ACL

Proceedings of the 56th

条件随机场 CRF

发表评论

3037 views

1 马尔可夫随机场
2 条件随机场
3 CRF 目标函数
- 3.1 目标函数简化
- 3.2 特征函数举例
4 CRF常见应用
5 CRF VS HMM
6 参考

1 马尔可夫随机场

一个无向图，结点表示随机变量，边表示两个随机变量之间的概率依赖关系，每个随机变量都可以指定一种可能取值，当变量满足马尔可夫性（即变量的可能取值只与它的临近变量有关）时，这时的图就叫马尔可夫网络，也就是马尔可夫随机场。（非严谨定义）

以构建以词性标注为例，假设一个句子由10个单词组成的句子，每个单词的词性选择有10种，则马尔可夫随机场就限制了所有单词的词性只和它前后的单词有关系。

2 条件随机场

条件随机场

隐马尔可夫模型 HMM

发表评论

4215 views

隐马尔可夫模型
HMM的求解思路
HMM 应用与进阶
- 高阶 HMM
- 层次化HMM
参考

前置知识：1_study/math/马尔可夫模型

隐马尔可夫模型

可视马尔可夫模型的状态是可知的，而隐马尔可夫模型（The Hidden Markov Model，简称 HMM）的状态是不可知，但存在可知的序列观察值

以典型的看病模型为例，设病人的状态有两种：{健康（Healthy），发烧（Fever）}

医生不能直接知道病人的状态，但能够得知病人的健康状况：{正常（Normal），发寒（Cold），头晕（Dizzy）}，作为一个行医多年的鬼才医生，他可以构建出看病用的隐马尔可夫模型：

注

概率图基础

发表评论

2483 views

概率图模型
概率图模型的分类

概率图模型

概率图模型，在概率模型的基础上，使用基于图的方法来表示概率分布（概率密度/密度函数），是一种通用化的不确定性知识表示和处理方法。

在图模型中，随机变量构成了图中的节点，而随机变量之间的关系（比如相关、独立、不独立、条件独立、因果）则构成了图中节点之间的边

随机变量的常见关系度量指标：

线性相关性：皮尔逊相关系数
独立性评价：互信息、 KL散度
其他指标：偏相关性、HSIC

对于随机变量之间的因果关系分析

结合字典对电子病历进行NER

发表评论

2812 views

中文标题：结合字典对电子病历进行NER
英文标题：Named Entity Recognition Over Electronic Health Records Through a Combined Dictionary-based Approach
发布平台：Procedia Computer Science
发布日期：2016-01-01
引用量（非实时）：89
- 1 文章萃取
- 2 精读笔记
  - 2.1 三种NER方法
  - 2.2 实验结论
相关资源

中文标题：结合字典对电子病历进行NER

英文标题：Named

维特比算法Viterbi

发表评论

4636 views

1 维特比算法概述
2 维特比算法核心
3 维特比算法示例
4 参考

1 维特比算法概述

维特比算法（Viterbi algorithm）是一种寻找最短路径的动态规划算法。可以用于寻找最有可能产生观测事件序列的维特比路径——隐含状态序列，适应于多步骤每步多选择模型的最优选择问题，比如HMM。

2 维特比算法核心

维特比算法是针对暴力枚举法的优化

假设有一个长度为$l$的序列，其中$l$对应总天数

其中第$i$天的隐含状态可能情况有$n$种，第$i+1$天的隐含状态可能情况有$m$种

第$i$天的最大概率为$P_i=argmax_k({P_{ik}},k=1,...,n)$，其中$P_{

多模式匹配算法 AC

发表评论

2930 views

1 AC 算法概况
2 构建前缀字典树（生成goto表）
3 添加失配指针（生成fail表）
4 多模式匹配

1 AC 算法概况

AC 算法，即 Aho-Corasick 自动机算法，是两位创始人的名称凑出来的（国际惯例起名法了属于是，但是简称和强化学习里的 Actor-Critic 算法重名，需要注意区分~）

此算法的时间复杂度为O(n)，与匹配字符串的数目无关，只跟被匹配字符串长度有关

特性：核心思想和[[1_study/algorithm/字符串类算法/单模式匹配算法 KMP]]（建议先看懂这个）是一致的，都通过寻找字符串的内部规律，达到每次失配时的高效跳转，只不过AC算使用前缀

单模式匹配算法KMP

发表评论

2468 views

1 KMP 算法概况
2 部分匹配表 PMT
3 应用 PMT 加速匹配

1 KMP 算法概况

KMP，全称为Knuth-Morria-Pratt，是三位创始人的名称凑出来的

KMP 算法是一种字符串匹配算法，时间复杂度：O(n+m)

特性：字符串头部和尾部会有重复的部分，利用这部分信息，减少匹配次数

理解字符串的前缀和后缀

把字符串切割成非空的两份，前面那份就是前缀，后面那份就是后缀

所有前缀的可能性组成了前缀集合，所有后缀的可能性组成了后缀集合，比如”Harry”的前缀集合是{”H”, ”Ha”, ”Har”, ”Harr”}，而”Potter”的后缀集合是{”otter”,

个人笔记

Digital Garden | 王半仙

中文标题：高效精准的时序聚类算法K-Shape

英文标题：k-Shape: Efficient and Accurate Clusteri

1 有偏方差VS无偏方差

2 条件概率密度函数

中文标题：基于Lattice LSTM的中文命名实体识别

英文标题：Chinese NER Using Lattice LSTM

发布平台：ACL

1 马尔可夫随机场

2 条件随机场

隐马尔可夫模型

概率图模型

中文标题：结合字典对电子病历进行NER

英文标题：Named

1 维特比算法概述

2 维特比算法核心

1 AC 算法概况

1 KMP 算法概况