Python 读取xml文件

1 XML文件

XML 指的是可扩展标记语言(eXtensible Markup Language),和json类似也是用于存储和传输数据,还可以用作配置文件。类似于HTML超文本标记语言,但是HTML所有的标签都是预定义的,而xml的标签可以随便定义。

<!--注释-->
<book category="python">
    <title> xml test <\title>	
<\bo

Read more

数据分析评价指标

1 金融领域常见指标

1.1 WoE(Weight of Evidence)

#WoE #风险评估 #评分卡

一般情况下,我们将正常客户标记为0,违约客户标记为1。

Read more

时间序列分析

单位根

单位根又叫(unit root)。

当一个自回归过程中: $$y_{t} = by_{t-1} + a + \epsilon _{t}$$ 如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。

补充:解释变量(即滞后被解释变量)的系数应该有三种情况:

  1. 小于1:不

Read more

数据处理技巧

1 正则化

通过对损失函数引入正则项,避免模型的过拟合的情况。

正则化的分析:随着$\delta$取值的增大,系数$\theta$趋近于0

#正则化

2 核技巧

将原始样本通过函数进行高维映射,并作为特征进行模型输入,提高模型对于信息的提取能力

比如最常见的高斯核/RBF核(RBF:Radial basis function/径向基函数)

$$k(x,\mu_i,\lambda)=exp{(-\frac{1}{\lambda}||x-\mu_i||^2)}$$

转换过程: $$\phi(x)=[k(x,\mu_1,\

Read more

维度灾难

1 维度灾难

维数灾难(英语:curse of dimensionality,又名维度的诅咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。

当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长,也使得很多策略变得十分低效。

#维度灾难 #维度爆炸 #维

Read more

Docker 快速上手

Read more

课程列表

机器学习

6_course/机器学习/斯坦福CS224W 图机器学习/CS224W 图机器学习-课程总结 ⭐⭐⭐⭐⭐

基础数学

MIT18.01单变量微积分-课程总结 ⭐⭐⭐⭐⭐

MIT18.02多变量微积分-课程总结⭐⭐⭐⭐⭐

深度学习

DL.ai 大模型系列-课程总结 ⭐⭐⭐⭐

微软Build 2023专题演讲:State of GPT

CBMM 2023 专题讨论:AI 时代的智能研究

金融经济

肖星-《财务分析与决策》课程总结⭐⭐⭐⭐⭐

数据分析

基于Excel的数据分析和可视化-课程总结

量化

Read more

经济与环境关系测度

1 背景

  • 本项目为多年前私人委托,内容较为朴素,实现方式以excel为主。
  • 主要围绕一系列经济指标和生态环境指标,定量分析城市的旅游经济和生态环境的综合效益

项目整体耗时:2h 项目完成时间:2018-08-14 项目回顾时间:2021-09-01

2 建模过程

2.1 两个效益函数

设 $x_1,x_2,......x_m$ 是反映旅游经济状况的m个指标($x$均为正数) 设 $y_1,y

Read more

第一代V-ger回顾

基于wechaty的机器人快速搭建

读前提醒:本文部分内容已不具备时效性,新方案可参考V-ger 2.0

1 背景:

随着微信的封闭性加强和对广告、营销机器人的打压,微信机器人的市场逐渐萎靡,经过一段时间的网络调研,发现之前的微信开源机器人大多基于微信Web开发,这种协议如今功能限制多多,基本不再适用。诸如ItChat 截至2020/09/08 已有20.8k个Satr)之类的项目

Read more