分类目录归档:MachineLearning

AutoML 项目

本文罗列了一些热门的自动机器学习项目

1 AutoGluon

  • AutoGluon 更倾向于使用多模型的 ensemble,利用多层 stacking + k-fold bagging 来实现更好更稳定的模型效果。当然基本的超参优化也是具备的。

  • 自带了一系列的特征工程自动化组件,例如各种缺失值的预处理,日期特征,类别特征,文本特征处理等。但这部分功能相对基础

  • 针对部署时进行优化,比如训练子模型替代多模型;引入模型蒸馏

  • 代码整

Read more

自动化调参

1 网格搜索

网格搜索(Grid Search)会遍历给定参数空间内的所有参数组合,并选择最优的一组,相对于暴力枚举法,有点浪费时间

代码实现参考

2 随机搜索

随机选择(Randomized Search)参数空间内的参数组合,可能有的参数组合不会被选到,效率比网格搜索高

代码实现参考

3 贝叶斯优化

贝叶斯优化(Bayesian Optimization)是一种通用的黑盒优化

Read more

损失函数

1 损失函数的理解与区分

如何理解并区分误差(error)/损失(loss)/成本(cost)/目标(objective)函数?

  • 误差函数描述的是预测值与真实值的偏差:$y_{pred}-y_{true}$
  • 损失函数是对预测误差的负面影响的量化,比如平方误差损失认为3个单位的误差会导致9个单位的负面影响;损失函数通常是针对单个样本的描述
  • 损失函数是成本函数的一部分,成本函数通常是针对训练集的描述,既包含所有样本的损失,也包含针对模型复杂度的惩罚(正则项)
  • 成本函数是

Read more

特征工程

特征工程常用

常用特征处理:

  • 常见时间日期类特征:年/月/时、第几周/周次、是否周末、节假日、时差等
  • 日期类聚合特征:客户最活跃的月份、某类产品上周累计销售、特定客户的周末消费额等
  • 常用统计类特征:最值、均值、唯一值、偏度、峰度、KStat、分位数等

更多时序类衍生特征可参考1_study/Python/Python 数据处理/tsfresh 时序特征聚合工具

其他特征处理技巧:

  • 多项式特征(preprocessing.PolynomialFeatures
  • 分箱(数值型变量 转 类别型变量,pandas.cut
  • 对数化(修正存

Read more