本文罗列了一些热门的自动机器学习项目
1 AutoGluon
AutoGluon 更倾向于使用多模型的 ensemble,利用多层 stacking + k-fold bagging 来实现更好更稳定的模型效果。当然基本的超参优化也是具备的。
自带了一系列的特征工程自动化组件,例如各种缺失值的预处理,日期特征,类别特征,文本特征处理等。但这部分功能相对基础
针对部署时进行优化,比如训练子模型替代多模型;引入模型蒸馏
代码整
分类目录归档:MachineLearning
本文罗列了一些热门的自动机器学习项目
AutoGluon 更倾向于使用多模型的 ensemble,利用多层 stacking + k-fold bagging 来实现更好更稳定的模型效果。当然基本的超参优化也是具备的。
自带了一系列的特征工程自动化组件,例如各种缺失值的预处理,日期特征,类别特征,文本特征处理等。但这部分功能相对基础
针对部署时进行优化,比如训练子模型替代多模型;引入模型蒸馏
代码整
网格搜索(Grid Search)会遍历给定参数空间内的所有参数组合,并选择最优的一组,相对于暴力枚举法,有点浪费时间
随机选择(Randomized Search)参数空间内的参数组合,可能有的参数组合不会被选到,效率比网格搜索高
贝叶斯优化(Bayesian Optimization)是一种通用的黑盒优化
如何理解并区分误差(error)/损失(loss)/成本(cost)/目标(objective)函数?
常用特征处理:
更多时序类衍生特征可参考1_study/Python/Python 数据处理/tsfresh 时序特征聚合工具
其他特征处理技巧:
preprocessing.PolynomialFeatures
)pandas.cut
)