常见问题
../../../1_study/DataAnalysis/数据平衡:数据可视化理解数据、选择模型
参数空间:样本与参数的经验规律、合理的寻参空间
独有特征:招行股价vs咨询舆情量化(NLP)
集成学习
三个臭皮匠 顶个诸葛亮
- 特征抽取
- 反复建模(弱学习器)
- 模型集成(强学习器)
相关概念:stocking、blending、voting、boost
讨论了adboost的理论以及三个特性
- 较低误差下限
- 难以过拟合
- 权重更新时候的加速计算技巧
作者文章归档:王半仙
../../../1_study/DataAnalysis/数据平衡:数据可视化理解数据、选择模型
参数空间:样本与参数的经验规律、合理的寻参空间
独有特征:招行股价vs咨询舆情量化(NLP)
三个臭皮匠 顶个诸葛亮
相关概念:stocking、blending、voting、boost
讨论了adboost的理论以及三个特性
Machine Learning is the field of study that gives computers the ability to learn without being explicitly programmed. ---- Arthur Samuel (1959)
机器学习应用
任务目标
金融数据源
存储方式:csv、sql、nosql
数据格式
- 交易所信息
- 数据来源
- Ticker/symbol
- 价格
- 企业行为(stock splits
病毒感染数据模拟
视频变成连续照片
中英文对齐+位置互换 = 数据增强 + 迁移学习的兼容性提高
场景不同的迁移学习 = 根据常见关键点 抽取 前后矩阵 进而提取 转化矩阵 实现自动化迁移
matlab基本界面 matlab变量和基本运算 matlab基本绘图技巧和常用绘图列表 matlab循环和判断逻辑 matlab函数定义和脚本撰写 matlab进行微分、积分、数据拟合、数值求解的方法
相关练习: 编写函数:计算n的阶乘 基于蒙特卡洛法计算pi 解方程 log x sin x
国内现状:目前以商业银行和消费金融公司为主,主要通过个人基本信息、银行数据(授权)、交易数据、社交数据等,来进行信用评级
评分卡分类:
| 名称 | 所处阶段 | 所含数据 |
|---|---|---|
| 申请评分卡 | 评价申请阶段客户信用风险 | 只有基本信息,无客户交易信息 |
| 申请评分卡 | 通过客户的行为评估客户风险 | 包含基本信息和客户行为信息 |
| 催收评分卡 | 对已逾期或违约的客户进行评分 | 额外的催收后客户反应等数据 |
评分卡的观察期