中文标题:人工智能临床医生在重症监护室中学习脓毒症的最佳治疗策略
英文标题:The Artificial Intelligence Clinician learns optimal treatment strategies for sepsis in intensive care
发布平台:Nat Med
Nature Medicine
发布日期:2018-11-01
引用量(非实时):1352
DOI:10.1038/s41591-018-0213-5
作者:Matthieu Komorowski, Leo A. Celi, Omar Badawi, Anthony C. Gordon, A. Aldo Faisal
文章类型:journalArticle
品读时间:2025-07-27 14:17
1 文章萃取
1.1 核心观点
本文利用一个马尔可夫决策过程(MDP)来模拟患者环境和治疗轨迹,并借助聚类算法构建患者状态空间,结合医疗知识离散化动作空间,最后利用时序差分的方式迭代求解 MDP,以最大化远期生存率为目标,制定脓毒症的治疗策略
本文创新性地提出了 WIS 评估指标,来实现临床策略与 AI 策略的对比分析,并结合自举法对策略的价值分布进行了深入的对比分析和严谨论证,说明了用于脓毒症治疗的 AI 策略有效性
1.2 综合评价
- 将经典的强化学习算法,应用到脓毒症相关临床治疗推荐
- 经过严谨的实验认证和分析,具有较高的临床落地可行性
- 离散动作空间与现实存在差异,策略迭代算法也较为传统
1.3 主观评分:⭐⭐⭐⭐⭐
2 精读笔记
2.1 数据处理与描述
主要流程和关键步骤:
- 主要考虑两个不同的开源 ICU 数据库:MIMIC-III 和 eICU(eRI);其中 MIMIC-III 的 80%数据将作为训练集用于模型开发,剩余 20%的 MIMIC-III 数据和eICU 将分别作为验证集与测试集
- 数据收集的时间窗口:脓毒症发病时间前 24 小时至发病后 48 小时(仅考虑早期阶段管理),仅考虑入院后前 36 小时内患有脓毒症的所有成年患者
- 数据排除标准:(1)入 ICU 时年龄小于 18 岁(2)未记录死亡信息(3)治疗终止,定义为数据收集后 24h 死亡或数据收集结束前仍在使用血管加压药(4)MIMIC-III 中静脉输液量未记录(5)eICU 中二次 ICU 患者(6)eICU 中治疗数据缺失率过高的医院(患者每天平均治疗信息数少于 6 条)
- 整体流程概述:(1)患者数据的时间序列会通过 K-means 方法聚集成有限的状态集合(2)患者的治疗方式会按照静脉注射液体和血管加压剂的剂量被离散成25种组合(3)基于马尔可夫决策过程(MDP)来构建最优决策模型
数据说明:
- 纳入特征(4 小时一组的多维离散数据,每组 48 个变量):包括人口统计学数据、Elixhauser 既往健康状况、生命体征、实验室值、接受的液体和血管加压药以及液体平衡
- 在 4 小时内存在多次测量的数据变量根据需要进行平均(例如,心率)或求和(例如,尿量)。
- 主要结局/奖励指标:90 天死亡率(MIMIC-III)或医院死亡率( eICU)
数据清洗:
- 异常值或错误记录的筛查与清理,借助频率直方图或单变量统计
- 单位标准统一和取值范围限制,比如温度从华氏度转换为摄氏度
- 采用多变量最近邻填补法进行缺失值填充(聚类算法不接受缺失)
最终数据集的简单描述:
2.2 MDP 设计
前置知识:马尔可夫决策过程 MDP
将疾病过程可以表述为部分可观察的马尔可夫决策过程(MDP)
- MDP 用于近似患者轨迹并模拟决策过程;MDP 由元组 ${S, A, T, R, \gamma}$ 组成
- $S$,一个有限的状态集合,在本文中指 750 个离散的患者健康状态
- $A$,状态决定的有限动作集合,由静脉输液和血管加压药组合的 25 种离散决策
- $T(s′,s,a)$,转移矩阵,描述了状态 $s$ 下采取动作 $a$ 导致状态转移为 $s′$ 的概率
- $R(s′)$,转移到状态 $s′$ 时获得的即时奖励(达到理想状态)或惩罚(非理想状态)
- $\gamma$,未来的奖励折算为即时奖励时的折扣因子(合理假设),本文中取值为 0.99
状态空间
- 数据预处理:(1)符合对数正态分布的需要先进行对数转换(2)符合正态分布的数据需要标准化,确保均值为 0,标准差为 1(3)二元数据需要进行中心化处理
- 针对患者数据,利用 k-means++聚类构建状态空间,产生了 750 个离散的互斥患者状态
- 使用贝叶斯信息准则和赤池信息准则来确定最佳聚类数量;本文倾向于选择较高的 K 值,以确保最终模型的颗粒度足够细;但也要避免状态空间过于稀疏(比如状态空间维度大于 1000)
动作空间
- 治疗动作,专注于每 4 小时内静脉输液总量和血管加压药最大剂量的医疗决策
- 静脉输液包括晶体液、胶体液及血液制品的快速输注(推注)和背景输注(持续输液),并且按张力(溶质浓度)进行标准化处理;比如 100ml 0.45% 浓度的盐水混合 200ml 0.9%浓度的盐水,再混合 50ml 乳酸林格氏液以及 70ml 25%白蛋白, 标准化后的等张溶液为 $100/2+200+50+70\times 5$
- 血管加压药采用已公布的剂量换算方法:1 μg 去甲肾上腺素(Norepinephrine) $\approx$ 100 μg 多巴胺(Dopamine) $\approx$ 1 μg 肾上腺素(Epinephrine) $\approx$ 2.2 μg 苯肾上腺素/去氧肾上腺素(Phenylephrine);对于速度单位为 0.04 units/min 的血管加压素(Vasopressin),可按照 100kg 标准体重,转化为 0.2 mg/kg/min 的等效的去甲肾上腺素剂量
- 每种治疗的剂量根据历史分位数划分为 5 种离散结果:
0%,25%以下,25%~50%,50%~75%,75%以上%
;两种治疗方式的组合产生了 25 种可能的离散动作;具体的动作空间划分逻辑如下:
操作编号 (Action Number) | IV输液量范围 (静脉输液量范围) (mL/4小时) | 静脉输液量中位数 | 血管加压药范围 (mcg/kg/min) | 血管加压药中位数 |
---|---|---|---|---|
1 | 0 | 0 | 0 | 0 |
2 | ]0-50] | 30 | ]0-0.08] | 0.04 |
3 | ]50-180] | 85 | ]0.08-0.22] | 0.13 |
4 | ]180-530] | 320 | ]0.22-0.45] | 0.27 |
5 | >530 | 946 | >0.45 | 0.68 |
高渗胶体 (特指 25%白蛋白):1mL 的25%白蛋白能吸引约 4mL 的组织液进入血管,总共产生约 5mL 的血容量扩张效果。因此,其效能是等张溶液的5倍
在高风险环境(执行不良策略可能导致伤害)中,将动作空间限制为已知选项是提高模型安全性的合理选择。因此需要将可选动作集限制为临床医生频繁采取的动作,并排除了出现次数少于五次的转移
奖励设置:
- 当患者存活时,在每个患者的轨迹结束时释放正奖励(奖励为+100)
- 如果患者死亡,则每个患者的轨迹结束时发放负奖励(惩罚为-100)
- 考虑到奖励衰减因子,不同治疗措施的回报取值在-100~100 之间
2.3 MDP 建模
前置知识:时序差分算法 TD
最优策略 $\pi^*$
- 基于 MDP 给出最大化长期奖励的决策,从而提高患者的预期生存率
- 从一个随机策略开始,Q-Learning 逐渐迭代评估和改进,收敛到最优策略
- 给定一个状态 $s$,最优策略 $\pi^*$ 能给出未来预估价值最大化的动作 $a$
$$ \pi^{\star}(s)\leftarrow\underset{a}{\operatorname*{\mathrm{argmax}}}Q^{\pi^{\star}}(s,a)\forall s $$
WIS ——基于自助法的离线策略评估(OPE)
- 目的:基于临床实际发生的患者轨迹来评估 AI 学习到的策略价值
- 定义患者轨迹组成的集合为 $D$,两个需要对比的策略分别为 $\pi_{0}$ 和 $\pi_{1}$
- $\rho_{t}$ 描述了时刻 $t$ 下两个对比策略的相对价值优势:$\rho_{t}=\pi_{1}(a_{t}|s_{t})/\pi_{10}(a_{t}|s_{t})$
- $w_t$ 描述了时刻 $t$ 下两个对比策略的平均累积价值优势:$w_{t}=\Sigma_{i=1}^{|D|}(\Pi_{j=1}^t\rho_{j})$
$V_{WIS}$ 描述了特定患者轨迹下,两个对比策略的评估: $$ V_{WIS}=\frac{\Pi_{j=1}^H\rho_{j}}{w_{H}}\left(\sum_{t=1}^{H}\gamma^{t-1}r_{t}\right) $$
- 其中 $H$ 表示特定患者轨迹的长度(最大时刻)
- $\gamma$ 表示奖励的衰减因子;$r_{t}$ 表示时刻 $t$ 的即时奖励
- 公式右侧描述了每个时刻的即时奖励衰减折现(折现到 $t=0$ 时刻)
- 公式左侧描述了每个时刻的累积价值优势,分母起到标准化的作用
$WIS$ 作为策略的最终对比评估,汇总了所有患者轨迹下的 $V_{WIS}$ $$ WIS=\frac{1}{|D|}\sum_{i=1}^{|D|}V_{WIS}^{(i)} $$
策略评估的置信区间
- 重复随机选择 80% 患者,构建了 500 个模型
- 剩余的 20% 患者用于 AI 策略和医生策略的对比评估(WIS)
- 最后利用 500 个模型结果,构建策略评估的 95%置信区间
最佳策略的选择:
- 由于 AI 策略在设计时考虑了探索性,因此行为策略的方差/变异性较大
- 针对此情况,本文考虑基于 WIS 最大的原则,剔除部分 WIS 较低的模型
- 而对于最佳 AI 策略,则需要结合自助法寻找 WIS 的 95%置信下限最大的策略
- 该方式寻找的策略,能够最大化 AI 策略的理论统计安全性
2.4 实验评价
状态空间与 MDP 属性
- (a)状态空间中 750 个状态的 PCA 可视化,大小表示数量,颜色表示平均死亡率;可以发现聚类得到的离散状态中,平均死亡率存在明显的自然梯度,说明其能够有效地区分患者的严重程度
- (b)筛选数据中最高频的 100 种标准国际疾病分类(ICD),并依次计算对应疾病患者在 750 种离散状态中的累积和,累积顺序会优先考虑对应疾病患者数更多的状态;大部分患者都集中在少数状态中,不同 ICD 疾病的累积和曲线存在差异,说明状态空间能捕捉到一些临床概念和患者既往病史信息
- (c)本文中状态的预期寿命符合指数衰减模型(相关系数为 0.99),说明状态信息满足无记忆性
- (d)750个状态中预期寿命与指数衰减函数之间相关系数的分布,相关系数中位数为 0.97
- (e)分别根据贝叶斯信息准则(BIC)、赤池信息准则(AIC)和簇内总平方和作为簇数量的评价函数,得出 AIC 曲线拐点对应的的 K 值约为2,000,以及 BIC 曲线拐点对应的的 K 值在400~500;本文最终选定 K 值为 750
最佳 AI 策略的评估与校验
- (a)随着迭代过程的进行,最佳 AI 策略的 95%下界(LB)逐渐超过了最佳临床策略的 95%上界(UB);整体来说,AI 策略的 95%下限有 66.4%的时间超过了临床医生策略的 95%上限
- (b)不同策略的价值分布对比,相对于 AI 策略,零药物策略收敛的更快,而随机策略的波动性最大
- (c)基于 2000 次重采样,评估不同治疗措施回报(标准在-100~100 的区间)与死亡率的关系(蓝线表示原始数据,红线表示平滑数据);整体来说,低频治疗措施与高死亡率风险相关,而高频治疗措施则带来了更好的生存率
- (d)基于 2000 次重采样,评估不同结局(蓝色表示存活,红色表示死亡)的平均治疗回报
临床策略与 AI 策略的动作对比与评估
- (a)通过 2,000 次重采样的自举法构建的模型,并对比两种策略的估计价值分布;临床策略和 AI 策略的中位数估计价值分别为 56.9(四分位距,54.7–58.8)和 84.5(四分位距,84.3–87.7)
- (b)临床策略的离散动作空间分布可视化(c)AI 策略的离散动作空间分布可视化;二者对比来看,AI 策略更倾向于更少的静脉输液和更多的血管加压药使用;临床策略中血管加压药剂量有 58%的情况下非常接近 AI 建议值(<0.02 ug/kg 或 <10%);临床策略中静脉输液剂量有 36%的情况下非常接近 AI 建议值(<10ml/h 或 <10%)
- (d)两种策略的静脉输液剂量差异与死亡率的关系(e)两种策略的血管加压药剂量差异与死亡率的关系;通过自举法可验证,当实际剂量与 AI 策略建议的剂量匹配时,预期死亡率最低;与 AI 策略相比,临床策略过多或过少地使用任一治疗措施都与死亡率剂量依赖性增加相关
其他补充:
- 平移 4h 实验室结果数据,模拟现实中数据延迟的情况,WIS 估计无显著变化
- 基于随机森林分类模型,估计策略输入与 AI 策略推荐结果之间的相对重要性,实现一定的模型可解释性;最终结果也显示,AI 策略的临床可解释性,其策略的制定主要依赖合理的临床和生物参数
- 当临床医生的实际治疗与 AI 临床医生建议的政策不一致时,这通常表现为血管加压药用量不足。早期使用低剂量血管加压药已被建议在脓毒症治疗中发挥作用;这可以避免过量输液,而过量输液已被与较差的预后相关联;本文研究结果支持这一策略
- 模型可以提供关于最佳决策的额外见解,不是针对短期复苏目标,而是遵循长期生存轨迹
- 局限性:存在数据缺失而导致的患者排除;多中心的脓毒症定义和结局指标存在差异
2.5 附录与补充
MIMIC-III 的数据清洗流程图:
eICU 的数据清洗流程图:
最终建模考虑到的特征信息(48 个变量):
Category (类别) | Items (项目) | Type (类型) | Available in MIMIC-III (在 MIMIC-III 中的可用性) | Available in eRI (在 eRI 中的可用性) |
---|---|---|---|---|
Demographics (人口统计学) | ||||
Age (年龄) | Cont. | + | + | |
Gender (性别) | Binary | + | + | |
Weight (体重) | Cont. | + | + | |
Readmission to intensive care (重返重症监护) | Binary | + | + | |
Elixhauser score (premorbid status) (Elixhauser 评分(既往病史)) | Cont. | + | + | |
Vital signs (生命体征) | ||||
Modified SOFA (修改后的 SOFA 评分) | Cont. | + | + | |
SIRS (全身炎症反应综合征) | Cont. | + | + | |
Glasgow coma scale (格拉斯哥昏迷评分) | Cont. | + | + | |
Heart rate, systolic, mean and diastolic blood pressure, shock index (心率, 收缩压, 平均和舒张压, 休克指数) | Cont. | + | + | |
Respiratory rate, SpO2 (呼吸频率, 血氧饱和度) | Cont. | + | + | |
Temperature (体温) | Cont. | + | + | |
Lab values (实验室值) | ||||
Potassium, sodium, chloride (钾, 钠, 氯) | Cont. | + | + | |
Glucose, BUN, creatinine (葡萄糖, 尿素氮, 肌酐) | Cont. | + | + | |
Magnesium, calcium, ionized calcium, carbon dioxide (镁, 钙, 离子钙, 二氧化碳) | Cont. | + | + | |
SGOT, SGPT, total bilirubin, albumin (谷草转氨酶, 谷丙转氨酶, 总胆红素, 白蛋白) | Cont. | + | + | |
Hemoglobin (血红蛋白) | Cont. | + | + | |
White blood cells count, platelets count, PTT, PT, INR (白细胞计数, 血小板计数, 部分凝血活酶时间, 凝血酶原时间, 国际标准化比值) | Cont. | + | + | |
pH, PaO2, PaCO2, base excess, bicarbonate, lactate, PaO2/FiO2 ratio (pH, 动脉氧分压, 动脉二氧化碳分压, 碱剩余, 碳酸氢盐, 乳酸, 动脉氧分压/吸入氧浓度比) | Cont. | + | + | |
Ventilation parameters (通气参数) | ||||
Mechanical ventilation (机械通气) | Binary | + | + | |
FiO2 (吸入氧浓度) | Cont. | + | + | |
Medications and fluid balance (药物和液体平衡) | ||||
Current IV fluid intake over 4h (当前 4 小时内的静脉输液) | Cont. | + | + | |
Maximum dose of vasopressor over 4h (4 小时内血管加压药的最大剂量) | Cont. | + | + | |
Urine output over 4h (4 小时内尿量) | Cont. | + | + | |
Cumulated fluid balance since admission (includes preadmission data when available) (自入院以来累积液体平衡(如有,包含入院前数据)) | Cont. | + | + | |
Outcome (结果) | ||||
Hospital mortality (住院死亡率) | Binary | + | + | |
90-day mortality (90 天死亡率) | Binary | + | + |
后记
1 关于本文的质疑
2019-02-08 其他团队在尝试复现本文结论时发现的关键问题(复现对应的开源代码):
一、模型只关注长期结果,而忽略了关键的短期治疗目标
- 当患者的 MAP 持续低于推荐的 65 mmHg 目标(20 h~ 35 h),AI 策略未建议任何治疗
- 说明 AI 策略未能学习到 MAP 与血管加压药和静脉输液需求之间的关系
- 临床决策需要在短期结果(例如维持生理平均动脉压或适当的每小时尿量)和长期结果(例如预防肾脏损伤或死亡率)之间取得平衡;而原文的 AI 策略仅关注长期结果,完全忽略了短期收益(例如维持生理血压)
二、有限的状态和时间离散化忽略了低频的严重事件和紧急事件
- 原文将患者数据进行 4h 的下采样,会严重限制 AI 策略检测和响应患者快速恶化的情况;比如血管加压治疗是一种高度反应性的干预措施,对于 MAP 低于 65 的患者,医生会考虑使用血管加压药来提高血压,而由于药效的反应时间很快,因此患者 MAP 会很快恢复,而反应到 4h 的患者数据总结,可能会显示患者 MAP 一直正常
- 原文根据患者的数据将其离散化为 759 种状态,并通过建模评估不同状态之间的转移概率,而忽略了患者治疗所需的时序趋势;因此低频事件(即快速失代偿)均被 AI 临床医生几乎忽视;由于健康患者数据占比达到了三分之二,因此对于基于治疗长期结局采样的评估指标,也会错误地认为零用药(zero drug)策略是一种成功的给药策略
三、原文提出的可解释性方法存在一定的误导性
- 原文基于随机森林模型,通过输入患者数据来预测临床或 AI 的医疗决策,并通过特征重要性分析二者之间的差异关系;但模型的可解释性,仅能说明影响决策的主要因素,而无法论证决策的合理性;AI 策略很有可能,对轻中度患者进行不合理的干预治疗(反正不死就行),或针对重度患者撤回治疗(反正大概率治不好)
- 随机森林模型本身的建模过程具备随机变化,即时针对同一个目标建模,也可能会有不同特征重要性分布
- 随机森林模型作为可解释性方法,只能提供一种全局的度量,而无法给出个体 AI 策略的合理性依据
四、数据存在特异性,同时在第三方验证队列中表现较差
- 原文对数据集的清洗逻辑,导致第三方队列( Philips Healthcare)中的脓毒症发病率异常(83.5%);同时因为预期每天至少有 6 条治疗措施记录,导致 49%的患者数据因为缺失问题,而最终能满足原文要求的数据仅有 2.3%;这种大幅度的数据清洗,很让人怀疑策略的泛化能力
- 原文 AI 策略在两种数据集中存在显著的差异,在 MIMIC 中静脉输液剂量不足高 1.2 升的阶段平均死亡率翻倍,但在第三方队列( Philips Healthcare)中死亡率无明显变化
其他问题:代码未开源(不过原文作者后来在 19 年 2 月份提供了开源代码)
2 关于作者对质疑的回应
2019-03-06 原文作者对算法和实验进行补充说明,以回应质疑
整体来说,作者也承认了自身模型的局限性,但也强调目前模型的有效性和未来潜力
一、关于临床安全性的整体评价
- 本文模型是基于观察数据的回顾性评估,距离实际临床决策落地仍存在较大差异
- 本文模型的目标是在最佳治疗决策尚未建立的情况下,借助日常护理数字化过程所积累的数据,辅助识别临床最佳治疗决策,改善患者的个体化差异,将可能的行动范围缩小到更理性的选择集
- AI 策略的可行决策集仅限于临床决策中相对频繁的部分,AI 策略给出的决策中有至少 2/3 都是训练数据中存在的高频治疗决策(出现率>5%); 当前的 AI 策略不支持罕见或历史未出现的治疗决策
二、基于模拟轨迹验证转移矩阵和 AI 策略的合理性
- 本文基于蒙特卡洛模拟 MDP (随机游走)来生成患者的虚拟轨迹
- 虚拟轨迹从随机采样的初始状态开始,遵循学习到的转移矩阵和 AI 决策执行治疗决策并进行状态的概率转移,直到虚拟轨迹达到患者的停止状态(死亡或成功出院)
- 针对 1,000 批次的患者模拟了 2,500 条虚拟轨迹(总共 2,500 万条虚拟轨迹),以产生分布的估计值。最终的模拟死亡率为 22.47%(标准差 0.86%),实际死亡率为 22.5%;预测轨迹的平均长度为 14.51 个时间步(标准差 0.23),而实际平均轨迹长度为 14.42 个时间步(标准差 3.75)
三、零药物策略高价值估计的解释
- WIS 估计的运作方式,需要加权有效的数据;零药物策略的 WIS 估计将丢弃曾接受过任何药物的的患者数据,而仅考虑健康患者,而不是临床策略或AI 策略那样作用于所有患者
- 相比于零药物策略,临床策略的治疗决策其实更接近 AI 策略;对于无治疗记录的健康患者,AI 策略倾向于不给予血管加压药和液体(不存在明显偏见)
四、关于短期奖励和长期奖励的解释
- 避免低血压是脓毒症管理的重要组成部分。但个体的最佳血压值存在不确定性,且替代指标也存在局限。既往随机对照试验表明,在脓毒症中不同血压目标间的死亡率无差异;
- 患者可能需要更加个体化的治疗目标,且这些目标可能随时间变化
- 大量证据表明,针对或改善短期生理指标(血压、尿量、氧合)最终可能导致更差的长期生存;本文选择 90 天生存率作为奖励信号,因为这才是对患者真正重要的
- 人类临床医生在尝试平衡短期和长期目标时往往表现不佳。例如,当试图通过(通常过量的)液体冲击来改善血压和尿量时,这可能会损害长期器官功能和生存
五、关于选择 4 小时作为时间分辨率的解释
- 本文尝试从强化学习的角度给出推荐治疗策略,但并未能解决实际临床的大多数问题:如何快速判断患者的液体反应性?如何平衡静脉液体和血管加压药?如何设定合理的复苏目标?
- 4 小时的时间分辨率是数据可用性与建模急性变化能力之间的初始权衡
- 本文模型的后续迭代可能会缩短这个时间间隔或采用其他方法来建模急性变化能力
六、关于模型可解释性的争议点说明
- 本文方法有助于理解 AI 策略的工作机制,但无法在个体患者层面提供可解释性
- 两个随机森林模型看起来不同,是因为它们试图预测不同的因变量
- 针对强化学习的可解释性是一个新兴领域,希望未来有更多的方法
七、关于外部验证集相关的争议点说明
- 两个数据集由于数据提取过程的差异,可能存在脓毒症的定义分歧;但二者都遵循国际 sepsis 3.0 的标准定义;至于 83.5% 的脓毒症患病率,可能是对数据流程的理解偏差导致的计算问题
- eICU 数据集是“真实世界”数据的典型例子:它规模庞大,但反映了医疗数据集的现实情况,因此数据杂乱且不完美;这种数据质量问题可能引入偏倚的潜在风险,也是回顾性研究的局限性
- 根据原作者的测试,AI 策略在两种数据集中并不存在剂量差与死亡率间的显著差异
八、其他补充与解释
- AI 算法可能指向新的或不常见的治疗模式;因此对于健康患者,不能无端地判定其不需要治疗策略的干预;一项双盲随机临床试验报告称,与标准临床护理相比,早期血管加压治疗可提高休克控制效果
- 日常临床实践中的差异很大。当给予错误治疗剂量时,医源性损伤是可能且确实会发生的
- “所有模型都是错误的,但有些是有用的。”——乔治·博克斯(George Box)
- 本文方法表明,医疗推理范围可以从单一决策(如经典因果推理)扩展到整体治疗策略