这篇文章是在“医险创新”的大背景下聚焦于糖尿病带病人群医疗风险保费测算,是中国金融科技研究中心一系列健康财富融合研究的一部分。

这篇文章主要利用广义线性模型和机器学习模型——Lasso、RF、LightGBM、XGboost,对糖尿病带病人群住院费用进行估算。文章还对住院率、社保支付比例进行测算,并结合不同的免赔额和自付比例,对年龄、性别、并发症、主要合并症做敏感性分析,预测保费。
模型
一、费用预测模型:
本文使用的模型是:广义线性模型、Lasoo、RF、XGBoost和LightGBM。
广义线性模型基于指数族分布,通过联结函数将自变量的线性组合和因变量联系起来,是常用的非寿险定价模型。而且广义线性模型的因变量的方差是其均值的函数,这一特点也很适合保险公司的数据。
Lasso回归在目标函数中通过添加正则项(L1范式)有效地解决过拟合、多重共线性问题,还可以实现特征选择的功能。
随机森林、XGBoost和LightGBM都是集成学习方法(若对集成学习不了解,可翻至公众号1月19号推文)。RF属于bagging集成学习方法,XGBoost、LightGBM属于boosting集成学习方法。RF简单、容易实现、计算开销小,还可以处理高维度数据,被广泛应用于风险因子重要性测度、准备金相关测算等领域。XGBoost是Chen和Guestrin(2016)提出的一种集成学习模型,是GBDT算法(GradientBoostingDecisionTree,GBDT)的工程实现。XGBoost对损失函数进行二阶泰勒展开,并加入了正则项来防止过拟合,从而进一步提高了模型泛化能力。LightGBM基于 GBDT 数据模型,同时加入了梯度单边采样技术和独立特征合并技术,采用更高效率的叶子生长算法,速度得到很大提升。
二、住院率模型
,
类似估计。

这里
为糖尿病主要诊断人数和糖尿病次要诊断人数,
为对应时间的门诊人数,
为通过Lee-Carter模型估计的发病率。该式是一个线性结构,可以通过最小化误差求解一个最优结果
三定价模型
保单纯保费p的测算公式:

COB为社保等其他保障支付所占总费用比例,d为免赔额,c为赔付比例,E(N)是住院率。
数据和模型应用
本文选取2015~2017年来自全国30个省、自治区和直辖市的主要诊断或者其他诊断的住院病例共计3835960条,表2是变量类型及描述性统计表

模型预测效果如下表所示。

其中LightGBM拟合效果最佳,因此选用LightGBM预测住院费用
费用预测结果如下图所示:
图5、图6
保费测算与分析
1 基础因素的定价影响与分析
从下面的图表可以看出年龄、地区、性别、社保类型、婚姻、并发症、重点合并症都会影响最后的保费测算结果。






2综合测算结果
图12~14给出了以某省为例的带有糖尿病并发症的保费综合测算结果。该结果测算的保费为精算纯保费。
结论
本研究在医疗保险协同创新的背景下,通过机器学习方法,考虑不同因素的“非标准体”保费测算,并给出了不同因素对保费的影响,从而支持针对非标准体的定价,为保险公司开发带病投保的产品,进行保费测算提供基础。从应用视角看,借助机器学习的保费测算还可以为保险反欺诈和运营控费提供支持
以上内容只是对论文的简单介绍,如果想要深入了解论文内容,可点击左下角查看原文。