正文
X3,医学上很多检查与用药都是相关联的,如果你用了很多高血压的药,但是从你的体检数据里面、门诊数据、住院数据,查到你的血压从来就不曾高过,你这个药很显然不是你在使用的药。
X4,比如说医学上面很多是不可逆的特征,比如说做了一个有脑卒中的,脑子出了问题,做了CT,是阳性。但是在大数据里面,你在第二次、第三次住院,他就没问题了,有可能没问题吗?很多医学上面是不可逆的,这里面也标记为阳性,很可能是你的卡被别人在用。
从X1一直到XN这么多的数学特征,我们以一种模型的方式,或者是条件概率的方式把它组合成一个值、一个熵值。建模以后,这个熵值是介于0与1之间,比较靠近1的时候,我们会赋予他一个值,医保欺诈嫌疑就非常高,如果小于0.4就是医保欺诈嫌疑会比较低。把这个模型建立好以后,统统通过这个模型跑一遍,那么整个医保就会更加规范。事实上很多是基于特征分析,你可以知道他是不是存在不合理的行为,这是研究方向之一。
医保扣费
研究方向之二就是基于第二期的医保扣费。所谓的第二期,就是将这些人类的疾病,2万多种疾病,按照临床过程相似,复杂程度相似以及资源消耗相似这三个相似原则,把它分类合并到几百个组,那么医保就按这个组来付费,它是非常可取的,在国外是一种方法学,不但用于医院之间相互之间综合实力的对比,更重要是用于医院之间的评价,社保的收费、付费,它的价值是非常大的。这个第二期是国家医改的重点之重点。
国家一共有三个试点,第一个试点是福建的三明,第二个试点是新疆克拉玛依,第三个试点就是深圳。深圳这边其实真正落地的就是在我们南山医院,我是国家CTR项目组的成员,我负责这块的工作也是利用大数据来进行核算以及 DR值。在这个 DR 值算出来分到这个组以后,按照这个理想状态,它应该是资源消耗相似,它的相似度怎么样来检验,比如说你分到这个组了,假如分组系数是非常准的话,那么类似的情形可能是这样子的。在这一组里面,患者的平均费用假设是1万块钱,那么分到这个组以后,其他的患者费用应该是在9000-11000之间,在这个区间内,它是非常准的,也就是这些数据非常集中,离散度越小越集中,说明你这个分组越准。但是事实上它通常不是这样子,那么你怎么样来检验它是准还是不准呢?它是有多种方法的,其中最主要的有三个。
第一个就是用变异系数,就是分子,分子就是它的标准差,分母就是它的均数,这么一个解读,这是作为离散度的比较。第二个是方差。第三个是检验,它能够判断你这个分组准还是不准。如果分到这个组里面,它不准怎么办,这里面也是要应用大数据的一些算法来判断分组还是不分组。
它的主要算法有三种,第一种就是用到系统聚类的方法。聚类了以后,把它分为两大类,以准不准给它拆散成两组或者三组,它立马就准了,数据立马就集中了。第二个叫做决策树,第三种叫做回归数,在大数据里面有很多这样的算法。这种算法就是将分组不是太准的数据,利用这些数学模型把它拆散成两到三组,就是提出这个数据模型给你验证。所以国家这次把这个分组做成一个试点工作,义无反顾地放到南山,实际上对我们的技术是一个挑战,也是一个检验。