深圳南山区人民医院+腾讯：如何把 AI 应用在电子健康记录、肿瘤影像、医保欺诈识别中

雷峰网 · 公众号 · 科技媒体 · 2017-08-10 15:30

正文

请到「今天看啥」查看全文

X3，医学上很多检查与用药都是相关联的，如果你用了很多高血压的药，但是从你的体检数据里面、门诊数据、住院数据，查到你的血压从来就不曾高过，你这个药很显然不是你在使用的药。

X4，比如说医学上面很多是不可逆的特征，比如说做了一个有脑卒中的，脑子出了问题，做了CT，是阳性。但是在大数据里面，你在第二次、第三次住院，他就没问题了，有可能没问题吗？很多医学上面是不可逆的，这里面也标记为阳性，很可能是你的卡被别人在用。

从X1一直到XN这么多的数学特征，我们以一种模型的方式，或者是条件概率的方式把它组合成一个值、一个熵值。建模以后，这个熵值是介于0与1之间，比较靠近1的时候，我们会赋予他一个值，医保欺诈嫌疑就非常高，如果小于0.4就是医保欺诈嫌疑会比较低。把这个模型建立好以后，统统通过这个模型跑一遍，那么整个医保就会更加规范。事实上很多是基于特征分析，你可以知道他是不是存在不合理的行为，这是研究方向之一。

医保扣费

研究方向之二就是基于第二期的医保扣费。所谓的第二期，就是将这些人类的疾病，2万多种疾病，按照临床过程相似，复杂程度相似以及资源消耗相似这三个相似原则，把它分类合并到几百个组，那么医保就按这个组来付费，它是非常可取的，在国外是一种方法学，不但用于医院之间相互之间综合实力的对比，更重要是用于医院之间的评价，社保的收费、付费，它的价值是非常大的。这个第二期是国家医改的重点之重点。

国家一共有三个试点，第一个试点是福建的三明，第二个试点是新疆克拉玛依，第三个试点就是深圳。深圳这边其实真正落地的就是在我们南山医院，我是国家CTR项目组的成员，我负责这块的工作也是利用大数据来进行核算以及 DR值。在这个 DR 值算出来分到这个组以后，按照这个理想状态，它应该是资源消耗相似，它的相似度怎么样来检验，比如说你分到这个组了，假如分组系数是非常准的话，那么类似的情形可能是这样子的。在这一组里面，患者的平均费用假设是1万块钱，那么分到这个组以后，其他的患者费用应该是在9000-11000之间，在这个区间内，它是非常准的，也就是这些数据非常集中，离散度越小越集中，说明你这个分组越准。但是事实上它通常不是这样子，那么你怎么样来检验它是准还是不准呢？它是有多种方法的，其中最主要的有三个。

第一个就是用变异系数，就是分子，分子就是它的标准差，分母就是它的均数，这么一个解读，这是作为离散度的比较。第二个是方差。第三个是检验，它能够判断你这个分组准还是不准。如果分到这个组里面，它不准怎么办，这里面也是要应用大数据的一些算法来判断分组还是不分组。

它的主要算法有三种，第一种就是用到系统聚类的方法。聚类了以后，把它分为两大类，以准不准给它拆散成两组或者三组，它立马就准了，数据立马就集中了。第二个叫做决策树，第三种叫做回归数，在大数据里面有很多这样的算法。这种算法就是将分组不是太准的数据，利用这些数学模型把它拆散成两到三组，就是提出这个数据模型给你验证。所以国家这次把这个分组做成一个试点工作，义无反顾地放到南山，实际上对我们的技术是一个挑战，也是一个检验。