文献解读：真实世界数据在统计分析之前应该关注的问题

2022-06-14 · 1 min read · 医疗相关医疗数据 ·

主要内容探讨

博主我打算开一个系列，把学习工作过程中学习到的一些英文的文献做一个解读，达到加深理解、分享知识、加快本博客灌水频率的目的😁。本篇就是新系列的第一篇，主要探讨了真实世界数据在统计分析之前，要考虑的数据质量、数据特性的问题（原文链接见此）。

文章的目标读者主要是数据治理和数据统计从业者，发表于2021年7月，所发表的期刊是Learning Health Systems。作者是好几个数据科学家，所在单位包括美国田纳西州立大学生物信息学院、哈佛医学院的流行病学研究部门、亚拉巴马大学的信息学研究院等知名大学。

本文讨论的RWD是美国医院的EHR（电子医疗记录），也就是我们理解医院的住院数据和门诊数据。EHR要产生RWE（有关于RWE和RWD，读者可参考我这篇博文），要经过治理变成可供统计软件使用的统计分析数据集。但由于EHR本身并不以研究为目的，具有其中充满了各种数据噪声的天然特性，导致这种转换是一个很艰难的过程。这些困难点包括信息记录模糊、测量记录偏倚、数据由于记录情况随时间的变化其意义出现变化等。而如何应对这些挑战，文章按照包含在EHR中各个医疗数据模块分别进行了具体介绍。本文的意义在于强调，**数据科学家和医生必须很清楚EHR的固有特性，并根据EHR的特性做相应数据转换、筛选、整合和分析方法的判断。**通过数据科学家和医生的紧密合作，才能完成高质量RWS研究的数据治理。

诊断数据关注问题

疾病诊断是分析过程经常关注的数据。其数据来源包括ICD（疾病国际分类）编码、疾病描述列表、或者诊断过程描述。诊断数据可能会对分析结果造成误导，不光是因为记录不清晰不准确，还有可能因为诊断本身会随时间会发生认知变化。比如医学专家之间也会对诊断的结果产生分歧。

诊断数据包含结构化的ICD编码和非结构化的诊断描述文本，一般来说结构化的ICD编码会作为诊断数据优先使用。但单一使用ICD编码会存在几个问题。首先ICD编码在各个医疗机构中其编码执行和使用标准版本会各不一致，同一患者的疾病诊断编码会因为时间和就诊机构不同而产生变化；最后，如果医疗机构更换ICD编码版本，则同意疾病的ICD编码会出现变化。这两点是单一使用ICD编码会有数据偏倚风险的原因。

提高诊断数据准确性的方式主要是通过，诊断信息的在EHR记录的冗余信息进行矫正。具体的手段有，重复ICD编码印证，即要求患者最终的诊断信息有来自不止一次的EHR记录的相同ICD编码信息确认。第二手段，支持诊断证据，即通过与疾病诊断相关联的实验室检查结果或者药物记录结果来间接证实诊断的准确性。按照我的理解，以上的原则落实到实际数据处理，就是定义精准诊断患者数据的衍生计算规则，通过一定的算法规则，得到最终患者的精准诊断数据。当然，还有一些患者因为支持精准诊断数据缺乏，就会被划分到非精准诊断数据中了。作者也提出，即使是使用了辅助诊断数据确认的方法，得到的诊断数据任然会有偏倚的风险。作者举了一个例子。两家不同医疗机构，实验室结果、ICD诊断、用药信息可以相互印证的文森图。从中读者可以看到这两家医院，实验室结果、ICD诊断、用药信息能够互相印证的模式的差距还是非常大的。

实验室数据关注问题

实验室数据在EHR中结构化程度较好，确定性很高，是相对比较容易处理分析的数据。但是也有其需要注意的点。

重复性数据的处理。患者的实验室检查会检查很多次，究竟用哪一次是个问题。这个问题也没有唯一确定的答案，要根据具体研究方案来定。

实验室检查发生的背景情况。注意门诊和住院做的实验室检查，一般来说会有系统性差异。住院得到的实验室检查结果一般会更不正常，这是因为住院的情况下做某些实验室检查，意味着医生已判断患者会有某些疾病症状。

数据科学家应该要注意到临床实验室检查在时间长度上发生的频率。比如美国的维生素D检验从2000年中期开始，检测量出现明显上升。这样的检查发生频率的改变，虽然不一定对分析结果有影响，但数据科学家应该心中有数。

实验室检查名称的标准化问题。美国的实验室检查一般会有LONIC标准化词典进行标准化。但问题即使做了这样的标准化，其中的标准化条目实在是太多。其中有很多描述比较相近的标准化词条，因此在选择同一类检查结果的时候会对数据科学家产生困扰。比如文中拿了血液ph值距离，LONIC中至少有7条标准化词条和血液PH值有关，但具体分析的时候，究竟选择哪一项检测的结果，是令人困扰的问题。

生命指标数据关注问题

生命指标，如体温、心率、血压等检测值在分析中面临的问题和实验室检查数据类似。但其也有其特有的性质需要关注，那就是生命指标的数据记录通常在某个时间段会非常密集，比如患者可能一天之内随时都在测的体温和心率，这时候如何从重复数据中选择数据则是个问题。另外因为数据库的容量问题，对这类重复数据有时间也只记录一些过滤后数据，如中位值、平均值的。数据科学家应该对这样的情况有所了解。

用药数据关注问题

用药数据看起来比较清晰客观，实际上由于大家熟知的患者依从性问题，用药数据准确性同样需要令人关注。往往从用药处方的形式的细微改变，可以发现患者用药的依从性问题。患者用药可能会因为多种原因中断，比如副作用、疗效差、经济原因等。

医生处方的严谨或者习惯问题，也会造成一些不准确的数据。很多时候，因为各种原因，医生会停止患者某种药物服用，但是处方上并没有及时体现。造成某些用药的结束时间出现问题。此时，处方数据如果能和药房发药数据结合起来，则可能减少这类用药数据问题。

最后是用药数据标准化问题。美国用药数据基本都使用RxNorm进行了编码。但是数据科学家要注意划分用药组的颗粒度要符合方案要求，避免过细或者过宽。另外对于用药剂量的处理也是一个挑战。

衍生表型关注问题

所谓衍生表型，就是EHR没有明确记录，而需通过多个数据模块进行衍生计算才能得到的数据。这种需求的一个例子是通过数据科学家与临床专家的合作，把实验室、用药、影像等数据联合，计算出更加精确的患者疾病诊断表型。在这个过程中临床专家制定和把控数据如何计算的医学规则，而数据科学家则制定如何实际从数据库中计算得到这样数据的执行细节。最后这样的衍生表型数据是否准确，需要在真实EHR数据中进行深入的验证。通过把计算出的数据与人工审阅得到的金标准数据进行比对，来评估其衍生计算规则的准确性和敏感性。

研究网络和通用数据模型关注问题

美国已经建立了几个应用EHR的大型真实世界数据库项目，比如Vaccine Safety Datalink, the Health Care Systems Research Network, FDA Sentinel, 和PCORnet Work。从这些数据库中，已经开展了无数的研究，充分地证明了EHR数据是可以产生巨大价值的。

还有一些组织已经在EHR数据标准化方面取得很大进展，建立了较好的CDM模型（common data model）。把EHR原始数据转化成利于数据分析的标准结构，已更好地开展分析。其中最著名一个就是OMOP（Observational Medical Outcomes Partnership）模型。博主目前也在接触学习这个模型及数据转换，以后也许也会写一些转换经验的文章。

总结

文章最后强调，要把原始的EHR数据经过治理得到高质量的可分析数据集，需要数据科学家和临床专家的紧密配合。数据科学家也要努力发展出一套分析报告方法，适合对EHR这种纵向时间跨度的数据进行分析汇总，从而得到对EHR数据质量得深入洞察，得到数据科学家和临床专家都能认可的高质量结果。