赛恩斯:浅析临床研究统计中缺失值的处理
数据缺失在临床研究中普遍存在,是潜在的偏倚来源。数据缺失的机制分为完全随机缺失、随机缺失和非随机缺失三种机制。在统计分析时需正确处理缺失值,减少偏倚。缺失机制根据完整数据一般难以区分,所以常常基于不同的假设进行敏感性分析,检验结果的稳定性。赛恩斯编译结合工作实践发现,常用于处理数据缺失的方法有使用完整数据、缺失归类和数据填补三种方法。一、若采用完整病例时,实际样本量减少,导致检验效能降低,同时缺失的数据可能与研究变量或结局指标有关,统计分析会得到偏倚结果。在随机对照实验组中删除缺失样本可能会破坏随机性(样本的代表性和组间可比性),同时也违背了意向分析的原则,所以忽略缺失值的方法一般仅在探索性研究中使用,在验证性研究中可作为敏感性分析部分来检验结果的稳定性。
二、缺失指示法是指将缺失值进行标示,对于分类变量,将缺失值处理成独立的一类属性,对于连续变量,将缺失值设置为固定值,例如0,然后再添加一个1/0的标示是否缺失的哑变量,在模型中同时纳入。该方法能保留全部样本,但可能会引入其他混杂。
三、数据填补可分为单次填补和多重填补,单次填补是对缺失值仅填补一次,常选择末次访视结转、基线观测值结转、平均值填补、最差病例填补和最好病例填补等,单次填补没有考虑缺失值的不确定性,低估或高估数据的变异,会导致估计值的标准误过小或过大。多重填补为每个缺失值提供m个填补值,产生m个完整数据集,分别分析后再合并效应,该方法考虑缺失值的不确定性,提供无偏倚有效的估计,逐渐成为处理缺失值的标准。
此外,针对重复测量数据的缺失可以采用混合效应模型或广义估计模型,数据被转化为纵向结构,保证每个病例的信息得到充分利用,可得到估计值的无偏估计。
在实际统计实践中,通常会选择完整病例和多个填补方法的统计结果构成敏感性分析,检验结果的一致性和可信性。尽管在统计分析阶段可采用恰当的方法减少缺失带来的影响,但应在研究设计和数据收集阶段减少缺失发生的可能性,例如统一培训或数据质量审查,对于无法避免的缺失,应详细记录缺失的原因,用于对结果的解释,从根本上减少数据缺失的影响。
科研课题设计,欢迎咨询赛恩斯(www.sainz.cn),赛恩斯是一站式科研学术服务平台,专业致力于医学领域SCI服务,包括SCI论文评估、SCI论文编译、医学论文编译、SCI论文润色、科研基金申请等,可以协助医学科研工作者发表SCI论文、医学论文等。
页:
[1]