登陆注册
21218

刘静谈统计学方法使用问题(研究设计阶段就应着手考虑)

杨进刚阜外杨进刚阜外2023-07-29 09:55:520

正态性是指各组资料要服从正态分布(或近似正态分布);方差齐性指各组资料取自的总体方差相等。

写论文时,统计学是不是很让人头疼?安贞医院刘静教授对论文中常见的统计学问题进行了“诊断”。

例如,医学研究中经常要进行两组或多组间均数的比较,有些医学生直接就采用t 检验或方差分析进行统计。实际上t 检验和方差分析都是参数检验,需要满足前提条件:正态性和方差齐性。

统计规律不等同于事物的本质规律。只有充分运用临床专业知识,才能正确地使用统计方法,合理地解释统计结果,绝不能盲目追求统计学意义而忽略其临床意义。

有些医学生简单地使用t 检验来处理多组间的比较,这样做结论不可靠。正确的方法是当满足方差分析的前提条件时应采用单因素多水平定量资料的方差分析;当检验结果为各组总体均数间不完全相等时,再进一步进行组间均数的两两比较。如果当任何两个均数之间都要比较,可采用SNK 法,而如果要分别将各试验组与同一个对照组比较,可采用Dunnett 法。当资料不满足方差分析的前提条件时,需对资料进行数据正态化处理或采用秩和检验。

忽略统计学方法使用的前提条件

转载:请标明“中国循环杂志”

为了突出总样本量,有些医学生把所有研究对象合计在一起进行分析。事实上,由于各组研究对象在生物学特征上可能有明显差异,这种合并分析需特别谨慎。尤其是进行相关分析时,指标之间的关系在不同组之间可能完全不同,即研究对象不同质,因此不应合并在一起进行相关

正确方法的方法是先判断重复测量数据之间是否存在相关性(如SPSS 的球形检验),如不存在相关性,则采用单因素方差分析即可;如存在相关性,则需进行重复测量数据的方差分析。

因此在筛选进入多因素分析的自变量时,应该在参考单因素分析结果的基础上,同时运用专业知识来进行筛选,才能对数据做出全面、合理的分析。

把所有相关因素都直接代入问题更为严重。首先是自变量过多而样本量不足,多元回归模型不稳定。另外,如果自变量之间有高度的共线性,则可能导致错误的结果。

她强调,统计学方法的选择取决于研究设计和收集的资料。因此,在研究设计阶段就应该对研究过程中将采用的资料收集和统计学分析方法进行充分的考虑。

在进行多因素回归分析时,专业知识的运用就更为重要了。有些医学生不加考虑就直接把十几个测量指标都作为自变量代入多因素分析,或单纯依赖单因素分析,单因素分析显示有统计学意义的就代入多因素分析。这两种作法都可能产生统计学问题。

此外,医学研究中还经常将某种定性的测量指标分成若干个有序的等级,如疾病的不同严重程度和预后的不同水平等,然后分类计数各组研究对象的具体状态。这种资料属于有序的(等级的)列联表资料,看似可以用χ2检验处理,但χ2检验只能比较各组的构成,而与顺序或等级无关,因而此类资料应采用与分组顺序有关的检验方法,如秩和检验和Ridit 分析等。

临床研究中经常采用病例-对照研究的设计,如糖尿病患者和正常对照,有时还需按患者的不同特征分为多组,如血糖正常、空腹血糖受损、糖耐量减低和糖尿病四种情况。

忽略研究设计,盲目套用统计方法

对于呈正态分布的单因素多水平定量资料,两组间的比较可用t 检验;两组以上资料的比较则需选用方差分析。

误用单因素方差分析处理重复测量的资料

随着统计软件的广泛应用,有些医学生获得数据后直接选择软件中常见的几种统计学方法进行分析,完全不考虑本研究的数据是否满足该方法的使用条件。

对于定性资料,很多医学生都会直接应用χ22检验来处理。实际上,因研究设计的不同,定性资料的列联表又分为双向无序的列联表、单向有序的列联表和双向有序的列联表等不同类型。对于双向无序的列联表,可采用χ2检验进行分析。但需注意的是在列联表的χ2 检验中,若P <0. 05,只能得出总的结论。

这一问题在相关和回归分析时经常出现。例如,很多学生在分析指标之间的相关性时,对指标的生物学关联和分布特征完全不加考虑,直接进行两两之间的线性相关分析,只要P < 0. 05 就认为两个指标相关。

目前常用的统计软件都可以对资料的正态性和方差齐性进行验证。只有按照各种统计学方法自身的适用条件来合理使用,统计方法才能成为发现数据内在统计规律的有力工具。

将非同质的研究对象合并进行相关分析

误用t 检验处理单因素多水平资料

单纯根据单因素分析P<0.05 来筛选自变量时,有可能遗漏一些在多因素分析中调整其他因素作用后反而具有统计学意义的指标,因此有统计专家建议单因素分析P <0. 5的变量即可考虑代入多因素分析。

实际上,在进行相关分析前,应做两个指标的散点图。如果两个指标之间并非是线性关系,则不适用于线性相关分析;如果散点图近似圆盘型,则说明两个指标间并无确定的关系,即使P<0. 05,也不能认为二者存在生物学上的关联。

忽略临床意义,盲目追求统计学意义

来源:刘静. 医学生论文中常见的统计学问题. 心肺血管病杂志, 2015, 34:218-220.

如需进行两两比较时,因为重复多次的检验将使第一类错误扩大,因此需重新设定检验水准,通常采用α' = α/N,其中N 为所需检验的次数。

误用χ22 检验处理有序的列联表资料

医学研究中常需要对同一受试对象的某项指标在不同时点进行重复测量,此类资料即为重复测量的资料,例如研究对象服用某种药物后多个时间点的血压值。由于同一个体不同次测量的结果往往存在相关性,这时用单因素多水平方差分析来比较不同时点的测量结果是不恰当的,因为单因素方差分析要求各比较组间是独立的。如果仅将两个时间点上的数据放在一起进行配对t 检验则割裂了原来多组比较的整体设计。

0000
评论列表
共(0)条