1.定量指标一般要求在一定范围内匹配。例如年龄匹配,病例为50~59岁组,则对照亦应为50~59岁组。或者要求对照在±2岁、±3岁或±5岁等范围内匹配,如要求对照与病例的作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。
2.直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。
3.进行回归分析时,应先绘制散点图,若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型,经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。
4.绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。
5.回归直线不要外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插;超过自变量取值范围所计算的称为外延。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延。
6.从频数表便于观察离群值和异常值,还可以看出频数分布的两个重要特征:集中趋势和离散趋势。集中趋势是指观察值向中央部分集中的倾向;离散趋势是指观察值的分散情况。
7.频数表还可以揭示频数分布的类型,即对称分布和偏态分布。对称分布是指集中位置在中间,左右两侧的频数基本对称。偏态分布,又称不对称型分布,指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值较小的一侧,称为正偏态;若集中位置偏向数值较大的一侧,称为负偏态。
8.频数表可以较直观地揭示数据分布的集中趋势和离散趋势,而统计指标可从数量上较准确地描述其集中位置和离散程度。定量资料的频数分布类型不同,描述其集中位置和离散程度的指标也不同。
9.病因推断因素:从流行病学观点,有四类因素在疾病病因中起作用。它们每种都可能是必需因素,但每种单独则很少是引起某种疾病或状态的充分病因。
(1)易患因素:如年龄、性别、过去的疾病可以形成对某病因的易感状态。