<7>定序变量---定距变量:(A)将定序变量看作是定类变量,采用相关比例测量法。(B)将定序变量看作是定距变量,采用r相关系数。严格地说,低测量层次变量不能使用高测量层次的统计指标,但在有些情况下,由于这种提高测量层次的方法给研究结果的解释带来的危害程度不大,大部分社会学家还是接受了这种做法。
(4)一元方差分析:是关于一个定类变量和一个定距变量关系的分析。二元方差分析是对于两个定类变量与一个定距变量的关系的分析。依此类推 ,n元方差分析是指n个定类变量与一个定距变量关系的分析,二元以上的方差分析都叫做多元方差分析。方差分析是由对变量间相关关系的分析,到建立描述变量间因果关系得一般线性模型的过渡,后者是大多数多变量分析方法的核心思想。
<1>总离差平方和:TSS=
。表示全体观测值
对总平均数(推测值)的离差平方和。
<2>组内离差平方和(人大99<名>:残差):RSS=
,表示各观测值队本组平均数的离差平方和,它不是由自变量而是由其他未知因素引起的。又称剩余平方和。
<3>组间离差平方和:
BSS=TSS-RSS=
,表示各组的平均数与总平均数的离差的平方和。它是由于自变量值
的不同引起的差异。
<4>
其中
分别是BSS与RSS相应的自由度,
,
(m为变量x值的类别数,N为观测总数)。
即
,F越大就表示x与y越可能相关。 由此可见,方差分析的基本思想就是把推测的全部误差(TSS)分为两部分;可被自变量x消减的部分(BSS)和剩余部分(RSS),然后从这两部分的相互比较中看x与y是否相关。如果两个变量一个定序一个定距,当把其中的定序变量看作为定类变量时,也可以使用方差分析,实际上许多社会调研人员都是这么做的。
(5)一元回归分析:是对相关的两个变量间关系的具体形态的一种深入分析。它不仅分析两个变量关系的有无、大小和方向,而且要了解两个变量具体是以什么方式发生关系的。回归分析是一种因果分析,它是根据两变量间关系的具体形态,选择一个合适的数学模型,用来近似的表达变量间平均变化关系,这个数学模型就是回归模型。一般用于分析定距变量间的关系,它除了具有描述和说明这种关系的功能外,还具有预测的功能,这也是相关分析所不及的。
<1>一元回归模型:对于已知相关的两个变量x与y,架设他们之间是一种线性关系,则对这一关系可以用一元线性方程y=a+bx表示,其中的a和b是待定系数。这个方程叫做回归方程,b称为回归系数,a称为截距,即x=0时,y的值。a与b的计算公式:
![]()
<2>散点图与回归直线: 为了直观的看出x与y的关系形态,往往先作关于所调查的数据的散点图,即在直角坐标系中,将由每一横坐标
与相应的纵坐标
(i=1,2,---n)所确定的点标示出来。x与y间存在一种线性关系时,虽然有多条直线来近似的刻画这种关系,但其中只有一条直线的代表性最好,这条直线就是回归直线。回归直线的方程就是回归方程,回归方程中的a就是回归直线的y轴的截距,回归系数b就是回归直线的斜率,b值具有描述自变量对因变量的影响的大小和方向的作用。
<3>回归系数与r相关系数:回归系数与r相关系数都是描述两个定距变量间的线性关系的指标。r相关系数十一种对对等关系测量法,它反映的是两个变量有无关系,关系的强弱,但它不能给出一个变量x有
的变化时,y的变化
具体有多大。b值可以做到这种区分,不过b值却无法反映两个变量间关系的强弱。此外,b与r值不同的是,b值所描述的是一种因果关系,而相关关系只是因果关系的必要条件。尽管有上述不同,但回归分析与相关分析之间有着密切的关系,实际上r值所要表示的,就是以回归方程作为预测工具时所能减少的误差比例,r值越大,就表示回归方程的预测能力越强,即散点图中的点越靠近回归直线。因此,我们用
作为决定系数,在社会研究中往往要先计算r值,然后再决定是否用回归分析进行预测。
<4>回归分析的作用:回归分析模型是一种因果关系模型,因为增加了因果关系,因此与相关分析相比,它的作用也大于相关分析。除了具有与相关分析同样的简化资料的功能,还增加了预测的功能,即当得到了两个变量x与y的回归方程后,就可以从自变量的值经回归方程计算出y的预测值。
但应当注意的是,应用回归方程来预测因果变量时,一般不应使用超出资料所包括范围的自变量的数值,因为回归线段以外未观察到的点可能出现非线性的趋势。此外,预测的回归方程式只能反映一定时期内事物之间的相互关系,随着时间的推移,这种关系会起变化,因此回归模型也要作相应的修改,如果这时还使用原来的模型作预测就会得到错误的结论。回归分析在应用时有许多假设前提,例如其关系是线性的,自变量无测量误差等等。
- 单变量与双变量的统计推论: (1)统计推论的一般概念:统计推论分两类<1>参数估计(复旦97<简>:什么叫统计推论?其特点是什么):就是根据一个随机样本的统计值,来估计总体的参数值。 <2>假设检验:是首先对总体的情况作出假设,然后抽选出一个随机样本,以这一样本的统计值来检验原先的假设是否正确。社会调查研究中大多采用假设检验的统计推论方法。(2)参数估计:分为: <1>点估计(复旦97<简>:进行总体参数的点估计时,衡量估计值的好坏标准有哪几条):就是从一个适当的样本统计值来估计总体的未知参数值。缺点是无法了解这种估计和推测的可信程度如何,区间估计可以弥补这一缺陷。<2>区间估计(浙大2001<名>;南大2000<名>):就是通过样本统计值来推测总体未知参数的可能范围。这一可能范围的大小,取决于我们在估计时所要求的可信度(即置信水平)的高低,对于同一样本,如果要求这种估计的可信程度越高,则总体参数的可能范围越大,反之越小,这一可能的范围称为置信区间(南大2000<名>),显然,置信水平与置信区间成正比。 (A)区间估计的一般程序:(a)确定置信水平。(b)计算标准误差。(c)根据样本统计值和标准误差确定置信区间。 (B)平均数的区间估计: (a)当总体方差
已知的时候,根据抽样分布理论,
满足标准正态分布N(0,1),式中n为样本容量,M为待估总体平均数。区间
为待估平均数M、置信水平为1-
的双侧置信区间。在置信水平为95%时,总体平均数的置信区间为:
。(b)当总体方差
未知时,分两种情况:a:当
时,总体平均数的双侧置信区间为:
。
值需要查t分布表。 b:当
时,总体平均数的双侧置信区间为:
。从上面的公式可知,置信区间与样本大小成反比。只要将样本加大,就可以提高估计的精确程度。 (C)方差的区间估计:(a)当样本
时,由抽样分布理论可知,
满足自由度为n-1的
分布。对于给定置信水平1-
,区间
即待估总体方差
的双侧置信区间,
的值可由
分布表查出。(b)当样本
时,总体方差在置信水平1-
下的双侧置信区间为
。由总体平均数与方差的讨论可知,总体参数的区间估计方法的选择除考虑参数的类型以外,还应考虑样本的规模。在大样本的情况下,常采用正态分布,而在小样本时,则要采用其他类型的分布。
