|
计算中位数值。中位数一般用于描述定序及定序以上的测量尺度的变量的集中趋势。 <3>平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量。如求平均等级。对于分组值,一般用组中值来代替变量值,然后加权平均计算平均数。需要指出的是,用组中值计算的加权平均数知是用原始数据计算的平均数的近似值。由于分组是人为的,所以在变量分布不均匀的情况下,不同的分组会有不同的结果。<4>分布与三值的关系:正态分布时,三值重合;偏态分布中,三值不重合,在正偏态时,由于左边频次密集,这使得中位数偏向左方,但由于右侧的变量取值大,故平均数叫中位数偏右,即平均数>中位数>众数;而在负偏态时则相反,有平均数<中位数<众数。 (4)离中趋势分析:用以概括描述数据间差异程度的统计指标。与集中趋势相比,二者区别:<1>集中趋势描述的是现象的共性,而离中趋势描述的是现象的差异性,如果离中量数大,说明数据分布很分散,这时集中值对数据的代表性低;反之,则说明数据的分布很集中,集中值对数据的代表性高。<2>在由样本资料推论总体时,集中值告诉我们的是如何去估计与预测总体,而离中趋势则告诉我们这一估计与预测的误差大小,因此,两者是互补的。 (5)常用的李中趋势测量指标:<1>异众比率:即非众数的各变量值得总频数在观察总数中的比例。可见,异众比率是对众数的补充,异众比率越小,说明众数的代表性越好。<2>极差:是对定序及定序以上尺度的变量离散程度的测量。它等于最大观察值与最小观察值间得差。极差越小说明资料分布越集中。<3>四分互差(复旦97<名>):也是对定序及定序以上测量尺度的变量离散程度的测量指标。把一组数据按序排列,然后分成四个数据数目相等的段落,各段分界点上的数叫作四分位数,即第一个四分位数Q1以下包括了25%的数据,Q2是中位数,第三个四分位数Q3以下包括了总数据中的75%的数据。四分互差就是第三个四分位数与第一个四分位数的差,即Q=Q3-Q1。优点是可以克服极差中几支队资料分散程度度量的干扰。四分互差的间距越小,说明中位数的代表性越大,数据分布越集中。对于分组数据,求Q1与Q3的方法也可以用线性插值法或直接用公式:
![]() ![]() |
进行计算。其中L1、L3为含有累计百分比25%与75%的区间的下限,U1、U3为对应上限,n1、n3为含有累计百分比25%与75%的区间的频次;cf1与cf3为含有累积百分比25%与75%所在组以前组的累积频次。 (4)方差与标准差。只适用于定距变量。方差等于每一观察值与其平均数的差的平方和除以观察总数,即
而标准差则是它的正平方根。
(5)离散系数与标准分数:离散系数是标准差与平均数之百分比: 标准分数:
![]() |
|||
![]() |
|||
将原始数据标准化有两个作用:<1>确定原始数据在总体分布中的位置;<2>对不同分布的各原始数据进行比较。
- 双变量的统计分析:(1)列联表(北大92<名>;人大98<名>:偏表、边缘表):<1>定义:又称交互分类表,所谓交互分类,指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较个组的分布状况,以寻找变量间的关系。这样的表又叫作条件次数表。表的最下一行和最右一列分别是每类地区和每种产业的总次数,称为边缘次数。其分布称为边缘分布。其余的次数称为条件次数。每一条件下的分布称为条件分布。 <2>注意:(A)在制作条件百分比列联表时,一般应将自变量放在表的最上端横行位置上。因变量放在表的最左一列。计算百分比通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,因此应计算在自变量不同取值情况下因变量的变化情况如何。 (B)在制作列联表时,应在表的最后一行汇出自变量各类数值的个案总数,并以括号括起来。 <3>列联表的作用:(A)具有对变量进行描述的作用。(B)可对不同类别进行比较。(C)是对变量关系的一种解释性分析。 <4>列联表应用:可用于各种测量层次的变量,在用于定序变量时,变量应按取值的大小顺序排列。用于定距尺度的变量时,需要事先进行分组,然后以组的首尾相接顺序排列。 <5>列联表的优点:直观、资料丰富,不仅可以看到关系的有无、大小,而且还可以了解这种关系得详细结构。 (2)消减误差比例:是指一种对变量间关系的测定,简称PRE。假设在不知道x的情况下,对y进行预测的全部误差是E1,在知道x的情况下,由x预测或解释y的总误差为E2,则由x预测或解释掉y的误差为E1-E2,消减误差比例PRE=(E1-E2)/E1。PRE越大,表示以x预测或解释y时所减少的误差越多,即x与y的关系越强。换言之,PRE的值表示的是用一个社会现象(x)来解释另一个社会现象(y)时,能够消除百分之几的错误,即x对y的解释力有多大。PRE的值在0与1之间,当E2=0时,PRE=1,说明x与y完全相关,x能百分之百解释y的变化;若E2=E1,则PRE=0 ,说明x与y之间没有关系,x对y无解释力。 (3)相关分析(复旦96<名>:相关关系;南大99<名>:相关系数;南大95<名>:相关分析 ):相关,就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。相关分析就是以一个统计指标是变量与变量间的关系,这个统计值称为相关系数。通常大多数相关系数取值在0与
之间,0代表无相关,
代表完全相关,相关系数越大,表示相关程度越强。<1>注意:(A)虽然相关系数可以描述变量之间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中,需要大到0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定是无内在的、本质的联系。 (B)数据所显示出的相关(或无关)关系,实际上也可能并不反映变量间存在有意义的关系。 <2>定类变量==定类变量:(A)Lambda系数:(a)对称形式,用
表示,即用于测量的两个变量间的关系是对等的,即无自变量与因变量之分。(b)非对称形式,用
表示,几所测量的两个变量间有自变量与因变量之分,x为自变量,y为因变量。
其中,
=Y变量众数的频次;
=Y变量每个取值之下的X变量的众数的频次;
=Y变量每个取值之下的X变量的众数的频次;
为X变量的每个取值之下的Y变量众数的频次;N= 调查对象总数。Lambda的取值在0-1之间。Lambda系数具有消减误差比例的含义。 (B)





