1.1.8 变量与资料

变量为观察单位的某项特征,如人的身高、体重、性别、年龄、血型、营养程度等。这些变量是我们研究的指标。根据变量特征的属性,变量可以分为数值变量、等级变量和分类变量。变量及其取值构成了研究的资料或数据。

1. 数值变量

数值变量(numerical variable)是通过定量的方法检测出来的指标,通常以阿拉伯数字呈现,具有单位,并可以进行定量的比较。比如身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、工资、年龄等。数值变量支持加减法(+/-)运算,我们也可以联想,数值变量是否可以用均数±标准差来表示,从而帮助我们记忆。很多书中又称数值变量为计量变量、连续性变量、定量变量等。

2. 等级变量

等级变量(ordinal variable)既具备分类变量的性质,又具有半定量比较的性质,如病情(轻/中/重)、职称(初级/中级/高级)、学历(小学/初中/高中/本科)、福利待遇(好/中/差)。这类资料各水平之间互不相容,但又有级别上的轻重关系。等级变量之间的关系可以用大于号和小于号(>/<)来表示。

3. 分类变量

分类变量(categorical variable)反映的是互不相容的属性和类别,是一种“我中无你,你中无我”的关系。分类变量常通过计数的方式获得,如血型(A/B/O/AB)、性别(男/女)、生肖属相等。分类变量之间可以用不等号(≠)进行区分。

分类变量的各水平之间是互不相容的,相互排斥的。比如性别是男,就不可能再是女;血型是A型,就不可能是其他类型。其选项就是对受试对象进行分类,具有互斥性。

分类变量可以进一步分为二分类和多分类。二分类就是水平数为两个级别的分类变量,如性别(男/女);多分类是水平数大于两个级别的分类变量,如血型(A/B/O/AB)。

为什么分类变量要区分二分类和多分类呢?这是由统计特征决定的,二分类和多分类在统计分析方法上就有差异,这就是所谓的“2K效应”。具体可见后面的统计方法选择章节。

4. 变量转换

同一受试对象身上可以检测出上述三种变量,三种变量反映受试对象信息的能力顺序依次为数值变量、等级变量和分类变量。为了方便大家记忆,我们把三种变量依次称为“老大”“老二”和“老三”。

变量之间可以进行转换,但只能从高级别变量向低级别变量转换。意思是数值变量可以转换为等级变量和分类变量,等级变量可以转换为分类变量,数值变量也可以直接转换为分类变量,但不可以逆转。

例如,某医院的院长是“老大”、科室主任是“老二”、科里的医生是“老三”。如果这位院长不想做院长了,他可以做科室主任,也可以做普通医生,但是普通医生不是想当主任、院长就能当的。

从专业角度举个例子,假设某人收缩压为180mmHg(数值变量),可以转换为等级变量(高血压/正常/低血压),也可以转换为分类变量(正常/异常)。但是如果只告诉你,某人的血压不正常,你是无法知道他的血压是偏高还是偏低,以及具体的血压数值。这点也给我们一个启示:科研过程中尽量去获取数值变量资料(如果该变量具有数值变量形式的话),因为其信息多,而且可以转换。在后续分析过程中,可以根据研究目的,选择以不同的形式进行分析。这也是统计学的思维。

统计学的概念很多,本章只讲入门核心概念,后面讲到具体内容时,还会讲解一些概念。