子任务一 数据类型

数据是一种对客观事物的逻辑归纳,是事实或观察的结果。随着科学技术的发展,凡是可以电子化记录的都是数据,如社交网络产生的社交数据,购物网站产生的大量客户及购物数据,物联网技术催生的车联网数据,等等。数据的内涵越来越广泛,不仅包括像GDP、股市指数、人口数量等数值型数据,还包括文本、声音、图像、视频等非数值型数据。数据类型有3种常见的分类方法,分别是按结构属性分类、按连续特征分类与按测量尺度分类。

1. 按结构属性分类

按结构属性分类,数据可以分为结构化数据与非结构化数据两种。它们不仅存储形式不同,在数据处理和数据分析的方法上也大相径庭。

结构化数据通常是指存储在数据库里,可以用二维表结构来表示的数据。从数据存储角度看,Excel表格数据,SQL Server数据库和Oracle数据库中的数据,都是结构化数据;从应用的角度看,企业ERP系统数据、企业会计信息系统数据、银行交易记录数据等,也是结构化数据,它们大多存储在大型数据库中,用户可以方便地检索、分析和处理。

非结构化数据通常是指不能用二维表结构来表示和存储的数据。相对于结构化数据而言,非结构化数据没有统一的规则,涉及音(视)频、图片、文本等形式。例如,利用一定手段从网站抓取的新闻数据、某个电影的评价数据等,都需要通过一定的方法,将这些数据量化为结构化数据,才能进行有效的分析。

2. 按连续特征分类

按连续特征分类,数据又可以分为连续型数据与离散型数据。连续型数据与离散型数据的区别,可以用线、点来区分理解。

连续型数据是指在一定区间内可以连续取值的数据。例如,人的身高、体重数值,气温度数,电影票房收益等。

离散型数据也被称为不连续数据,其取值只能用自然数或整数表达。例如,硬币的正反面取值、某人的学历取值等。

3. 按测量尺度分类

按测量尺度,数据可分为4类,即定类数据、定序数据、定距数据和定比数据。

(1)定类数据表现为类别,用于标识数据所描述的主体对象的类别或者属性名称。定类数据只能用来标识事物类别或名称,不区分顺序,无法描述大小、高度等信息,不能进行任何运算,包括比较运算。比如,人的性别分为男性和女性两类,量化后可分别用0和1表示;企业按行业分类,分为旅游业、教育业、制造业、建筑业、金融业等,分别用数字1、2、3、4、5表示。这些数字只是代号,不能区分大小或进行任何数学运算。

(2)定序数据表现为类别,但有顺序,也称为序列数据,用于对事物所具有的属性按顺序进行描述。定序数据虽然可以用数字或者序号来排列,但并不代表数据的大小,只代表数据之间的顺序关系。例如,人的受教育程度分为高中毕业、大学本科毕业、硕士研究生毕业、博士研究生毕业,分别用1、2、3、4表示,这些只代表顺序,按照大小正序排列,但不能进行计算。定序数据不仅具有定类数据的特点,可以将所有的数据按照互斥穷尽原则(MECE原则)加以分类,而且各类型之间具有某种意义上的等级差异,从而形成一种确定的排序。

小知识

MECE原则

MECE(Mutually Exclusive Collectively Exhaustive,相互独立、完全穷尽)是麦肯锡咨询顾问芭芭拉·明托在《金字塔原理》中提出的一个思考工具。

分析问题时,在把整体层层分解为要素的过程中,工作人员应遵循“相互独立、完全穷尽”的基本法则,确保每一层的要素之间“不重叠、不遗漏”。

MECE原则是一种简洁有力的思维工具。SWOT分析、波特五力模型、波士顿矩阵、平衡计分卡等都是建立在MECE原则基础之上的战略分析工具。

(3)定距数据是由定距尺度计量形成的,表现为数值,可以进行加减运算,不能进行乘除运算。定距数据没有绝对零点,比如温度计的零点是人为指定的,并不能说20 ℃就是10 ℃的两倍,但可以说20 ℃比10 ℃高10 ℃。

(4)定比数据是由定比尺度计量形成的,表现为数值,既可以进行加减运算,也可以进行乘除运算。定比数据代表数据的最高级,既有测量单位,也有绝对零点(可以取值为0)。比如,小明的体重是60千克,小刚的体重是30千克,我们可以说小明的体重是小刚体重的2倍。

由此可以看出,定类数据和定序数据表现为分类,属于定性数据;定距数据和定比数据表现为数值,属于定量数据。