【原创】什么是数据 ?

yuanxn

什么是数据 ?

一

数据 —— data 是统计学家司空见惯的词，源自拉丁文datum 的复数形式，是“给定”（something given）的意思，对这个词的内涵的探讨一般不是是统计学家的任务。

统计学家对data 或datum 感兴趣，因为它是统计处理的对象。除此以外，哲学家也对其感兴趣，而且有很深厚的研究，但侧重和统计学家有区别。让我们引用的是《西方哲学英汉对照词典》（尼古拉斯 • 布宁、余纪元编著，人民出版社，2001第一版，227 – 228页）看看哲学家的说法。请注意这里data一词的汉文翻译是“予料”，我们暂且可以望文生义地理解为“给予的材料”（注意，千万不要和汉语中的“预料”相混淆！），其解释如下：

[拉丁文datum的复数，意为“所予”]任何研究或推断由之开始的材料或信息。予料是这样的信念，它们不需要进一步的理由，它们是我们关于世界的知识必不可少、最低限度的前提。予料的确实程度不同，可以进一步分为“硬予料”和“软予料”。前者是确实的、自明的信念，靠它们自身就为人们相信，后者是这样的信念，经过考察后发现它们不具有上述性质，而是从其他信念中推导出来的。罗素一直把“予料”和“硬予料”作为同义词使用。这一区别也对应于罗素在“基本知识”和“派生知识”之间作出的另一区别。

“我所谓的‘予料’，或是‘硬予料’，是指一切这样的东西，它们经受住了我所能进行的最严格的批判性考察，而不包括在考察之后凭借论证和推理才得到的东西。”——罗素：《我们关于外部世界的知识》，1926年，第70页。

首先哲学家那里的data的含义比统计学家这里要宽泛一些。不由让我们注意到在汉文中data 的另一种翻译 —— 资讯，似乎比“数据”这个词更贴近外文的含义，但是哲学家那里其实还指那些未经人类理性处理（即任何研究或推断）过的材料，应该是指我们的感性或直观得到的东西。因此，我们以后当讲到data 的宽泛含义时，采用予料这个词，而在狭隘含以上使用这个词就称之为数据。

这里我们按照 something given 这个意思摸索下去，不由得会提出这样的问题：

1、这种材料、信息抑或信念（beliefs）是由谁/什么提供或给出？

2、承接这种予料的又是谁/什么？

3、这种予料的形态是什么样的？

以鄙人之疏漏，不可能圆满回答这些问题。但在这里，大致谈一些常人之见，作为进一步探讨的引玉之砖，给可能的评判提供一个靶标或由头。

我的思考是这样的。以上所言的材料是理性生物可以体认到并用来做出推断的，因此其核心意义上不是物质的，我认为把它解释为信息是比较恰当的。它的提供者可以是任何事物，包括理性生物，当它的接受者是理性生物时才有认知意义，反之，若接受者不具备理性的也会通过物质运动的传递产生反应（比如，蠕虫机体受到刺激，体内释放某种物质，使得机体产生某种反应）。

对于理性生物，给定的信息或予料首先是表现在经验形态上（理性形态的底层），而不是理性形态，而且是已然发生的。因为这予料不需要进一步的理由而直接呈现给你。要追问这种现象（经验形态）到底有何缘由，是通过进一步的理性加工、梳理、判断或探讨才能得到的。

对于统计学来说，特别重要的是，这种予料、信息、资讯或数据是否被记录下来。没有以某种方式记录下来，统计学家就一筹莫展。这种记录下来的予料，才是中国大陆人们通常意义上所指称的“数据”，它可以是过去时或者是过去将来时。

从人的认知历史来看，数据（为了方便，以后涉及到这个词，再加上一个限制，即指被记录的予料）起初是由人自己记录下来的，比如流水账、户籍簿甚至是结绳记事等等，但是，人工智能发展起来，人的头脑延伸之后，可以通过传感器感知事物，把发生的信号送到计算机或记录仪上，记录到介质上，这也是数据。但是，没有人的经验活动为先导，后来的智能机器记录数据也是不可能的。因此，不论是手工记录，还是机器记录，数据的核心意义在于其是一种经验形态（或是假手智能机器的经验形态，我们或者应该称之为“延伸的经验形态”可能更贴切一点）。

可记录下来的东西不一定就是统计可处理的，像模拟制的记录。比如声音，通过话筒和放大器变成音频电流记录到磁带上，要想统计处理必须经过数模转换，变成数字记录。包括我们的绘画与音乐的心理反应、情人的秋波与抚摸、无厘头行为、不可名状的感受等等充其量只能以“模拟制”印在我们的经验中，或可通过我们感官的延伸物得到记录。它们是否可成为统计处理的材料还需要满足其他限制。

至此，我们或许能够认可，数据的根本来源（核心来源）是经验形态，它是被符号、文字或代码（主要是二进制的）记录下来的形态（因此，在这里我们对于数据一词的进行第二步限制：其特殊记录方式。注意，这里排除模拟制等等不可直接进入统计处理过程的形式。）。

康德说：“按时间先后说，先于经验我们没有知识，我们的一切知识都从经验开始。”（《18世纪末—19世纪初德国哲学》，第一页，商务印书馆，1960年版）统计学的数据被记录的可名状的经验形态。

孤立地看纯粹的统计学的数据和经验似乎没有多大关系，但是实际处理起来，我们会发现它总拖带着来自经验母体的脐带。

其实对统计学有了纯粹的数据是不行的。我们常简约地说统计学就是“从数据到结论”，那么进一步说统计学和经验形态（注意这个概念比数据要宽泛）脱不了干系，数据记录可能是干巴巴的数字，或流水账，必须把它放在经验背景下解释，才是有生命的。我们反省统计学的内容能够感到数据本身以外，必须附带起码的背景信息，才能指示我们采取恰当的数据处理方式。比如，一张表上有两列数据，经验背景告诉我们是两个独立总体的记录，那么我们就有一套具体的统计处理办法（如独立总体均值比较），如果是非独立的总体，其处理方法就大相径庭了（如配对样本比较），如果说是其他类型的数据（比如说是可列名数据的数值标记，那么连均值计算都不可能，前述的所有手段都是驴唇不对马嘴的），我们就要从统计学处理手段的百宝箱中掏出另外的家什来对付。这里“独立总体”、“非独立总体”或“数值标记的可列名数据”等等就是纯粹数据以外的信息。（我们或者可以说原来讲的数据是狭义数据，而这种狭义数据加上背景性的经验信息就是扩展的数据。）

因此统计学的数据并不是全部的加工原料，必须带有具体其来源的足够信息，才可以得到适当的处理。因此可“画蛇添足”地说“数据加经验背景可得到恰当结论”。

对统计学来说，数据有经验脐带，纯粹数据几乎不能独立的自己说明自己。这个问题对很多学科来说有至关重要的意义。数学模型，以至任何带有形而上学色彩的模型，几乎其前提是封闭的，但是统计模型本性上是开放的。有人说这次金融危机是一些经济模型的破产，这话有一定道理，问题出在模型前提的封闭型。经济学从本性上是实证的，有些人的理论模型前提封闭只是在于为了使得从前提演绎过程的保真性，以便于人们接受它。但是这些模型拿到实际中，应该考虑把前提的封闭性设定打开，否则很可能失效。

二

予料被记录下来成为数据，其具体形态是什么样的呢？

勿庸讳言，大家可能比我都熟悉。统计学教科书开篇就讲数据有如下形态：

1、可列名

2、可排序

3、等距

4、等比

这里要注意的是等比是等距的子集，等距是可排序的子集，可排序是可列名的子集。予料最初被文字或语言记录下来成为数据须起码有名，或更进一步说予料是可名状的，可以用我们的语言表达出来。

这里我们把可列名作为母集，或者说目前我们知道的数据概念（特别是狭义的，即不包含背景信息的）和可列名重合。

对于数据类型的定义可以有狭义和宽泛的两种（至此本文中一直采用宽泛定义）。比如可列名狭义的定义是排除可排序（宽式）这个子集的。而狭义的可排序是排除等距（宽式）的子集；同理狭义等距是排除等比（宽式）子集的。但是，以后我们在行文中有时不特别声明数据类型的宽窄定义，因为从上下文中读者可以自然判断出来。

另外，狭义的可列名和可排序这两个集合还被统称为不可度量的（或定性的）数据，而狭义的等距和等比数据被统称为可度量（或定量的）数据。

在可列名的集合中有一个特殊的子集须要指出，那就是逻辑数据，即“是”与“否”，“真”与“假”或“有”和“无”。它是对存在的判语或称谓。

当计算机这种人类头脑延伸物发展起来后，发现逻辑数据（即二进制的）可以用来近似记录以上四种形态的数据，另外，人类或机器的模拟制感官也可以通过数模转换后，用逻辑数据近似记录。

我们不禁要问，为何予料在有了名之后，才能成为数据？为什么多少有些混沌状的经验形态（予料），成为理性处理的质料或对象？而理性处理它却又躲不开对验形态的“命名”呢？（但是，我们不能排除，艺术家或科学家通过不可命名的方式进行想象与创造，甚至通过梦境得到启迪。这种现象对于我们常人也是不奇怪的。）

窃以为这是人类知性起了关键作用。所谓知性，就是人类认知的能动性。在我们的意识中，抛开语言来讲，“花”是一个范畴，而人的知性首先表现为在心中对现象或事物赋予对应的范畴，我们就可以通过意识把握它。作为群体的或社会的人我们需要交流，必须借助于语言，要主动地给各种现象（在语言命名前，现象在心中是以范畴形式存在）命名，这种命名是要借助于具体语言的，比如我们指一种花叫莲花，而一位不懂汉语的人却叫lotus 。意识中范畴在先，具体语言的命名在后。具体语言对应的范畴有一些差异。（关于这个问题，我们不敢进一步深究了，要牵扯到很多哲学问题，以我之愚钝，要想涉猎恐怕是痴心妄想。这里仅就和统计学有联系的方面谈点粗浅看法。）

读者可能要问，既然不同语言对于经验的命名有差异，会不会造成数据的记录上含义（或者说在不同语言的对译上）的差异呢？我们以为即使有也是最小的，特别是狭义数据（没有背景描述的）上。如果说全世界使用统一的语言尚是梦想，而数据的记录形态上和范畴上却已经实现了统一。都说上帝在人类造巴别塔时乱了人们的语言，使得这座塔成了“烂尾工程”，但是，上帝当初设置语言屏障时最薄弱的地方就是关于数字的表达了。

为什么是这样？恕我武断，这恐怕在于数的概念的先验性。上帝在经验领域的表达上可以轻易搅乱，但在先验领域中其作为有限。

现在，用阿拉伯数字表示可度量数据是世界通行的，上帝制造的障碍仅仅表现在各种语言对数字的读法和语音差异。当一切数据采用逻辑数据近似表达的话，人和人之间，人和人的头脑的延伸物之间的交流的空间就更大了。

======================================================================

附录

维基百科对于数据的解释

首先说明，以下资料来自来自维基百科（Wikipedia, the free encycl）的网页：

http://en.wikipedia.org/wiki/Data

对data 的解释如下

Data refers to information or facts usually collected as the result of experience, observation or experiment, or processes within a computer system, or premises. Data may consist of numbers, words, or images, particularly as measurements or observations of a set of variables. Data are often viewed as a lowest level of abstraction from which information and knowledge are derived.

来自维基百科（Wikipedia, the free encycl）网址：http://en.wikipedia.org/wiki/Data

关于data 的词源解释如下

The word data (pronounced /ˈdeɪtə/, /ˈdætə/, or /ˈdɑːtə/) is the Latin plural of datum, neuter past participle of dare, "to give", hence "something given". The past participle of "to give" has been used for millennia, in the sense of a statement accepted at fn, Data). In discussions of problems in geometry, mathematics, engineering, and so on, the terms givens and data are used interchangeably. Such usage is the origin of data as a concept in computer science: data are numbers, words, images, etc., accepted as they stand.

iamstomach

恩能从哲学角度思考另辟蹊径啊

你说的让我想到了两个问题：

第一个，什么时候可以用声音、图像来作为“关键字”搜索

第二个，统计学的处理是将情感注入数据之中，数据挖掘面临的是纷繁复杂的数据，不过这个纷繁复杂也只是以人脑处理海量数据的局限性的反映，数据挖掘处理的数据也是需要清洗、整理的！

我的愚见！

yuanxn

关于“第一个，什么时候可以用声音、图像来作为“关键字”搜索”

似乎警察部门关于指纹的数据库就是用“图像”搜索，而人的声音也有自己的“指纹”，可以在数据库里搜索。

另外，计算机的OCR(光学文字识别)，也是把印刷体甚至手写体的“关键字”来搜索的。我们很多人用的手机的手写功能就是。

关键在于 “模 - 数转换”，就是把模拟制的图像和声音转化为数字化的信息。

iamstomach

我那天上网查了下，这两项都已经有了！特别是声音搜索那个，日本最近刚开发出来。CCTV有播过！