睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

石话数说:聊聊数据与信息

时间:2022-05-10来源:谁的替代品浏览数:114

《数据安全法》对数据的定义是,“指任何以电子或者其他方式对信息的记录。”

一千个人眼里有一千个哈姆雷特。同样的,一千个人对数据有一千种理解。

引言

在跟客户交流过程中,遇上好学的,偶尔被被问起,“数据和信息有什么区别?”

大部分时间,我基本上都用“信息和数据并无太大区别”来搪塞。对方听罢,尽管不继续追问,但也不免露出困惑以及怀疑的神情。

随着数字化时代来临,(大)数据、信息等词汇几乎走入了老百姓的日常生活。

前几天跟一个新项目交流数据方法。一位初次接触的同事听完后,非常直接的评价,“感觉花活多了些。”

如果回到十年前,这样的评价足以让我emo好几天。好在如今经历了岁月的磨砺之后,内心已经足够强大。

记得我当时直接回复对方,“好在我在会前了解到您是销售,而且能够坐下来耐心听我讲。你这样的评价不会让我生气。不过我依然要非常严肃的告诉您,数据工作是一项非常专业的工作,而且数据也是一门非常严谨的科学。千万不要以为听听大众媒体就自以为掌握了。”我是笑着回应对方的。

无论是数据还是信息,每个人都似乎“略懂”,但又似乎不懂。于是大家总期望有“大咖”用大白话能把问题讲得很清楚,一听就懂的那种。

显然我还远没达到大咖级别的造诣,因此没指望让朋友们一听就懂。不过,还是决定用最啰嗦的方式聊聊数据,以及数据与信息的关系。

一、数据

随着科技不断进步,人类处理数据能力不断提升,数据外延在不断扩大。这正是造成大家对数据“似懂非懂”的根本原因。

阶段一、以量化为目的的数据

远古祖先的结绳记事,这便是数据的最初形态。除了研究纯理论的数学外,每一个数字都代表着现实生活中的特定含义。从我们熟悉个人体重、年龄、收入等,到国家的GDP,企业的销售收入、利润,空气质量PM值,量化的数据无处不在。

在企业里,当老板理直气壮的对你说,“别给我扯这么多,拿数据说话!”意味着用冷冰冰的数据,销售额、利润等,来决定你在公司的命运。

看得出来,人类在对量化的数据计算本身方面,并不需要太多的技术含量,并且也都基本上是通过人工为主来完成。东方的算盘、西方的计算尺等计算工具(还称不上计算器),对人类计算帮助有限。

阶段二、以结构化、标准化记录为特征的数据

在计算机出现以前,已经有了结构化数据的最初形态,那就是财务账本。

(图片来自网络,侵删)

可以说,计算机充分发挥了这一形式的优点。这里不打算科普信息系统的数据库知识,从来不接触的朋友可以想想Excel文件表格的好处。

简单来说,表格的每一行代表了被记录的对象(员工、物料、一次出入库等等)。每一栏代表了被记录对象的核心内容。之所以说是核心内容,只要在表头写明“工号、姓名、性别、年龄、工资”等即可,具体的每一行不需要重复说明。

这样做的目的是,让计算机可以针对预定格式的数据按照预定的程序逻辑进行复杂、而简单的各种运算处理。

有人说,Excel是最反人类的office格式。不信的话,领导上台作报告时,朋友们可以替领导准备一份Excel文件形式的报告验证一下。不过挨K了,不能算在我头上。

这便是人们常说的“小数据”,相对于“大数据”而言的。因为过去绝大部分的结构化数据都是依赖于人手工一个字一个字从键盘录入的,“能省则省”,自然“小”。

阶段三、一切形式的记录

《数据安全法》对数据的定义是,“指任何以电子或者其他方式对信息的记录。”

毫无疑问,这是当今对数据最新、最权威的定义,也是最宽泛的定义。

就我自己的体会而言,第一次看到这个定义时,认为“其他方式”的限定词过于严谨。

毕竟,我们当前绝大部分计算机直接处理的信息都是以电子形式存在。其他物理世界的实物(含声、光等)也都是通过技术转化为电子形式之后,再交给计算机进行处理。

但实际上,随着技术进一步发展,非电子形式更先进的记录方式势必被发明。例如,据说科学家们已经开始探索使用人造DNA来存储信息。当然,包括人类在内的生物体所携带的天然的(相对于人造的)DNA本身也是一种“数据”。

另外,过去已经存在的记录,包括数千年前的西班牙岩画、殷墟的甲骨文,或许未来也可以作为存储,被计算机直接进行处理。

不可否认,如果将该定义进行简化为“数据指对信息的记录”,结果又如何呢?

看不懂!

不可回避的,只能聊聊数据和信息的关系。

二、数据与信息

第一次将“数据”和“信息”两个概念放在一起对比,应该是十五六年前的事情了。当时公司开始数据治理工作,从外面请来的顾问总喜欢拿体温的例子来科普数据、信息、知识和智慧的关系。

由于年代久远,无法找出原始材料,只能手绘如下:

说实话,作为宣讲材料的引子,除了能够炫耀一下自己既专业又“亲民”以外,并无更多的作用。

后来知道了,这个原型来自于DIKW模型(详细见文章《DIKW模型,数据供应链中的基础生产工艺》)。

人类的认知过程是一气呵成的,甚至不需要严格的区分数据、信息和知识。举个例子,我们是不是经常把“第一次世界大战爆发于1914年6月28日。”之类的历史事件当作历史知识呢?如果我非得说不是,你可能会说我吃饱撑的。

但历史上,“吃饱撑的”的人不知我一个。除了把DIKW模型写成诗歌作者艾略特之外,还有被誉为“信息论之父”的香农。

《信息简史》一书介绍信息论时,引用了香农的一句话:“对于信息论的研究而言,讯息的‘意义’基本上无关。”

进而解释,“这些讯息往往都带有意义,也就是说,根据某种体系,他们指向或关联了特定的物理或概念实体(对象)。”

从其他材料中了解到:

香农区别了信息传播的三个层次:A层:传播符号如何能够被准确地发射(技术问题);B层:被发射的符号如何能够准确地传递意图中的意义(语义学问题);C层:被接受的意义如何有效地以意图中的方式影响行为(效果或行为问题)。

可以看出,香农从技术的角度把人类认知过程拆解成三个“分解动作”,A层对应着数据;B层对应着信息;C层对应着知识。

香农在著名《通信的数学理论》论文引言里写道:“通信的基本问题就是在一个地方复现在另一个地方选定的消息,这一复现可能是准确的,也可能是近似的。”

我没有数学功底,没有勇气看论文正文。但至少可以猜测道,香农把数据和信息区分开来(近似如此),其目的是解决信息载体的“传递”的技术问题。

因此,不妨将《数据安全法》中关于“数据指对信息的记录”按照类似方式来理解。

后记

尽管花了许多时间来澄清和理解数据和信息的定义,但我依然认为,对于非专业的朋友,并不需要可以“从技术的角度“去理解数据和信息的区别。



(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询