首页 网站首页 商业信息 数据 查看内容

终于有人把数据、信息、知识讲明白了

视频号营销 2022-10-19 11:25 8848人围观 数据


导读:我们把关于信息处置的理论称为信息论,它是20世纪40年月从通讯理论中成长并总结出来的一门学科,专门研讨有关信息处置和牢靠传输的一般纪律。这一理论对计较机技术的成长具有重要意义。为了更好地论述这一理论,让我们先来会商几个大师耳熟能详的词:数据、信息、常识

作者:徐晟

来历:华章科技


终究有人把数据、信息、常识批注白了

01 数据是一组成心义的标记

数据无处不在,只是它们没有实体。

曩昔,人们习惯把数字的组合称为数据。但在明天,这样的了解明显不够周全。那末能否可以把数字、字符、字母的调集称为数据?也不正确。

在明天“大数据”的语境中,数据是可以被记录和识此外一组成心义的标记,一般可经过原始的观察或怀抱获得。数据是对客观事物的逻辑归纳,可以用来暗示一个究竟、一种状态、一个实体的特征,或一个观察的成果,有些是用于描写某个工具的究竟性数据,有些则是经过观察、分析、归纳获得的总结性数据。

数据可所以持续的,比如无线电通讯时在空气中传输的电磁波,它们是模拟数据;数据也可以是离散的,比如在计较机中存储的文档和照片,它们是数字数据

承载数据的形式有很多,不但包括笔墨、数字、标记、图像、语音、视频,也可以是对某个事物的属性、数目、位置、关系的笼统暗示。大气的温湿度、汽车的行驶线路、门生的档案记录、商务的条约,这些都是数据。

我们平常用电子装备看消息、摄影片、买工具、打游戏,本质上都是在和数据打交道。在计较机中,它们是连续串包括有0和1的二进制数的组合。


终究有人把数据、信息、常识批注白了

02 信息是用来消除不肯定性的

现在我们来明白一下什么是数据,什么是信息。当人们在研讨甲骨文时,上面记录的标记仅仅是一些数据。要读懂这些数据,就必须领会数据背后要表达的寄义。一旦对数据做出诠释,我们就能获得甲骨文上的信息。

数据与信息既有联系,又有区分。数据是信息的载体,信息则需要依托数据来表达。它们是形与质的关系,两者密不成份。

信息由数据加工得来,它可以由数字和笔墨表达,也可以表示为其他具成心义的标记,其承载形式不重要,重要的是信息能让我们领会一些工作、辨别一些真伪、佐证一些概念。也就是说,虽然数据存在的形式多种多样,但我们真正想要获得的是信息。

“信息”作为科学术语最早出现在哈特莱1928年撰写的论文《信息传输》中,在该论文中他初次提出了将信息定量化处置的设想。1948年,信息论开创人、美国数学家香农颁发了一篇有着深远影响的论文—《关于通讯的数学道理》,他明白指出了“信息是用来消除随机不肯定性的工具”

在香农看来,一旦我们想要对信息停止量化和比力,我们就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,能否改变了某些不肯定性事务的几率。明天这一界说已经被看做是对“信息”的典范界说,在各类场所不竭被人援用。

不管是数字、字符或它们的组合,假如我们没法解读,就不能称其为信息。有一个重要的判定标准是,看它能否承载了有用的内容。不管是石头上刻的画、纸上写的字、墙上的涂鸦还是电脑中的文件,只要它们能表达确切的寄义,就能以为是信息。

一串11位数字的号码,假如它是随机数字,则谈不上是信息。假如我告诉你,这串数字是我的手机号,它就消除了不肯定性,它即是一种信息。信息是把人们不清楚的给说清楚的那些内容,假如已经晓得了,就不能算作新的信息。

举例来说,明天任何一个小门生都晓得地球是圆的,地球自转发生了白天和黑夜。这在明天看来是一个根基常识,但我们的祖先并不晓得。假如我们把发现笔墨作为人类文化的起点,那末大约经过5000多年,也就是直到15世纪,人们才起头接管地球是一个大圆球的概念。

虽然“地球”对于明天的小门生来说不算是新的信息,可是对于前人来说,它不可是信息,而且信息量庞大。

你也许已经发现了,信息会因场景而定,因每小我的主观熟悉而定。同一条信息,对一些人是有用的,对另一些人也许就没用了。


终究有人把数据、信息、常识批注白了

03 常识是对信息的总结和提炼

随意给出3个数字:68、21、192。这3个数字仅仅是数据。现在给它们加上一些说明,比如:衣服的价格是68元,明天的气温是21摄氏度,小明爸爸的体重是192斤。这些数占有了明白表达的寄义,它们就是信息。

不但如此,我们还能基于这些信息给出一些判定:衣服不是很贵,天气有点风凉,汉子该去减肥了。做出这些判定,需要依靠我们平常生活中堆集的经历和常识,即常识。

常识是对信息的提炼和概括,它是高度概括的信息。假如说信息可以解答一些简单的题目,比如“谁”“在那里”“做什么”,那末常识可以回答一些更具深入认知的题目,比如“怎样”“为何”。

平常生活中最根基的常识是常识。比如明火不能碰、热油不能遇水、人有生老病死、月有阴晴圆缺,它们大部分来自生活,是大师以为都该晓得、不言自明的常识。明天很多约定俗成的常识,是由我们的祖辈口口相传、代代相承而来。人并不是天生就有常识,晓得火为何物、火可伤人、火可熟食。很多事理都是从生活理论中总结而来的。

现现在,对于野生智能来说,要处理的焦点题目是让计较机具有常识。很多常识背后有着复杂的常识系统,机械必须真正“了解”常识,而不是“记忆”它们。

举例来说,计较机也许能经过数据样本进修,晓得人类有头、手、脚等身材部位,但它很难了解既然这些部位都长在人体上,为何只要头上有眼睛,手和脚上却没有?又比如,计较机学会并晓得了“人有2只眼睛”,但它没法判定这个天下上能否存在“有1只眼睛的人”和“有3只眼睛的人”。

现在的野生智能只能从数据中进修到数据之间的联系,它还不能很好地处置有关常识的题目,这方面人们还有很长的研讨之路要走。

以上会商的“常识”,指的都是人脑中的常识。它和计较秘密处置的“常识”是分歧的。从本质上讲,计较机只是模仿人类的常识,它们并没有真正把握这些“常识”。计较机只是经过一些特定方式把人类常识表达出来。而这个特定方式是基于图技术

图是一种暗见常识的工具,是描写常识的状态、关系、途径间隔等相关要素的最自然的数学表达。它擅长存储和处置复杂的网状关系,所以在常识图谱、交际收集、用户关系分析等范畴有着普遍的利用。

近年来,基于图技术的常识图谱是非常热门的研讨范畴。比如公共熟知的维基百科就是一个常识图谱利用。常识图谱可以用来描写各类实体以及它们之间的关系。它是一个庞大的图形收集常识库。在这个收集合,每个节点是一个实体,比如人名、地名、事务、活动,肆意两个节点之间的边暗示它们之间存在关系,如图3-1所示。


终究有人把数据、信息、常识批注白了

▲图3-1 基于图形结构的常识图谱表示图

常识图谱的根基组成是“实体–关系–实体”的三元组,它不但能把与关键词有关的常识系统化地展现给用户,也可以基于常识停止推演。例如说,从〈东方明珠,座落在,浦东〉和〈浦东,属于,上海〉这两个组合,就能猜测获得〈东方明珠,位于,上海〉。

常识图谱还会不竭更新迭代,用户搜索的次数越多,范围越广,这个常识库就能获得越多的信息和内容。

常识并不是与生俱来的,获得常识凡是有两种路子。

路子一是亲身材验。比如,刚诞生的婴儿什么都不懂,将一杯热水放到他眼前,他会想要去拿杯子,成果喝水被烫到了。第二次他再看到杯子,有了上次被烫的经历,他会观察杯口能否冒烟,摸摸杯子的温度,再决议能否拿杯子喝水。在这个进程中,婴儿经过自己的亲身材验,逐步把握了有关“热水”的常识。

南宋理学家、思惟家朱熹曾说:“所谓致知在格物者,言欲致吾之知,在即物而穷其理也。”他要表达的意义是,获得常识的路子在于熟悉人间万物,并完全研讨它们的道理。就是说,要亲身材验这个天下来获得贵重的常识。每小我有分歧的人生和履历,这些会成为我们独占的常识。

亲身材验得来的常识是最实在的,所以它凡是比力正确。不外,这样获得常识的时候周期长,效力也比力低。

路子二是经过他人教授。比如经过怙恃、教员、书籍、收集进修得来,但教员教的、书上印的能够出错,这样得来的常识一定正确。不外,它照旧是获得常识最首要的形式,究竟我们没有那末多时候和精神,凡事都亲身履历一遍。站在前人和伟人的肩膀上,不竭进修新的常识,是人类科技进步的底子缘由。

风趣的是,在互联网时代,任何人都能随时随地找到自己想要的信息,但我们的常识总量并不会立即增加。进修是一种进程,需要时候堆集,欲速则不达。

比如很多人都听过“区块链”,但大部分人并不清楚它是什么。有人以为它是钱,也有人以为它是一种身份认证技术。但这些了解都不正确。很多人只是从网上找到了关于区块链的信息,并没有真正获得关于它的常识。从某种意义上讲,互联网虽然进步了人们找到碎片信息的效力,但下降了人们把握完整常识的才能。

固然,互联网对全部社会来说照旧利大于弊,它让全天下的常识可以快速传递和同享。每小我都可以在收集上自在地颁发概念,这些内容也被其他人搜索、阅读、会商。一个小门生能从互联网上学到常识,并在课堂上指出教员的毛病,在家里改正怙恃的看法。这让曩昔作为威望的教员和怙恃遭到了应战,这在之前是不成设想的。


终究有人把数据、信息、常识批注白了

最初,让我们做个简答的总结——数据、信息、常识三者密不成份。

  • 数据是一组成心义的标记,它是信息的载体,是常识的来历;
  • 信息赋予了数据寄义,信息消除了不肯定性;
  • 常识从理论、经历中获得,它由数据记录,从信息中提炼。

关于作者:徐晟,某贸易银行IT技术主管,结业于上海交通大学,处置IT技术范畴工作十余年,对科技成长、野生智能有自己独到的看法,专注于智能运维(AIOps)、数据可视化、容量治理等方面工作。

本文摘编自《鬼话机械智能:一书看破AI的底层运转逻辑》,经出书方授权公布。(ISBN:9787111696193)


终究有人把数据、信息、常识批注白了

《鬼话机械智能:一书看破AI的底层运转逻辑》

保举语:AI是什么?机械若何具有“智能”?“智能”若何起感化?本书以浅显易懂的方式,勾画野生智能的全貌,展现AI的底层运转逻辑,即AI是若何工作的。

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评
  • 和你相伴1 2022-10-19 11:36
    转发了
  • 戏做顿 2022-10-19 11:35
    数据=信号=信息;
    数据、信号=信息,这中间差个主体认知与客观实在的变换!从香农的信息量(比特)计算到维纳的时间方程推导,你没有发现就缺一个主客观的转换。数理关系中有伽利略变换、洛伦兹变换,就没有个实有与虚拟的变换,看明白了吗?
    量子的时空跨越性,处处连续,却处处不具可确定性;分子时空回索量子时空也具有时空的跨越性,但正好反序,处处间断,不连续,却处处具有时空的可确定性实在!
    信息、信息流形与场能量流变,能流流形等效!
    信息虚拟流形与认知主体,意识流形等价。
    信息定义域,从数理进入物理,从物理进入事理现象层,这是一个系列性变换,看清楚数据、广义的信号与信息、信息论的区别和二者内在的数理逻辑、物理逻辑、事理现象推导上的一致性了吗?
    这就是物质、物质世界与精神、意识的世界,虚拟与实有的二元化世界!
  • 永远就三年疗 2022-10-19 11:35
    转发了
  • 芊芊551 2022-10-19 11:34
    转发了
  • 康乃馨老太 2022-10-19 11:33
    转发了
  • 潘金麟 2022-10-19 11:33
    数据 信息 知识

查看全部评论>>

相关推荐

终于有人把数据、信息、知识讲明白了

终于有人把数据、信息、知识讲明白了

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据分析,这样才算读懂数据

数据分析,这样才算读懂数据

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,

什么是大数据?大数据能做什么?

什么是大数据?大数据能做什么?

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系

编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3个月

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3

8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性

2022年我国数据产量达到6.6ZB 位列全球第二

2022年我国数据产量达到6.6ZB 位列全球第二

中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中国游客锐减98.6%

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中

来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减

中国数据震惊西方!不服也不行

中国数据震惊西方!不服也不行

日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长

【数据分析】基本数据分析的7个步骤

【数据分析】基本数据分析的7个步骤

原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌

数据分析整体框架

数据分析整体框架

编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数

数据分析入门学习指南|零基础小白必看

数据分析入门学习指南|零基础小白必看

数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信