首页 网站首页 商业信息 数据 查看内容

【数据科学之基础思维系列】第1讲:向量简介

网站运营 2023-4-18 21:12 6064人围观 数据

接待返来。从本期起头,我们将开启数据科学的根本思维」的系列篇章,以数学为根本,以利用为方针,简洁、清楚、系统地带你学会数学思维不成或缺的真理。

在起头之前,我们先讲个小故事。



谷歌的研讨总监做了一个小尝试,把一组不异的数据分给「数据科学家、统计学家、数学家」三人去分析,总监是这样想的:即使分歧偏向的科学家能够采用分歧的方式,可是终极三人分析出的成果应当是一样的。可是,现真相况却截然不同
「数据科学家」把全数的数据都拿来分析,而且机关了一个很是复杂的数学模子。
「统计学家」只是用了其中1%的数据来分析这组数据的特征。
「数学家」则是做了一系列的推导和证实。

可见,对于不异的数据,分歧范畴的研讨者都有自己独到的看法和方式。

那末怎样样的方式是最合适的呢?

❝ 这就需要「数学统计方式+利用理论」相辅相成啦。

这也就是本系列课本的初衷。 好啦,接着,我们开启明天的第一讲,「线性代数之向量简介」

壹 线性代数有何用

大数据时代,我们的原材料就是数据,为了从数据中提炼出常识甚至升级为聪明,最少得晓得数据的形式。

1.以笼统的视角看待天下

线性代数则赋予了我们一个这样看待数据的才能:「以笼统的视角看待天下」

大师在利用C说话、Python、R说话等停止编程时,应当深有体味。凡是要对数据停止处置,根基上都要保存为「线性代数」中的向量、矩阵、数组等形式。

那末它究竟是怎样从笼统的视角来看待天下呢?

不过就是将我们天下万物转化成计较性可以处置的形式,如同毕达哥拉斯所言“万物皆数”。(插链接:数据科学之数学思维奇妙夜)



数字,包括由数字扩大而来的向量、矩阵和张量,都是计较性可以识别和处置的。天下万物,只要能转化成数的形式,都可以量化,都可以用「计较机运算」

我们将其转化成数的形式,一切那些模糊、笼统的概念,都可以量化暗示。有了这个工具,处置数据的一些方式才有用武之地。

2.以活动的视角来观察天下

数字的天下是静止的,而向量的天下是活动的。

现实天下中,「很多不法则的活动很难用数字暗示」,比如运带动某一时辰的活动状态,用数字还委曲可以记录,可是假如是持续的活动状态,用一个数字就很难记录了,由于一个数字没有偏向,我们也称这类数字为标量。

此时,用向量记录就很方便,「由于向量自己既具有巨细,又具有偏向」。而且向量中的每个元素都可以继续扩大成向量,这时向量就酿成了「矩阵」。矩阵中的每个向量也继续扩大成向量,矩阵就酿成了「张量」「向量、矩阵、张量」这些数据都是可以线性代数中研讨工具的根基形式,可以更好地描写复杂的活动。

用一个魔方,可以直观形象地描写「标量、向量、矩阵、张量」之间的关系。




魔方

举个例子,比如1,2,5这些「标量」,每一个数字就是一个元素,「将其排列为一组,就酿成了一个向量」。也就是说从一个标量到向量,就是从一个「静态」到一个「静态」的状态。

假如把向量看成静态的话,我们接着去扩大每一个向量中的元素,把之前每一个元素扩大为一个向量,比如 5 阿谁位置就用三个蓝色方块取代了,因而我们就获得一个 3\times 3 阶的矩阵,也就是「魔方最底下的那一层」

接着,「矩阵」里的每个元素继续用一个向量去添补,我们就获得一个三维的张量,也就是图中这个魔方。

标量和向量,一个是静态的,一个是静态的。向量和矩阵之间是也是从静态到静态的变化,「矩阵到三维张量」,一样如此。

从静态到静态,每一次都是相对而言的。

罗马不是一日建成的,每一个元素就相当因而一块砖头,恰好就是我们需要的,将一块一块砖头垒起来......

贰 向量的概念

1.什么是向量?

「向量」:具有「巨细」「偏向」的量,是一个矢量。

假如你尝试处理立体多少题目,可是设想力不敷,怎样办?向量就是一个好工具!



在平面坐标系中,A(x_1, y_1) 点到 B(x_2, y_2) 点的量就是一个向量。用 \overrightarrow{AB} 暗示,它既包括了从 A 到 B 的偏向,也包括了从 A 到 B 的巨细。

\overrightarrow{AB}=(x_2-x_1,y_2-y_1),「向量具有偏向性」,所以从 A 指向 B 与从 B 指向 A 是分歧的,即

\overrightarrow{AB}\neq\overrightarrow{BA}=(x_1-x_2,y_1-y_2) \\

这类方式为坐标暗示法。

线性代数的向量用的就是「坐标暗示法」。仍以二维平面为例,偶然我们看到的向量是 (x_3,y_3) 形式的。怎样看起来像一个坐标点呢?它还是向量吗?

现在,请跟我一路移动一下向量 \overrightarrow{AB}, 将 A 点挪到原点 O 。




虽然位置分歧,可是此时 \overrightarrow{AB} 与 \overrightarrow{OC} 暗示的是同一个向量,由于它们的巨细和偏向完全不异。

所以,一个坐标点便可以暗示我们适才的向量,只不外暗示的是肇端点在原点的向量而已。

在我们常见的坐标空间中,「点和向量是逐一对应的」。我们可以经过加个箭头暗示向量 {\vec{x}},也可以经过粗体的方式来暗示,比如 {\bf{x}}。

我们最熟悉的就是一维、二维、三维空间。宇宙究竟是几维的,我们尚无从得知。不外「丘成桐师长」提出的“卡拉比-丘”空间是六维的。




卡拉比-丘流形

「“卡拉比-丘”」 空间看起来就像一个攥成团随手抛弃的纸团,可现实上空间中的迂回盘曲和翻转可比你那随手一攥,拧出来的外形复杂多了,它们就像一条条龙,盘旋、翻绕、也许再打个滚,揉个环,「丝毫没有一种法则可以用传统的欧几里德多少描写」

我们经常用于处置的数据也是多维的,也许没法直观感受,可是我们可以从特征的角度来了解。比如要描述一小我的面庞,「包括额头的宽度、眉毛的长度、眉心的间距、鼻梁的高度、嘴唇的厚度等,这里每一项都是一个特征,对应的就是多维向量」

2.若何暗示向量?

向量有「行向量」「列向量」之分,简单一想,行向量就是元素按行排列

(x_{1}, \cdots, x_{n}) \\

由于“行”这个字的右半部分,就写了两条横线嘛。

列向量自然是元素依照一列排下来

\begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \end{pmatrix} \\

由于“列”这个字的右半部分,写了两条竖线。

温馨小提醒:在各类教科书里,所触及到的向量凡是采用列向量的形式,而在python等编程时,经常默许的是行向量。

举个例子:我们来看看这个表格,它暗示的是「分歧品牌的电脑在分歧地域的销售量」,对应的有「品牌」「地域」两个「双身分」




分歧品牌的电脑在分歧地域的销售量

那末列身分和行身分别离是什么呢?

对于「列身分而言」,就是在竖直偏向上,某一地域的分歧品牌的销售量。

「行身分」就是水平偏向上,某一品牌在分歧地域的销售量。

3.特别的向量

零向量

最多见的特别向量莫过于「零向量」啦,它代表了每一个元素都是0,以下是一个 n 维的零向量:

{\bf{0}}_n = (0,0,…,0)^T \\

此处上标 T 暗示转置,也就是行列位置交换,此处用以暗示列偏向的零向量。

❝ 那末「零向量」是有偏向的还是无偏向的呢?

向量是矢量,一定是有偏向的,所以「零向量有偏向的」,可是它的偏向是不肯定的。如同我们所拉行李箱的阿谁万向轮,360度,各个偏向都都属于它。

在计较机中,零向量都是默许以行向量的形式,举个例子。

在Python中输入:

a = np.zeros(6, dtype =int)
print(a)
#[0 0 0 0 0 0]

由于python说话里是从0起头记数的,假如要把其中的第2位改成1,就需要输入:

a[1] =1
print(a)
#[0 1 0 0 0 0]

单元向量

「单元向量」代表模即是1的向量。

向量的模用以暗示向量的巨细,假如向量

{\bf{x}} = (x_1, x_2, \cdots, x_n)^T \\

它的模界说为

|{\bf{x}}| = \sqrt{x_1^2 + x_2^2+\cdots + x_n^2} \\

即向量的各元素平方和的平方根。以后,我们会发现,也实在就是一种范数界说。

对于一个非零向量 {\bf{x}},要想获得一个单元向量,只需要除以它的模即可,

\dfrac{\bf{x}}{|{\bf{x}}|} \\

出格地,「标准单元向量」是指,向量中只要一个元素为 1,其他元素都是 0。比如

(0, 0, \cdots, 1, \cdots, 0)^T \\

举个二维的例子,两个坐标轴的偏向,别离可以用标准单元向量暗示,

{\bf{e}}_1 = (1, 0)^T \\{\bf{e}}_2 = (0, 1)^T \\

这里 {\bf{e}}_1 和 {\bf{e}}_2 可以决议坐标系,是这个二维空间的一组「标准正交基」

全 1 向量

「全 1 向量」代表一切元素都是 1 的向量。

a = np.ones(6, dtype =int)
print(a)
#[1 1 1 1 1 1]

稀疏与浓密

「稀疏向量」代表是大多元素为 0 的情况。比如之前先容的标准单元向量就是稀疏的。由于它只要一个元素是非 0的。

生活中,稀疏的场景也是很是多的,比如现现在统计的新冠致死率,一个病人的灭亡能够是多方面缘由致使的,假如首要缘由是新冠,才会归入统计人数中。灭亡的首要缘由只要少数几个,那末就是一个稀疏的情况。

再比如,电商销售的每一个产物,所对应的数据量特征也是很是多的,比如说是色彩、格式、价格、评价等等,可是我们必定是要找到影响成交量的最首要特征。否则只会形成大量的累计误差。

❝ 稀疏性告诉我们:需要时需要捉住少数的首要冲突,疏忽大都的主要冲突。

与之相反,还有浓密性。



今莽草蜀道、襄、汉、浙江湖间山中有,枝叶浓密,团欒心爱。——《梦溪笔谈\cdot 药议》

在《梦溪笔谈》中,第一次出现浓密一词,指量多且密度大。

「浓密向量」也是类似的寄义,指大都元素是非零的。比如我们之前我提到的全1向量。

举个例子,比若有癌症患者需要化疗,化疗使得患者体内细胞中的份子发生变化,而且每个份子城市发生一个细小的变化,倘使我们用向量把每个份子的变化记录下来,那末这个向量中每个元素都是非零的,即使气力很微小,可是会聚起来,就能起到治疗的感化。

❝ 浓密性告诉我们:团结就是气力!

叁 向量的利用

向量的利用多种多样,以以下几个方面为例。

1. 位置与位移

对于向量和位移,相信大师并不陌生,在我们的数学中就经常见到:




向量与位移

2. 图片色彩

我们以「色彩」举个例子,在计较机中常用16进制来暗示某一个色彩,16进制写为:「0123456789ABCDEF」依次代表了「0~15」,比如:FF0000,这里我们把这六位按两位拆开,别离对应的是:

FF~~00~~00 \\

然后呢,利用16进制来计较。

FF=16^1\times15+16^0\times15=255 \\

而 00 就代表了:

00=16^1\times0+16^0\times0=0 \\

那这个数可以写成:「255,0,0」 正是用向量描写了色彩。




向量与色彩

3. 投资组合

在投资组合方面,我们假定有 i 种投资形式 i=1,2,\cdots,N。

它的收益率可以写成 (x_{1},x_{2},\cdots,x_{N})^T。

同理,对应的几率可以写成 (y_{1},y_{2},\cdots,y_{N})^T。

那末求总的收益不就是计较期望那末简单?

E=\sum_{i=1}^N x_i^T y_i \\




向量与投资

4. 药方与菜谱

同理,凡是能用到这类组合的场景,都可以用到向量来轻松处理。

比如药方和菜谱的配比,也可以是别离将药大概菜谱的特征分为两类,来代入计较总得结果。




向量与药方

5. 时候序列

在时候序列上,假如我们想晓得某一特征延续时长的感化,那末也可以操纵到向量的内积,来计较平分歧特征和其所对应时长下的整体影响。




向量与时候序列

6. 文天职析

在文天职析上,最熟悉的某过于词云的天生。文本中统计关键词的词频,就是以向量的形式显现。




向量与文天职析

看完这些例子,相信大师就能举一反三了,用向量可以代表我们生活中各类场景下的数据特征。

好啦,这期的开篇就到这里,下期我们继续说说向量的「外积、范数和间隔等」。感爱好的小伙伴记得「点赞+关注+在看」,感谢你的支持哦~

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

相关推荐

终于有人把数据、信息、知识讲明白了

终于有人把数据、信息、知识讲明白了

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据分析,这样才算读懂数据

数据分析,这样才算读懂数据

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,

什么是大数据?大数据能做什么?

什么是大数据?大数据能做什么?

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系

编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3个月

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3

8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性

2022年我国数据产量达到6.6ZB 位列全球第二

2022年我国数据产量达到6.6ZB 位列全球第二

中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中国游客锐减98.6%

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中

来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减

中国数据震惊西方!不服也不行

中国数据震惊西方!不服也不行

日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长

【数据分析】基本数据分析的7个步骤

【数据分析】基本数据分析的7个步骤

原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌

数据分析整体框架

数据分析整体框架

编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数

数据分析入门学习指南|零基础小白必看

数据分析入门学习指南|零基础小白必看

数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信