人工智能中的线性代数：若何理解并更好地应用它_线性代数_向量

2025-01-10 16:02:15 智能助手

作者：Oleksii Kharkovyna机器之心编译参与：高璇、蛋酱

人工智能中的线性代数：若何理解并更好地应用它_线性代数_向量智能助手

线性代数是 AI 专家必须节制的知识，这已不再是个秘密。
如果不节制运用数学这个领域，你永久就只能是「门外汉」。
当然，学习线性代数道阻且长。
数学，尤其是线性代数常与呆板、繁芜和毫无意义的事物联系起来。
不过你还可以另辟路子。

阅读完本文后，你将理解到：

线性代数的实质；线性代数的真实运用处景；线性代数可用于 AI、ML 和数据科学的缘故原由；学习线性代数最有效的方法。

给初学者的阐明：线性代数的实质

第一次打仗线性代数的人，常日会以为线性代数长这样：

看起来就让人头大？你的脑海随即会浮现出两个问题：它们都是从哪儿来的？为什么须要这些运算？

让我们做个大略的练习。

线性代数是打算数学的「主力军」。
我举个大略的例子来解释。

假设我们有一根两端固定的极细金属棒，其温度恒即是零。
我们开始利用分布式热源对棒进行加热，该热源在点 x 的附近，每单位长度每秒产生 q (x) 焦耳热量。
温度 t = t (x) 公式该怎么建立？先粗略建模：热量平衡后，设点 x 的分段为 [x-h, x + h]，来自热源的热流入应即是分段两端的热通量之和。
如果 h 足够小，那么热通量可以看作常量（包含 h），该等式可以写成如下形式：

个中 Q_x-h 是通过左边界的热通量，Q_x + h 是通过右边界的热通量。
根据傅立叶定律，热通量与温度差成正比（毕竟，你刚跳进水里时觉得最冷）。
因此：

令 h = 1 /N。
假设 xi = i · h，个中 i =0, 1, 2, …, N，它们被称为网格。
变量 ti = t (xi) 将知足方程式：

基于边界条件且 qi = q (xi)，得到线性方程组：

详细来说，这个别系可以通过扫描法「正面」办理，但是在实际模型中，系统变得更加繁芜。
线性代数恰好发挥了浸染：

用 A · y = b 的简短形式描述系统（这是矩阵乘法的由来！
）；

理解是否有办理方案，以及办理方案是否唯一；

（在本例中）利用大略公式 y = A-1 b 来建模，将 A 看做一个数字；

（引入打算数学）建立用于求解线性方程组的有效数值方法。

这只是从数学建模的角度看线性代数，还有量子力学、统计学等多个角度。

再以著名问题为例，即某网站（或全体互联网）的「网页引用排名」问题。

假设有 N 个页面，每页可能包含到其他页面的链接。
我们的任务是确定哪些页面最主要。
如何准确地衡量「主要性」是任务的一部分。
我们将以非负数（权重）来定量表示。
先假设：此页面的链接越多，其权重就越大。
这种方法有个缺陷：我们没有考虑链接页面的权重。
一个链接权重越大，其意义也越大，这是合乎逻辑的。
考虑到这些成分，我们选择以下模型：

个中 a_ij 是第 i 页到第 j 页的链接数，除以第 j 页的链接总数。
该公式可以理解为：第 i 页的权重即是第 j 页的权重与从第 j 页到第 i 页的链接之比的乘积之和。
因此，我们将问题简化为线性方程组。
此外，权重向量 p 是矩阵 A 的特色向量，对应特色值为 1：p = Ap

Frobenius-Perron 定理担保了该向量的存在（严格来说，矩阵 A 略有修正），通过大略的迭代即可找到。

因此，线性代数是一套非常通用的思想和工具，可以运用于各个领域。
但是「天下没有免费的午餐」，通用性的代价是：某些定义和定理有着毫无必要的繁芜度。
不过事实并非如此：实际上，许多抽象目的是简化而非繁芜化。
「如果它看起来像鸭子，像鸭子一样拍浮，像鸭子一样嘎嘎叫，那么它可能便是鸭子」这实际上便是一种抽象，如果你习气了这种抽象观点，将会非常方便。
线性代数也是一样。
为了更详细地解释这一点，让我们简短谈论下内部来补充一下「外部检讨」。

一些你须要知道的线性代数理论

线性代数研究的是向量空间以及将一个向量空间映射到另一个向量空间的函数。
我们紧张考虑线性函数（对付任何常数α和β以及向量 x 和 y，知足关系 f (α · x + β · y) = α · f (x) + β · f (y)。
也有非线性的函数（例如二次方程），不过首先你须要知道什么是向量（以及向量空间），这不像看上去那么大略。

教材和课程中常日只是给出一个抽象的定义，这一定义又常常由 8 点构成。
有时一个矢量空间被视作一个利用加号的阿贝尔群，该阿贝尔群知足四大群公理，并定义了标量乘法。
但是对付刚开始研究线性代数的人来说，理解这些其实困难，学习一些详细示例并进行类比要随意马虎得多。
8 条的定义仅仅是这种类比的形式。
以是我们举个例子吧：

向量，是我们每个人都熟习的有向线段，多个有向线段可以组成一个向量空间。
回顾一下多项式，它们可以进行通项相加以及系数相乘。
请把稳：从代数的角度来看，这些多项式的加法运算以及多项式与系数的乘法运算，与有向线段运算规则是完备同等的。
例如，等式 x + y = y + x（加法交流性）对有向线段和多项式均成立。
因此，多项式的凑集是向量空间，而多项式便是向量。

既然多项式类似于有向线段，那么它们也肯定有坐标。
但是如何获知多项式的坐标以及多项式有多少个坐标呢？众所周知，每个向量在平面上都有两个坐标，在空间中则是三个。
为什么会这样呢？维度又是什么？线性代数给出了一个答案：维度便是线性无关向量的最大数量。
线性无关是什么意思？如果存在数字α1, α2, …, αn，个中至少一个非零，则向量 x1, x2, …, xn 被称为线性干系。

如果向量不线性干系，则称它们为线性独立。
（线性干系性的观点概括了平行向量和共面向量的观点：两个向量在当且仅当它们平行时才线性干系。
三个向量在当且仅当它们共面时才线性干系。
）

空间的维数可以是有限的（维数不大于 N 的多项式空间），也可以是无限的（所有多项式空间）。
这两种情形在实际中都会涌现，但现在我们限定其为有限维的。
令向量 x1, x2, …, xn 线性无关，n 为空间维数。
任何其他向量 x 都可以唯一地写为 x1, x2, …, xn 的线性组合，相应的线性组合的系数称为坐标。

现在，我们对坐标有了严格的定义，但重点不但是这个：在此过程中，我们碰着了更基本（更易忽略）的线性组合和线性干系性的观点。
而且我们还理解到，在 n 维线性空间中，最多只能有 n 个线性无关向量。
这是线性代数的根本之一。

我们知道的仍只是「冰山一角」。
但是现在我们可以办理那些显然与线性代数无关的问题了。
例如：给定多项式 p 和 q；是否在两个变量 R = R (x, y) 中存在多项式，使得对付所有 t 都有 R (p (t), q (t)) = 0？

「示例」基本结束了，但仍旧有必要讲讲研究线性代数的各种方法。
我简短回顾一下自己的经历，提出几点建议。

最主要的问题：AI 真的须要线性代数吗？

这取决于你的目的。
如果你只想把人工智能和机器学习的工具当作一个黑匣子，那么你只须要足够的数学打算就可以确定你的问题是否符合模型利用。

如果你想提出新想法，线性代数则是你必须要学习的东西。
并不是说你须要学习有关数学的所有知识，这样会耽搁于此，失落去研究其他更主要的东西（如微积分/统计）的动力。

你的目标该当是利用线性代数来找到点与点之间的最短路径。
以下是你所须要节制的知识列表：

标量、向量、张量：求模（大小）、向量夹角（点积或内积）、一个向量在另一向量上的投影以及依据自定义的轴向量对向量的描述和表示

矩阵：矩阵可以将向量的描述从一组基（一组坐标轴）转换为另一组基。
例如，找出如何将映射运用到图像上并处理图像。

矩阵中的长度平方采样、奇异值分解、低秩逼近是数据处理中广泛采取的几种方法。

SVD 常日用于主身分剖析（PCA）中，而主身分剖析又被广泛用于特色提取以及理解特色或属性之间的关系对付结果的主要性上。

线性代数在机器学习中的运用实例