有关线性代数的一些理解


为什么行列式行列转置之后值不变?


考虑行列式的leibniz定义,n阶矩阵$A$的行列式定义为:

$$|A|=\sum_{\sigma\in S_n}sgn(\sigma)a_{1\sigma(1)}a_{2\sigma(2)}···a_{n\sigma(n)}$$

其中$S_n$是1至n的全排列构成的集合(对称群),$\sigma$是其中的一个特定排列,$sgn(\sigma)$是该排列的符号,则对于其转置有

$$|A^T|=|B|=\sum_{\sigma\in S_n}sgn(\sigma)b_{1\sigma(1)}b_{2\sigma(2)}···b_{n\sigma(n)}=\sum_{\sigma\in S_n}sgn(\sigma)a_{\sigma(1)1}a_{\sigma(2)2}···a_{\sigma(n)n}$$

考虑排列$\sigma$的逆排列$\sigma^{-1}$ ,有

$$a_{\sigma(i)i}=a_{\sigma(i)\sigma^{-1}(\sigma(i))}=a_{\sigma^{-1}(k)k}$$

其中$k=\sigma(i)$

对行序号进行重排之后,原转置变为

$$|A^T|=|B|=\sum_{\sigma\in S_n}sgn(\sigma)a_{\sigma(1)1}a_{\sigma(2)2}···a_{\sigma(n)n}=\sum_{\sigma^{-1}\in S_n}sgn(\sigma^{-1})a_{1\sigma^{-1}(1)}a_{2\sigma^{-1}(2)}···a_{n\sigma^{-1}(n)}$$

从群论中我们学到排列与其逆排列的奇偶性相同,且这个求和对所有的排列进行了遍历,因而有

$$\sum_{\sigma\in S_n}sgn(\sigma)a_{1\sigma(1)}a_{2\sigma(2)}···a_{n\sigma(n)}=\sum_{\sigma^{-1}\in S_n}sgn(\sigma^{-1})a_{1\sigma^{-1}(1)}a_{2\sigma^{-1}(2)}···a_{n\sigma^{-1}(n)}$$

即$|A|=|A^T|$

几何方面的视角,等学到奇异值分解后补全

2026.3.22


为什么副对角线行列式计算前面的系数是$(-1)^{\frac{n\times{(n-1)}}{2}}$?


从几何的视角来看,行列式即是高维空间中的有向体积,而交换相邻的行(列)会让有向体积变号,而对于N阶的副对角线行列式转化为主对角线行列式则需要相邻调换$\frac{n\times{(n-1)}}{2}$次

多嘴:莫名其妙想到了冒泡排序

这时候我在想:不是说直接对换两行就变号吗,为什么一定是换相邻的变号?

事实上都是对的,对换两行和交换相邻行都会变号,因为对换两行可以看成通过不断交换相邻行达到(把上面的换下来,下面的换上去,对于相隔n行就是换了2n+1次)

在几何视角下就是翻转了所选取的两个向量构成的平面,有向体积就相当于直接变号了,写成$\frac{n\times{(n-1)}}{2}$和$\lfloor\frac{n}{2}\rfloor$本质上是一样的,只是前面的就很好算了

就好像形如$\begin{vmatrix}O&B\\\\A&C\end{vmatrix}$ 其中$A$是m阶矩阵,$B$是n阶矩阵,$|A|\times|B|$前面的系数就是$(-1)^{mn}$

2026.3.22


为什么把行列式的某一行(列)加上其他行(列)的线性组合,行列式值不变?


虽然还没有学到,但是矩阵不满秩的时候行列式值为0,当行列式不为0的时候矩阵满秩,即空间维度是满的

那么某一行显然不在其他行所构成的超平面中,就可以分解成垂直超平面和平行超平面两个分量,线性组合只能影响平行超平面的分量,但行列式的值(有向体积)只与垂直超平面的分量有关,就好像把一叠导学案推斜了题量不变一样(确信)

klh: 诶诶祖暅原理

2026.3.22


Vandermonde行列式的值为什么是那个样子?看起来多少有点美妙了


非常经典的教科书方法是数学归纳法

另一种方法是通过不断消去一个目前i最小的$x_i$行来把行列式降阶,并不断提取出$\prod\limits_{i < j \le n}(x_j-x_i)$项

还有一种很优美的方法,我们知道行列式是高维空间的体积,这样构成这个高维体积的向量即是起点在原点,终点在函数 $f(x)=1+x+x^2+···+x^{n-1}$上的向量 $$v_i = (1, x_i, x_i^2, \dots, x_i^{n-1})$$ 因此当 $x_i=x_j$时会导致两个向量重合,即体积失去一个维度,结果必然为0,这说明结果多项式必然包含 作为一个因式

因为这个逻辑对任意一对向量 $v_i$ 和 $v_j$ 都成立,所以这个体积公式必须能被所有的 $(x_j - x_i)$ 整除。也就是说,体积公式的核心框架必然包含连乘积 $\prod\limits_{1 \le i < j \le n} (x_j - x_i)$

而包含了这个连乘积后,公式的次数已经达到了$\frac{n(n-1)}{2}$次,因此不可能包含更多的变量因式,因此只要确定一个未定常系数

为了确定这个系数,我们只需要比较两边某一个特定项的系数

  • 在行列式中,主对角线元素的乘积是 $1 \cdot x_2 \cdot x_3^2 \cdots x_n^{n-1}$
  • 在连乘积 $\prod\limits_{1 \le i < j \le n} (x_j - x_i)$ 中,如果我们每次都从括号里挑出 $x_j$ 相乘,得到的恰好也是 $x_2 \cdot x_3^2 \cdots x_n^{n-1}$

因此这个系数是 $1$

是不是很像量纲分析 “哎这个题目还有一个方法,学竞赛的同学就知道了,来fhz给大家说一下吧”

2026.3.24


Cramer法则的证明


简洁的公式的证明往往很优美,这里也不例外

从行列式计算的视角:假设系数矩阵 $A$ 由 $n$ 个列向量组成,记为 $A = [\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_n]$ ,那么方程组 $Ax = b$ 可以展开写为:$x_1\mathbf{a}_1 + x_2\mathbf{a}_2 + \dots + x_n\mathbf{a}_n = b$

根据Cramer法则的定义,矩阵 $A_i$ 是把矩阵 $A$ 的第 $i$ 列替换成了常数项向量 $b$

$$A_i = [\mathbf{a}_1, \dots, \mathbf{a}_{i-1},\mathbf{b},\mathbf{a}_{i+1},\dots,\mathbf{a}_n]$$

现在,我们把第一步得到的 $b = \sum_{j=1}^{n} x_j \mathbf{a}_j$ 代入到 $A_i$ 的第 $i$ 列中:

$$\det(A_i) = \det([\mathbf{a}_1, \dots, \mathbf{a}_{i-1},\sum_{j=1}^{n}x_j\mathbf{a}_j, \mathbf{a}_{i+1}, \dots, \mathbf{a}_n])$$

我们可以把那个求和符号拆开:

$$\det(A_i) = \sum_{j=1}^{n} x_j \cdot \det([\mathbf{a}_1, \dots, \mathbf{a}_{i-1},\mathbf{a}_j, \mathbf{a}_{i+1}, \dots, \mathbf{a}_n])$$

当 $j \neq i$ 时,在这个新的行列式中,第 $j$ 列是 $\mathbf{a}_j$,而我们刚刚替换的第 $i$ 列也是 $\mathbf{a}_j$,所以这个行列式的值为 $0$

唯一留下来的一项是 $j = i$ 时:

$$\det(A_i) = x_i \cdot \det([\mathbf{a}_1, \dots, \mathbf{a}_{i-1},\mathbf{a}_i,\mathbf{a}_{i+1}, \dots, \mathbf{a}_n])$$

等式右边留下的那个矩阵就是原系数矩阵 $A$ !

因此$\det(A_i) = x_i \cdot \det(A)$

因为我们的大前提是矩阵 $A$ 可逆,即 $\det(A) \neq 0$,得到了Cramer法则的最终公式:
$$x_i = \frac{\det(A_i)}{\det(A)}$$

看完这个行列式计算的视角,对 $b$ 这个线性组合的变化给了我们几何理解的灵感,因为新的行列式不就是对变化的那一列乘了 $x_i$ 倍并且加上了其他列的线性组合(前面我们已经认识到这不改变行列式的值),所以一切就顺理成章了。

2026.3.30


矩阵运算不满足交换律和消去律,那如果我们知道$AB=O$,显然这不一定意味着$A=O$ 或者$B=O$ ,这意味着什么呢?$AB=AC$ 不代表$B=C$ ,那又代表什么呢?


矩阵变换是从空间到空间的变换,既然最终的结果出现了零矩阵,说明任意一个向量经过$B$ 矩阵和$A$ 矩阵变换丢失了所有的空间信息(被压到原点去了),即矩阵 $B$ 的值域被完全包含在矩阵 $A$ 的零空间中

Sylvester 不等式:$\text{rank}(A) + \text{rank}(B) \leq n$,其中 $n$ 是中间维度。这表示 $A$ 抹除维度的能力必须足以覆盖 $B$ 保留维度的能力

  • 若 $A$ 满秩,则其零空间仅包含零向量,故 $B$ 必须为 $0$
  • 若 $B$ 满秩,则其值域覆盖整个空间,故 $A$ 必须为 $0$
  • 若 $A, B$ 均非零且 $AB=0$,则 $A$ 和 $B$ 必然都不满秩

同理对于$AB=AC$ ,可以变形为 $A(B - C) = 0$,消去律能否执行,取决于矩阵 $A$ 是否具有丢失信息的倾向

  • 如果 $A$ 是列满秩的,它是一个单射变换,零空间只有 $\{\vec{0}\}$,因此可以唯一地推导出 $B = C$
  • 如果 $A$ 不满秩,则存在非零的零空间。只要 $B$ 与 $C$ 之间的差异(即 $B - C$)正好落入 $A$ 的零空间,变换后的结果 $AB$ 与 $AC$ 就会完全重合。此时,$B$ 和 $C$ 在 $A$ 的变换下是不可分辨的

当矩阵满秩的时候,我们可以用逆矩阵对变换进行还原,但是当矩阵不满秩即丢失信息的时候,我们就需要伪逆矩阵(pseudo inverse),在学到奇异值分解后我们回来研究(机器学习里提到过这个来着)

2026.3.30


为什么$A,B$ 是同阶可逆方阵,但是$A+B$ 不一定可逆呢?


从行列式的角度来看就是$det(A+B) \neq det(A) + det(B)$

也就是说$A+B$ 产生了新的包含非零向量的零空间

可是为什么两个本来零空间只有零向量的矩阵加在一起产生了新的零空间呢

等学到特征值后我们再来探讨这个问题

2026.4.2


伴随矩阵为什么有那么多公式?


$AA^* = A^*A = |A|E$


设 $A$ 是一个 $n$ 阶矩阵:

$$A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{pmatrix}$$

其伴随矩阵 $A^*$ 是由 $A$ 的各元素的代数余子式 $A_{ij}$ 构成的转置矩阵:

$$A^* = \begin{pmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \end{pmatrix}$$

注意:$A^*$ 的第 $i$ 行由 $A$ 的第 $i$ 元素的代数余子式组成

设 $C = AA^*$,其中 $C$ 的第 $i$ 行第 $j$ 列元素 $c_{ij}$ 为 $c_{ij} = \sum_{k=1}^{n} a_{ik} (A^*) _{kj}$

根据 $A^*$ 的定义,$(A^*) _{kj} = A_{jk}$,代入上式得 $c_{ij} = \sum_{k=1}^{n} a_{ik} A_{jk}$

$i = j$ 时(对角线元素)$c_{ii} = \sum_{k=1}^{n} a_{ik} A_{ik}$

这恰好是矩阵 $A$ 的行列式 $c_{ii} = |A|$

$i \neq j$ 时(非对角线元素)$c_{ij} = \sum_{k=1}^{n} a_{ik} A_{jk} \quad (i \neq j)$

这相当于一个新矩阵的行列式,该矩阵的第 $j$ 行被替换成了第 $i$ 行,导致矩阵中有两行完全相同。根据行列式性质
$c_{ij} = 0$

综上

$$AA^* = \begin{pmatrix} |A| & 0 & \cdots & 0 \\ 0 & |A| & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & |A| \end{pmatrix} = |A| \begin{pmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{pmatrix}$$

即 $AA^* = |A|E$

不难看出反之亦然,即 $AA^* = A^*A = |A|E$


$|A^*| = |A|^{n-1}$


$|AA^*| = ||A|E| = |A|^n = |A|\times|A^*|$

则 $|A^*| = |A|^{n-1}$


$A^*=|A|A^{-1}$ ,$A^{-1}= \frac{1}{|A|}A^*$ ,$A=|A|(A^*)^{-1}$


简单利用 $E=AA^{-1}$ 移项易得到上面的式子


$(A^*)^* = |A|^{n-2}A$


由于 $A^*(A^*)^* = |A^*|E$ , 而 $A^*=|A|A^{-1}$ , $|A^*| = |A|^{n-1}$

移项可得 $(A^*)^* = |A|^{n-2}A$

n=2时退化到 $(A^*)^* = A$

张宇上面实在是有太多公式了……虽然大多数是排列组合弄出来的,上面只列举了几个比较重要的

2026.4.13


伴随矩阵的几何意义是什么?伴随矩阵,原矩阵,逆矩阵之间是什么关系?为什么伴随矩阵的形式里面有那么多余子式?


刚学到伴随矩阵的时候就很纳闷为什么搞出来这么一个东西还有那么一大堆公式

在 $n$ 维空间中,矩阵 $A$ 的 $n$ 个列向量撑起了一个 $n$ 维的平行多面体, 其有向体积为 $|A|$

如果我们从中抽走第 $j$ 个列向量,剩下的 $n-1$ 个列向量会张成一个 $n-1$ 维的超平面,这个面拥有两个极其重要的几何属性:

超面积:这 $n-1$ 个向量所围成区域的大小

法线方向:在 $n$ 维空间中,唯一与这 $n-1$ 个向量都绝对正交的方向

伴随矩阵 $A^*$ 的第 $j$ 列,正是这个超平面的法面积向量

它的方向严格垂直于那 $n-1$ 个向量构成的超平面,而它的模长正好等于那个超平面的超面积


$A$、$A^*$ 与 $A^{-1}$ 的算子协作

原矩阵 $A$ 将标准正交基拉伸、倾斜成 $n$ 个新的列向量,空间的体积膨胀了 $|A|$ 倍

伴随矩阵 $A^*$ 为 $A$ 中的每一个列向量,找到了一个不受其他列向量干扰,即垂直于其他列向量的法线方向

  • 当我们计算 $AA^*$ 时,意味着用 $A$ 的列向量去投影到 $A^*$ 的法向量上
  • 由于几何上的正交性,第 $i$ 个列向量投影到其他面的法向量上结果必然为 $0$。只有投影到它自己的法向量上时,计算的是 底面积 $\times$ 高,还原出整个空间的总体积 $|A|$。因此 $A \cdot A^* = |A|E$

逆矩阵的目标是把空间变回原样。它直接借用了 $A^*$ 提供的完美正交方向,但因为 $A^*$ 的模是超平面的面积,会导致点乘后变成体积,所以必须除以总体积 $|A|$,将尺度缩放回正确的比例。即 $A^{-1} = \frac{1}{|A|} A^*$


从伴随矩阵到法面积向量到余子式

在高维空间几何下,伴随矩阵、法面积向量与余子式构成了一条降维关系,可以浓缩为以下三个层级

  • 第一层:伴随矩阵 $\to$ 法向量

    上面已经提到,伴随矩阵 $A^*$ 的第 $j$ 列,就是这个 $(n-1)$ 维超平面的法面积向量

    方向垂直于超平面,模长等于该面的 $(n-1)$ 维超面积

  • 第二层:法面积向量 $\to$ 坐标分量

    一个 $(n-1)$ 维法向量在第 $i$ 个坐标轴上的分量长度,究竟有多大?

    法面积向量在第 $i$ 轴的分量大小 $\equiv$ 原超平面在“正交于第 $i$ 轴的坐标超平面”上的投影超面积

  • 第三层:坐标分量 $\to$ 余子式

    如何在矩阵里算出这个超平面在正交于第 $i$ 轴墙面上的投影超面积?

  1. 锁定超平面:划掉第 $j$ 列(选定由 $n-1$ 个向量构成的超平面)

  2. 执行投影:划掉第 $i$ 行(去除这 $n-1$ 个向量的第 $i$ 个坐标维度,完成向正交$i$轴超平面的投影)

  3. 算体积:计算剩下元素的行列式

    这个行列式的值正是划掉第 $i$ 行、第 $j$ 列算出的余子式 $M_{ij}$

乘上 $(-1)^{i+j}$ 升级为代数余子式 $A_{ij}$ 确保法向量朝外指。


数形结合的魅力!

2026.4.13


从空间几何的角度来看一些有关秩的式子


$r(AB) \le min\{r(A), r(B)\}$

两次空间变换保留的维度必然不多于其中任一次变换保留的维度

$r(A+B) \le r(A) + r(B)$

两个空间变换的叠加保留的维度必然不多于他们各自保留维度的和

$ r(A^*) = \begin{cases} n, & r(A) = n \\ 1, & r(A) = n - 1 \\ 0, & r(A) < n - 1 \end{cases} $

上一条中我们提到伴随矩阵的每一列是一个法面积向量

当原空间保持完好的 $n$ 维立体结构时,所有子空间都有非零体积且法向量各异,因此法向量构成的伴随矩阵也保持满秩 $n$

当原空间恰好为 $n-1$维时,所有的法向量是同方向的(全垂直于n-1维的超平面了),导致伴随矩阵的秩骤降为 $1$

当原空间 $n-2$ 维或更低时,内部再也无法撑起任何非零的法面积向量,伴随矩阵为零矩阵

$r(A_{m \times k} B_{k \times n}) \le \min\{r(A), r(B)\} \le k$

两次空间变换保留的维度不超过中间通道的维度

$r(A) = r(A^T) = r(A^TA) = r(AA^T)$

在学到SVD后我们回来说明

小学的时候学奥数,记得当时看到华罗庚写的一首诗里的句子

正所谓 “数形结合百般好,隔离分家万事休”

2026.5.6


为什么计算一个矩阵的秩可以行列变换一起用,但是计算极大无关组就不行


求矩阵的秩不需要找到具体的向量,因此可以随意对空间进行变换,而求极大无关组需要具体的向量编号,进行列变换会将各个列向量的成分混在一起,无法找到原极大无关组

2026.5.6


什么是求解线性方程组?如何求解线性方程组


我们尝试来理解 $Ax=b$ 这件事情

列视角

向量 $x$ 在经过了矩阵 $A$ 的空间变换后变为了向量 $b$ ,即 $A$ 的每一个列向量是一个方向向量,$x$ 则是权重, 最后到达了 $b$ ,求解就是在寻找权重空间

行视角

每一行则变成了一个超平面约束,右侧向量 $b$ 对应的分量则是将这个超平面推离原点,求解 $x$ 就是在寻找满足所有行约束的解空间

高斯消元(行变换)在做什么?

列视角下在同时调整每个列向量和最后到达的向量的同一行,但是这并不会改变权重


有关线性代数的一些理解
https://goyeah.org/2026/03/22/有关线性代数的一些理解/
作者
goyeah
发布于
2026年3月22日
许可协议