矩阵

矩阵的乘积

矩阵相乘的理解

矩阵是线性空间中的线性变换的一个描述。在一个线性空间中，只要我们选定一组基，那么对于任何一个线性变换，都能够用一个确定的矩阵来加以描述

左乘矩阵是进行行操作，右乘矩阵是进行列操作。

$C = A \times B$ 中的 $B$ 的列向量可以看作是以 $A$ 的列向量为基的子空间坐标。

Hadamard哈达玛积(矩阵点乘)(Hadamard Product)

哈达玛积就是两个矩阵对应位置的元素相乘，布局不变。俗称矩阵点乘，符号是空心圆 ∘，两个矩阵的形状必须一样。

矩阵内积 (Iner Product of Matrices)

符号：⟨ . , . ⟩ 目的：度量长度。定义：列向量 $a$ 与列向量 $b$ 的内积:

< a ， b >= b^{H} a

克罗内克积（Kronecker Product ）

符号： $\otimes$ 定义：克罗内克积是两个任意大小的矩阵间的运算，它是张量积的特殊形式。给定 $A$ 和 $B$ ，则 $A$ 和 $B$ 的克罗内克积是一个在空间 $R^{mp \times nq}$ 的分块矩阵：

A \otimes B = a_{11} B ⋮ a_{m 1} B \dots ⋱ \dots a_{1 n} B ⋮ a_{mn} B

矩阵求导

实值函数相对于实向量的梯度

相对于 $n \times 1$ 向量 $x$ 的梯度算子记作 $\nabla x$ ,定义为：

\nabla_{x} = [\frac{\partial}{\partial x _{1}}, \frac{\partial}{\partial x _{2}}, \dots, \frac{\partial}{\partial x _{n}}]^{T} = \frac{\partial}{\partial x}

因此, $n \times 1$ 实向量 $x$ 为变元的实标量函数 $f (x)$ 相对于x的梯度为 $n \times 1$ 的列向量，定义为：

\nabla_{x} f (x) = [\frac{\partial f ( x )}{\partial x _{1}}, \frac{\partial f ( x )}{\partial x _{2}}, \dots, \frac{\partial f ( x )}{\partial x _{n}}]^{T} = \frac{\partial f ( x )}{\partial x}

梯度方向的负方向成为变元 $x$ 的梯度流(gradient flow)，记为：

\dot{x} = - \nabla_{x} f (x)

从梯度的定义式可以看出：

一个以向量为变元的变量函数的梯度为一向量。
梯度的每个分量给出了变量函数在该分量方向上的变化率

梯度向量最重要的性质之一是，它指出了当变元增大时函数ff的最大增大率。相反，梯度的负值（负梯度）指出了当变元增大时函数ff的最大减小率。根据这样一种性质，即可设计出求函数极小值的迭代算法。

类似地，实值函数 $f (x)$ 相对于 $1 \times n$ 行向量 $x^{T}$ 的梯度为 $1 \times n$ 行向量，定义为：

\nabla_{x^{T}} f (x) = [\frac{\partial f ( x )}{\partial x _{1}}, \frac{\partial f ( x )}{\partial x _{2}}, \dots, \frac{\partial f ( x )}{\partial x _{n}}] = \frac{\partial f ( x )}{\partial x ^{T}}

$m$ 维行向量函数 $f (x) = [f_{1} (x), \dots, f_{m} (x)]$ ，相对于 $n$ 维实向量 $x$ 的梯度为 $n \times m$ 矩阵定义为：

\frac{\partial f ( x )}{\partial x} = \frac{\partial f _{1} ( x )}{\partial x _{1}} \frac{\partial f _{1} ( x )}{\partial x _{2}} ⋮ \frac{\partial f _{1} ( x )}{\partial x _{n}} \frac{\partial f _{2} ( x )}{\partial x _{1}} \frac{\partial f _{2} ( x )}{\partial x _{2}} ⋮ \frac{\partial f _{2} ( x )}{\partial x _{n}} \dots \dots ⋱ \dots \frac{\partial f _{m} ( x )}{\partial x _{1}} \frac{\partial f _{m} ( x )}{\partial x _{2}} ⋮ \frac{\partial f _{m} ( x )}{\partial x _{n}} = \nabla_{x} f (x)

若 $m \times 1$ 向量函数 $f (x) = y = [y_{1}, \dots, y_{m}]^{T}$ ，其中 $y_{1}, y_{2}, \dots, y_{m}$ 是向量的标量函数，一阶梯度：

\frac{\partial y}{\partial x ^{T}} = \frac{\partial y _{1}}{\partial x _{1}} \frac{\partial y _{2}}{\partial x _{1}} ⋮ \frac{\partial y _{m}}{\partial x _{1}} \frac{\partial y _{1}}{\partial x _{2}} \frac{\partial y _{2}}{\partial x _{2}} ⋮ \frac{\partial y _{m}}{\partial x _{2}} \dots \dots ⋱ \dots \frac{\partial y _{1}}{\partial x _{n}} \frac{\partial y _{2}}{\partial x _{n}} ⋮ \frac{\partial y _{m}}{\partial x _{n}}

$\frac{\partial y}{\partial x ^{T}}$ 是一个 $m \times n$ 的矩阵，称为向量函数 $y = [y_{1}, y_{2}, \dots, y_{m}]^{T}$ 的 Jacobi 矩阵。

若 $f (x) = [x_{1}, x_{2}, \dots, x_{n}]$ ，则:

\frac{\partial x ^{T}}{\partial x} = I

这个结论非常重要，将帮助我们导出更多有用的结论。

若 $A$ 与 $y$ 均和 $x$ 无关，则：

\frac{\partial x ^{T} A y}{\partial x} = \frac{\partial x ^{T}}{\partial x} A y = A y

因为 $y^{T} A x = ⟨ A^{T} y, x ⟩ = ⟨ x, A^{T} y ⟩ = x^{T} A^{T} y$ ，则：

\frac{\partial y ^{T} A x}{\partial x} = A^{T} y

由于：

x^{T} A x = i = 1 \sum n j = 1 \sum n A_{ij} x_{i} x_{j}

所以梯度 $\frac{\partial x ^{T} A x}{\partial x}$ 的第k个分量为：

[\frac{\partial x ^{T} A x}{\partial x}]_{k} = \frac{\partial}{\partial x _{k}} i = 1 \sum n j = 1 \sum n A_{ij} x_{i} x_{j} = i = 1 \sum n A_{ik} x_{i} + j = 1 \sum n A_{kj} x_{j}

即有：

\frac{\partial x ^{T} A x}{\partial x} = A x + A^{T} x

特别的如果 $A$ 为对称矩阵则有：

\frac{\partial x ^{T} A x}{\partial x} = 2 A x

归纳以上三个例子的结果以及其他结果，便得到实值函数 $f (x)$ 相对于列向量 $x$ 的一下几个常用的梯度公式。

若 $f (x) = c$ 为常数，则梯度 $\frac{\partial c}{\partial x} = 0$

线性法则：若 $f (x)$ 和 $g (x)$ 分别是向量 $x$ 的实值函数， $c_{1}$ 和 $c_{2}$ 为实常数，则：

\frac{\partial [ c _{1} f ( x ) + c _{2} g ( x )]}{\partial x} = c_{1} \frac{\partial f ( x )}{\partial x} + c_{2} \frac{\partial g ( x )}{\partial x}

乘法法则：若 $f (x)$ 和 $g (x)$ 都是向量 $x$ 的实值函数，则：

\frac{f ( x ) g ( x )}{\partial x} = g (x) \frac{\partial f ( x )}{\partial x} + f (x) \frac{\partial g ( x )}{\partial x}

商法则：若 $g (x) \neq = 0$ ，则：

\frac{\partial f ( x ) / g ( x )}{\partial x} = \frac{1}{g ^{2} ( x )} [g (x) \frac{\partial f ( x )}{\partial x} - f (x) \frac{\partial g ( x )}{\partial x}]

链式法则：若 $y (x)$ 是 $x$ 的向量值函数，则：

\frac{\partial f ( y ( x ))}{\partial x} = \frac{\partial y ^{T} ( x )}{\partial x} \frac{\partial f ( y )}{\partial y}

式中 $\frac{\partial y ^{T} ( x )}{\partial x}$ 为 $n \times n$ 矩阵。

例子

若 $n \times 1$ 向量 $a$ 与 $x$ 是无关的常数向量，则：

\frac{\partial a ^{T} x}{\partial x} = a \frac{\partial x ^{T} a}{\partial x} = a

若 $n \times 1$ 向量 $a$ 与 $x$ 是无关的常数向量，则：

\frac{\partial a ^{T} y ( x )}{\partial x} = \frac{\partial y ^{T} ( x )}{\partial x} a \frac{\partial y ^{T} ( x ) a}{\partial x} = \frac{\partial y ^{T} ( x )}{\partial x} a

若 $A$ 和 $y$ 均与 $x$ 无关，则：

\frac{\partial x ^{T} A y}{\partial x} = A y \frac{\partial y ^{T} A x}{\partial x} = A^{T} y

若 $A$ 是与 $x$ 无关，而 $y (x)$ 与向量 $x$ 的元素有关，则：

\frac{\partial [ y ( x ) ] ^{T} A y ( x )}{\partial x} = \frac{\partial [ y ( x ) ] ^{T}}{\partial x} (A + A^{T}) y (x)

若 $A$ 是一个与向量 $x$ 无关的矩阵，而 $y (x)$ 和 $z (x)$ 是与向量 $x$ 的元素有关的列向量，则：

\frac{[ y ( x ) ] ^{T} A z ( x )}{\partial x} = \frac{[ y ( x ) ] ^{T}}{\partial x} A z (x) + \frac{[ z ( x ) ] ^{T}}{\partial x} A^{T} y (x)

令 $x$ 为 $n \times 1$ 向量， $a$ 为 $m \times 1$ 常数向量， $A$ 和 $B$ 分别为 $m \times n$ 和 $m \times m$ 常数矩阵，且 $B$ 为对称矩阵，则：

\frac{\partial ( a - A x ) ^{T} B ( a - A x )}{\partial x} = - 2 A^{T} B (a - A x)

实值函数的梯度矩阵

在最优化问题中，需要最优化的对象可能是某个加权矩阵。因此，有必要分析实值函数相对于矩阵变元的梯度。

实值函数 $f (A)$ 相对于 $m \times n$ 是矩阵 $A$ 的梯度为 $m \times n$ 矩阵，简称梯度矩阵，定义为：

\frac{\partial f ( A )}{\partial A} = \frac{\partial f ( A )}{\partial A _{11}} \frac{\partial f ( A )}{\partial A _{21}} ⋮ \frac{\partial f ( A )}{\partial A _{m 1}} \frac{\partial f ( A )}{\partial A _{12}} \frac{\partial f ( A )}{\partial A _{22}} ⋮ \frac{\partial f ( A )}{\partial A _{m 2}} \dots \dots ⋱ \dots \frac{\partial f ( A )}{\partial A _{1 n}} \frac{\partial f ( A )}{\partial A _{2 n}} ⋮ \frac{\partial f ( A )}{\partial A _{mn}}

式中 $A_{ij}$ 是 $A$ 的元素。

实值函数相对于矩阵变元的梯度具有以下性质：

若 $f (A) = c$ 是常数，其中 $A$ 为 $m \times n$ 矩阵，则梯度 $\frac{\partial c}{\partial A} = O_{m \times n}$

线性法则：若 $f (A)$ 和 $g (A)$ 分别是矩阵 $A$ 的实值函数, $c_{1}$ , $c_{2}$ 均为实常数，则：

\frac{\partial [ c _{1} f ( A ) + c _{2} g ( A )]}{\partial A} = c_{1} \frac{\partial f ( A )}{\partial A} + c_{2} \frac{\partial g ( A )}{\partial A}

乘积法则：若 $f (A)$ ， $g (A)$ 都是矩阵 $A$ 的实值函数，则：

\frac{\partial f ( A ) g ( A )}{\partial A} = f (A) \frac{\partial g ( A )}{\partial A} + g (A) \frac{\partial f ( A )}{\partial A}

商法则：若 $g (A) \neq = 0$ ，则：

\frac{\partial f ( A ) / g ( A )}{\partial A} = \frac{1}{[ g ( A ) ] ^{2}} [g (A) \frac{\partial f ( A )}{\partial A} - f (A) \frac{\partial g ( A )}{\partial A}]

链式法则：令 $A$ 为 $m \times n$ 的矩阵，且 $y = f (A)$ 和 $g (y)$ 分别是以矩阵 $A$ 和标量 $y$ 为变元的实值函数，则：

\frac{\partial g ( f ( A ))}{\partial A} = \frac{d g ( y )}{d y} \frac{\partial f ( A )}{\partial A}

例子

若 $A \in R^{m \times n}$ , $x \in R^{m \times 1}$ , $y \in R^{n \times 1}$ ，则：

\frac{\partial x ^{T} A y}{\partial A} = x y^{T}

若 $A \in R^{n \times n}$ 非奇异， $x \in R^{n \times 1}$ , $y \in R^{n \times 1}$ ,则：

\frac{\partial x ^{T} A ^{- 1} y}{\partial A} = - A^{- T} x y^{T} A^{- T}

若 $A \in R^{m \times n}$ , $x \in R^{n \times 1}$ , $y \in R^{n \times 1}$ ，则：

\frac{\partial x ^{T} A ^{T} A y}{\partial A} = A (x y^{T} + y x^{T})

若 $A \in R^{m \times n}$ , $x$ , $y \in R^{m \times 1}$ ，则：

\frac{\partial x ^{T} A A ^{T} y}{\partial A} = (x y^{T} + y x^{T}) A

指数函数的梯度：

\frac{\partial exp ( x ^{T} A y )}{\partial A} = x y^{T} exp (x^{T} A y)

迹函数的梯度矩阵

有时候，二次型目标函数可以利用矩阵的迹加以重写。因为一标量可以视为 $1 \times 1$ 的矩阵，所以二次型目标函数的迹直接等同于函数本身，即 $f (x) = x^{T} A x = tr (x^{T} A x)$ 利用迹的性质，又可以将目标函数进一步表示为：

f (x) = x^{T} A x = tr (x^{T} A x) = tr (A x x^{T})

因此，二次型目标函数 $x^{T} A x$ 等于核矩阵 $A$ 和向量外积 $x x^{T}$ 的乘积的迹

tr (A x x^{T})

对于 $n \times n$ 矩阵 $A$ ,由于 $tr (A) = \sum_{i = 1}^{n} A_{ii}$ ，故梯度 $\frac{\partial tr ( A )}{\partial A}$ 的 $(i, j)$ 元素为：

[\frac{\partial tr ( A )}{\partial A}]_{ij} = \frac{\partial}{\partial A _{ij}} k = 1 \sum n A_{kk} = {10 j = i j \neq = i

所以有 $\frac{\partial tr ( A )}{\partial A} = I$

考察目标函数 $f (A) = tr (A B)$ ，其中 $A$ 和 $B$ 分别为 $m \times n$ 和 $mn \times m$ 实矩阵。首先，矩阵乘积的元素为 $[A B]_{ij} = \sum_{l = 1}^{n} A_{i l} B_{l j}$ ，故矩阵乘积的迹 $tr (A B) = \sum_{p = 1}^{m} \sum_{l = 1}^{n} A_{pl} B_{lp}$ ，于是，梯度 $\frac{\partial tr ( A B )}{\partial A}$ 是一个 $m \times n$ 矩阵，其元素为：

[\frac{\partial tr ( A B )}{\partial A}]_{ij} = \frac{\partial}{\partial A _{ij}} (p = 1 \sum m l = 1 \sum n A_{pl} B_{lp}) = B_{ji}

所以有:

\frac{\partial tr ( A B )}{\partial A} = \nabla_{A} tr (A B) = B^{T}

由于 $tr (B A) = tr (A B)$ 所以：

\frac{\partial tr ( A B )}{\partial A} = \frac{\partial tr ( B A )}{\partial A} = B^{T}

同理，由于 $tr (x y^{T}) = tr (y x^{T}) = x^{T} y$ ，所以有：

\frac{\partial tr ( x y ^{T} )}{\partial x} = \frac{\partial tr ( y x ^{T} )}{\partial x} = y

Hessian 矩阵

实值函数 $f (x)$ 相对于 $m \times 1$ 实向量 $x$ 的二阶偏导是一个由 $m^{2}$ 个二阶偏导组成的矩阵，称为 Hessian 矩阵，定义为：

\frac{\partial ^{2} f ( x )}{\partial x \partial x ^{T}} = \frac{\partial}{\partial x ^{T}} [\frac{\partial f ( x )}{\partial x}]

或者简写为梯度的梯度：

\nabla_{x}^{2} f (x) = \nabla_{x} (\nabla_{x} f (x))

根据定义,Hessian 矩阵的第j列是梯度 $\frac{\partial f ( x )}{\partial x} = \nabla_{x} f (x)$ 第 $j$ 个分量的梯度，即：

[\frac{\partial ^{2} f ( x )}{\partial x \partial x ^{T}}]_{i, j} = \frac{\partial ^{2} f ( x )}{\partial x _{i} \partial x _{j}}

或者可以写作：

\frac{\partial ^{2} f ( x )}{\partial x \partial x ^{T}} = \frac{\partial ^{2} f}{\partial x _{1} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{n}}

因此，Hessian 矩阵可以通过两个步骤计算得出：

求实值函数 $f (x)$ 关于向量变元 $x$ 的偏导数，得到实值函数的梯度 $\frac{\partial f ( x )}{\partial x}$
再求梯度 $\frac{\partial f ( x )}{\partial x}$ 相对于 $1 \times n$ 行向量 $x^{T}$ 的偏导数，得到梯度的梯度即 Hessian 矩阵

根据以上步骤，得到 Hessian 矩阵的下列公式。

对于 $n \times 1$ 的常数向量 $a^{T}$ ，有：

\frac{\partial ^{2} a ^{T} x}{\partial x \partial x ^{T}} = O_{n \times n}

若 $A$ 是 $n \times n$ 矩阵，则：

\frac{\partial ^{2} x ^{T} A x}{\partial x \partial x ^{T}} = A + A^{T}

令 $x$ 为 $n \times 1$ 向量， $a$ 为 $m \times 1$ 常数向量， $A$ 和 $B$ 分别为 $m \times n$ 和 $m \times m$ 常数矩阵，且 $B$ 为对称矩阵，则：

\frac{\partial ^{2} ( a - A x ) ^{T} B ( a - A x )}{\partial x \partial x ^{T}} = 2 A^{T} B A

利用全微分求导

矩阵的迹 tr(A)与一阶实矩阵微分dX

A = a_{11} a_{21} ⋮ a_{n 1} a_{12} a_{22} ⋮ a_{n 2} \dots \dots ⋱ \dots a_{1 n} a_{2 n} ⋮ a_{nn}

矩阵的迹： $t r (A) = a_{11} + a_{22} + \cdot \cdot \cdot + a_{n} = i = 1 \sum n a_{ii}$

只有方阵才有迹

交换律： $t r (A B) = t r (B A), A_{m \times n}, B_{n \times m}$

矩阵变元的实值标量函数的全微分： $df (X) = t r (\frac{\partial f ( X )}{\partial X ^{T}} d X)$

矩阵变元或向量变元的实值标量函数的矩阵求导的结果，都可以通过上式求解

使用矩阵微分求导：

对于实值标量函数 $f (X), t r (f (X)) = f (X), df (X) = t r (df (X))$ ,所以有 $df (X) = t r (df (X)) = d (t r f (X))$

如果实值标量函数本身就是某个矩阵函数 $F_{p \times p} (X)$ 的迹，如 $re F (X)$ ，则由全微分的线性法则得：

d (t r F_{p \times p} (X)) = d (i = 1 \sum p f_{ii} (X)) = i = 1 \sum p d (f_{ii} (X)) = t r (d F_{p \times p} (X))

常见的求导

$\frac{\partial ( x ^{T} a )}{\partial x} = \frac{\partial ( a ^{T} x )}{\partial x} = a$
$\frac{\partial ( x ^{T} x )}{\partial x} = 2 x$
$\frac{\partial ( x ^{T} A x )}{\partial x} = A x + A^{T} x, A_{n \times n} = (a_{ij})_{i = 1, j = 1}^{n, n}$
$\frac{\partial ( a ^{T} x x ^{T} b )}{\partial x} = a b^{T} x + b a^{T} x, a = (a_{1}, a_{2}, ..., a_{n})^{T}, b = (b_{1}, b_{2}, ..., b_{n})^{T}$
$\frac{\partial ( a ^{T} x b )}{\partial x} = a b^{T}, a_{m \times 1}, b_{n \times 1}, x_{m \times n}$
$\frac{\partial ( a ^{T} x ^{T} b )}{\partial x} = b a^{T}, a_{m \times 1}, b_{n \times 1}, x_{m \times n}$
$\frac{\partial ( a ^{T} x x ^{T} b )}{\partial x} = a b^{T} x + b a^{T} x, a_{m \times 1}, b_{m \times 1}, x_{m \times m}$
$\frac{\partial ( a ^{T} x ^{T} x b )}{\partial x} = x a b^{T} + x b a^{T}, a_{m \times 1}, b_{m \times 1}, x_{m \times m}$

常用的结论：

证明： $d ∣ X ∣ = ∣ X ∣ t r (X^{- 1} d X)$

∣ X ∣ = x_{i 1} A_{i 1} + x_{i 2} A_{i 2} + ... + x_{in} A_{in}

\frac{\partial ∣ X ∣}{\partial x _{ij}} = A_{ij}

\frac{\partial ∣ X ∣}{\partial X ^{T}} = A_{11} A_{12} ⋮ A_{1 n} A_{21} A_{22} ⋮ A_{2 n} \dots \dots ⋱ \dots A_{n 1} A_{n 2} ⋮ A_{nn} = X^{*} = ∣ X ∣ X^{- 1}

d ∣ X ∣ = t r (\frac{\partial ∣ X ∣}{\partial X ^{T}} d X) = t r (∣ X ∣ X^{- 1} d X)

$d (X^{- 1}) = - X^{- 1} d X (X^{- 1})$

令A为在不考虑矩阵变元X是对称矩阵的前提下，得到的 Jacobian 矩阵

A = \frac{\partial f}{\partial x _{11}} \frac{\partial f}{\partial x _{12}} ⋮ \frac{\partial f}{\partial x _{1 n}} \frac{\partial f}{\partial x _{21}} \frac{\partial f}{\partial x _{22}} ⋮ \frac{\partial f}{\partial x _{2 n}} ... ... ⋱ ... \frac{\partial f}{\partial x _{n 1}} \frac{\partial f}{\partial x _{n 2}} ⋮ \frac{\partial f}{\partial x _{n}}_{n \times n}

对称矩阵变元的实值标量函数的求导公式

\frac{\partial f ( X )}{\partial X _{n \times n}} = \frac{\partial f ( X )}{\partial X _{n \times n}^{T}} = A^{T} + A - (A \circ E)

设 $x \sim N_{p} (μ, \sum), \sum > 0$ ， $\sum$ 为正定的协方差矩阵，则 $x$ 的概率密度函数为

f (x) = \frac{1}{( 2 π ) ^{\frac{p}{2}} ∣ \sum ∣ ^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ)^{T} \sum^{- 1} (x - μ)}

对数似然函数：

ln L (μ, \sum) = ln (i = 1 \prod n f (x_{i})) = - \frac{p}{2} n ln (2 π) - \frac{1}{2} n ln \sum - \frac{1}{2} i = 1 \sum n [(x_{i} - μ)^{T} \sum - 1 (x_{i} - μ)]

求导： $\frac{\partial ( l n L ( μ , \sum ))}{\partial μ} = \sum^{- 1} i = 1 \sum n (x_{i} - μ)$

\frac{\partial ( ln L ( μ , \sum ))}{\partial \sum} = \sum - 1 (i = 1 \sum n [(x_{i} - μ) (x_{i} - μ)^{T}]) \sum - 1 - n \sum - 1 - {[\frac{1}{2} (\sum - 1 (i = 1 \sum n [(x_{i} - μ) (x_{i} - μ)^{T}]) \sum - 1 - n \sum - 1] \circ E}

令导数为零，得：

μ = \overline{x} = \frac{1}{n} i = 1 \sum n x_{i} \sum = \frac{1}{n} i = 1 \sum n [(x_{i} - \overline{x}) (x_{i} - \overline{x})^{T}]

Hermitian 矩阵的特征值和特征向量

在信号处理领域，经常碰到对称矩阵。复对称矩阵又称为Hermitian矩阵。比如对于实观测数据 $x (t)$ ，其自相关矩阵 $R = E [x (t) x^{T} (t)]$ 是实对称矩阵，而复观测信号的自相关矩阵是Hermitian矩阵。Hermitian在计算过程中有一系列重要特性，可以大大简化计算过程。本文总结Hermitian矩阵特征值和特征向量的一些性质。

重要性质

特征值的实数性 Hermitian 矩阵 $A$ 的特征值一定是实的。

证明：令λ和 $u$ 分别是Hermitian矩阵A的特征值和与之对应的特征向量，即 $A u = λ u$ 。两边同时左乘特征向量的共轭转置，得二次型标量值函数 $u^{T} A u = λ u^{T} u$ ，对其两边取共轭转置，得到 $u^{T} A u = λ^{T} u^{T} u$ 。注意内积 $u^{T} u$ 总是实数，则有 $λ$ 也一定是实数。
可逆矩阵的特征对关系令 $λ, u$ 是Hermitian矩阵 $A$ 的特征对。若 $A$ 可逆，则 $1/ λ, u$ 是逆矩阵 $A^{- 1}$ 的特征对。证明：因为 $A u = λ u$ ，则对两边左乘 $A^{- 1}$ ，则有 $u = λ A^{- 1} u$ ，所以有 $λ^{- 1} u = A^{- 1} u$

特征向量求解步骤

对于 $n \times n$ 的Hermitian矩阵 $A$ ，若它所有不同的特征值 $λ_{1}, λ_{2}, \dots, λ_{n}$ 都通过求解特征方程获得。那么求解其特征向量可以通过以下两个步骤完成：

利用高斯消元法求解方程：
$(A - λ I) x = 0$
得到与每个已知λ对应的非零解 $x$
利用Gram-Schmidt正交化方法将 $x$ 正交化，得到相互正交，并且具有单位范数的特征向量。

若 $λ_{k}$ 是Hermitian矩阵 $A$ 的多重特征值，并且其多重度为 $m_{k}$ ，那么 $rank (A - λ_{k} I) = n - m_{k}$ ，因此任何一个Hermitian矩阵都满足可对角化定理的充要条件。因此，有 $U^{- 1} A U = Σ$ 。

重要定理

Hermitian矩阵的所有特征向量线性无关，并且相互正交。特征矩阵 $U = [u_{1}, \dots, u_{n}]$ 是酉矩阵，满足 $U^{- 1} = U^{T}$

证明过程：

首先证明不同特征值对应的特征向量是相互正交的令 $λ_{1} \neq = λ_{2}$ 是Hermitian矩阵A对应的特征值，且其对应的特征向量分别是 $u_{1}, u_{2}$ ，则有：
$u_{2}^{T} A u_{1} = λ_{1} u_{2}^{T} u_{1}$ $u_{1}^{T} A u_{2} = λ_{2} u_{1}^{T} u_{2}$
对前一个式子取共轭，则有：
$u_{1}^{T} A u_{2} = λ_{1} u_{1}^{T} u_{2}$
因此有： $λ_{1} u_{1}^{T} u_{2} = λ_{2} u_{1}^{T} u_{2}$ ，由于 $λ_{1} \neq = λ_{2}$ ，所以 $u_{1}$ 和 $u_{2}$ 正交。

更进一步

对于若 $n \times n$ 矩阵A，若 $λ_{k}$ 是Hermitian矩阵 $A$ 的多重特征值，并且其多重度为 $m_{k}$ ，那么 $rank (A - λ_{k} I) = n - m_{k}$ ，并且 $A - λ_{k} I$ 是可逆的。于是，方程 $(A - λ_{k} I) u = 0$ 的线性无关解。这些线性无关解是正交的。由于特征矩阵U的所有特征向量即线性无关，又相互正交，故U为酉矩阵，满足 $U U^{T} = I$ ，即 $U^{T} = U^{- 1}$

矩阵表示形式

对于Hermitian矩阵有：

正交相似形式：
$U^{T} A U = diag (λ_{1}, λ_{2}, \dots, λ_{n})$
矩阵分解形式（正交相似下的范式）：
$A = U Σ U^{T}$
求和形式：
$A = i = 1 \sum n λ_{i} u_{i} u_{i}^{T}$

二次型表示

在最优化理论和信号处理中，二次型函数可表示为：

X^{T} A x = i = 1 \sum n λ_{i} x^{T} u_{i}^{2}

逆矩阵表示

$A^{- 1}$ 的级数展开形式：

A^{- 1} = i = 1 \sum n λ_{i}^{- 1} u_{i} u_{i}^{T}

因此若已知 $A$ 的特征值分解，可以很容易求出 $A^{- 1}$

定矩阵

给定一个Hermitian矩阵（即等于其共轭转置的复矩阵） $M$ ，对于任意非零复列向量 $z$ ，都有 $z^{H} M z$ 都为正，则 $M$ 是正定的。负定矩阵和负半定矩阵的定义类似，非正半定且非负半定的矩阵有时称为不定矩阵。

定义

对于对称实矩阵M：

M positive-definite ⟺ x^{⊤} M x > 0 for all x \in R^{n} ∖ {0}

M positive semi-definite ⟺ x^{⊤} M x \geq 0 for all x \in R^{n}

M negative-definite ⟺ x^{⊤} M x < 0 for all x \in R^{n} ∖ {0}

M negative semi-definite ⟺ x^{⊤} M x \leq 0 for all x \in R^{n}

同理对Hermitian矩阵M：

M positive-definite ⟺ z^{*} M z > 0 for all z \in C^{n} ∖ {0}

等等...

性质

矩阵M是正定的当且仅当它满足以下任一等效条件。

M 与具有正实数项的对角矩阵一致。
M 是对称的或 Hermitian 的，并且它的所有特征值都是实数且正的。
M 是对称的或 Hermitian 的，并且它的所有先导主次要函数都是正的。
存在可逆矩阵 B $M = B^{H} B$

如果矩阵满足类似的等效条件，其中“正”被“非负”替换，“可逆矩阵”被“矩阵”替换，并且单词“前导”被删除，则该矩阵是半正定矩阵。

正定和正半定实数矩阵是凸优化的基础，因为，给定一个二次可微的多个实数变量的函数，那么如果其Hessian 矩阵（其二阶偏导数矩阵）在点p 处是正定的 , 那么函数在p附近是凸函数，反之，如果函数在 p 附近是凸函数 p , 那么 Hessian 矩阵在点p处是正半定的.

矩阵的乘积​

矩阵相乘的理解​

Hadamard哈达玛积(矩阵点乘)(Hadamard Product)​

矩阵内积 (Iner Product of Matrices)​

克罗内克积（Kronecker Product ）​

矩阵求导​

实值函数相对于实向量的梯度​

例子​

实值函数的梯度矩阵​

例子​

迹函数的梯度矩阵​

Hessian 矩阵​

利用全微分求导​

常见的求导​

常用的结论：​

Hermitian 矩阵的特征值和特征向量​

重要性质​

特征向量求解步骤​

重要定理​

矩阵表示形式​

二次型表示​

逆矩阵表示​

定矩阵​

定义​

性质​