Skip to main content

矩阵

矩阵的乘积

矩阵相乘的理解

矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述

左乘矩阵是进行行操作,右乘矩阵是进行列操作。

中的的列向量可以看作是以的列向量为基的子空间坐标。

Hadamard哈达玛积(矩阵点乘)(Hadamard Product)

哈达玛积就是两个矩阵对应位置的元素相乘,布局不变。俗称矩阵点乘,符号是空心圆 ∘,两个矩阵的形状必须一样。

矩阵内积 (Iner Product of Matrices)

符号:⟨ . , . ⟩ 目的:度量长度。 定义:列向量与列向量的内积:

克罗内克积(Kronecker Product )

符号: 定义:克罗内克积是两个任意大小的矩阵间的运算,它是张量积的特殊形式。给定,则的克罗内克积是一个在空间的分块矩阵:

矩阵求导

实值函数相对于实向量的梯度

相对于向量的梯度算子记作,定义为:

因此,实向量为变元的实标量函数相对于x的梯度为的列向量,定义为:

梯度方向的负方向成为变元的梯度流(gradient flow),记为:

从梯度的定义式可以看出:

  1. 一个以向量为变元的变量函数的梯度为一向量。
  2. 梯度的每个分量给出了变量函数在该分量方向上的变化率

梯度向量最重要的性质之一是,它指出了当变元增大时函数ff的最大增大率。相反,梯度的负值(负梯度)指出了当变元增大时函数ff的最大减小率。根据这样一种性质,即可设计出求函数极小值的迭代算法。

类似地,实值函数相对于行向量的梯度为行向量,定义为:

维行向量函数,相对于维实向量的梯度为矩阵定义为:

向量函数,其中是向量的标量函数,一阶梯度:

是一个的矩阵,称为向量函数的 Jacobi 矩阵。

,则:

这个结论非常重要,将帮助我们导出更多有用的结论。

均和无关,则:

因为,则:

由于:

所以梯度的第k个分量为:

即有:

特别的如果为对称矩阵则有:

归纳以上三个例子的结果以及其他结果,便得到实值函数相对于列向量的一下几个常用的梯度公式。

为常数,则梯度

线性法则:若分别是向量的实值函数,为实常数,则:

乘法法则:若都是向量的实值函数,则:

商法则:若,则:

链式法则:若的向量值函数,则:

式中矩阵。

例子

向量是无关的常数向量,则:

向量是无关的常数向量,则:

均与无关,则:

是与无关,而与向量的元素有关,则:

是一个与向量无关的矩阵,而是与向量的元素有关的列向量,则:

向量,常数向量,分别为常数矩阵,且为对称矩阵,则:

实值函数的梯度矩阵

在最优化问题中,需要最优化的对象可能是某个加权矩阵。因此,有必要分析实值函数相对于矩阵变元的梯度。

实值函数相对于是矩阵的梯度为矩阵,简称梯度矩阵,定义为:

式中的元素。

实值函数相对于矩阵变元的梯度具有以下性质:

是常数,其中矩阵,则梯度

线性法则:若分别是矩阵的实值函数,,均为实常数,则:

乘积法则:若都是矩阵的实值函数,则:

商法则:若,则:

链式法则:令的矩阵,且分别是以矩阵和标量为变元的实值函数,则:

例子

,,,则:

非奇异,,,则:

,,,则:

,,,则:

指数函数的梯度:

迹函数的梯度矩阵

有时候,二次型目标函数可以利用矩阵的迹加以重写。因为一标量可以视为的矩阵,所以二次型目标函数的迹直接等同于函数本身,即 利用迹的性质,又可以将目标函数进一步表示为:

因此,二次型目标函数 等于核矩阵和向量外积 的乘积的迹

对于矩阵,由于,故梯度元素为:

所以有

考察目标函数,其中分别为实矩阵。首先,矩阵乘积的元素为,故矩阵乘积的迹,于是,梯度是一个矩阵,其元素为:

所以有:

由于所以:

同理,由于,所以有:

Hessian 矩阵

实值函数相对于实向量的二阶偏导是一个由个二阶偏导组成的矩阵,称为 Hessian 矩阵,定义为:

或者简写为梯度的梯度:

根据定义,Hessian 矩阵的第j列是梯度个分量的梯度,即:

或者可以写作:

因此,Hessian 矩阵可以通过两个步骤计算得出:

  1. 求实值函数关于向量变元的偏导数,得到实值函数的梯度
  2. 再求梯度相对于行向量的偏导数,得到梯度的梯度即 Hessian 矩阵

根据以上步骤,得到 Hessian 矩阵的下列公式。

对于的常数向量,有:

矩阵,则:

向量,常数向量,分别为常数矩阵,且为对称矩阵,则:

利用全微分求导

矩阵的迹 tr(A)与一阶实矩阵微分dX

矩阵的迹:

只有方阵才有迹

交换律:

矩阵变元实值标量函数全微分

矩阵变元或向量变元的实值标量函数的矩阵求导的结果,都可以通过上式求解

使用矩阵微分求导:

对于实值标量函数,所以有

如果实值标量函数本身就是某个矩阵函数的迹,如,则由全微分的线性法则得:

常见的求导

常用的结论:

证明:

令A为在不考虑矩阵变元X是对称矩阵的前提下,得到的 Jacobian 矩阵

对称矩阵变元的实值标量函数的求导公式

正定的协方差矩阵,则的概率密度函数为

对数似然函数:

求导:

令导数为零,得:

Hermitian 矩阵的特征值和特征向量

在信号处理领域,经常碰到对称矩阵。复对称矩阵又称为Hermitian矩阵。比如对于实观测数据,其自相关矩阵是实对称矩阵,而复观测信号的自相关矩阵是Hermitian矩阵。Hermitian在计算过程中有一系列重要特性,可以大大简化计算过程。本文总结Hermitian矩阵特征值和特征向量的一些性质。

重要性质

  1. 特征值的实数性 Hermitian 矩阵的特征值一定是实的。

    证明:令λ和分别是Hermitian矩阵A的特征值和与之对应的特征向量,即。两边同时左乘特征向量的共轭转置,得二次型标量值函数,对其两边取共轭转置,得到。注意内积总是实数,则有也一定是实数。

  2. 可逆矩阵的特征对关系 令是Hermitian矩阵的特征对。若可逆,则是逆矩阵的特征对。 证明:因为,则对两边左乘,则有,所以有

特征向量求解步骤

对于的Hermitian矩阵,若它所有不同的特征值都通过求解特征方程获得。那么求解其特征向量可以通过以下两个步骤完成:

  1. 利用高斯消元法求解方程:

    得到与每个已知λ对应的非零解

  2. 利用Gram-Schmidt正交化方法将正交化,得到相互正交,并且具有单位范数的特征向量。

是Hermitian矩阵的多重特征值,并且其多重度为 ,那么 ,因此任何一个Hermitian矩阵都满足可对角化定理的充要条件。因此,有

重要定理

Hermitian矩阵的所有特征向量线性无关,并且相互正交。特征矩阵是酉矩阵,满足

证明过程:

  1. 首先证明不同特征值对应的特征向量是相互正交的 令是Hermitian矩阵A对应的特征值,且其对应的特征向量分别是,则有:

  2. 对前一个式子取共轭,则有:

    因此有:,由于,所以 正交。

更进一步

对于若矩阵A,若是Hermitian矩阵的多重特征值,并且其多重度为 ,那么 ,并 且是可逆的。于是,方程的线性无关解。这些线性无关解是正交的。由于特征矩阵U的所有特征向量即线性无关,又相互正交,故U为酉矩阵,满足,即

矩阵表示形式

对于Hermitian矩阵有:

  1. 正交相似形式:

  2. 矩阵分解形式(正交相似下的范式):

  3. 求和形式:

二次型表示

在最优化理论和信号处理中,二次型函数可表示为:

逆矩阵表示

的级数展开形式:

因此若已知的特征值分解,可以很容易求出

定矩阵

给定一个Hermitian矩阵(即等于其共轭转置的复矩阵) ,对于任意非零复列向量 ,都有都为正,则 是正定的。负定矩阵和负半定矩阵的定义类似,非正半定且非负半定的矩阵有时称为不定矩阵。

定义

对于对称实矩阵M:

同理对Hermitian矩阵M:

等等...

性质

矩阵M是正定的当且仅当它满足以下任一等效条件。

如果矩阵满足类似的等效条件,其中“正”被“非负”替换,“可逆矩阵”被“矩阵”替换,并且单词“前导”被删除,则该矩阵是半正定矩阵。

正定和正半定实数矩阵是凸优化的基础,因为,给定一个二次可微的多个实数变量的函数,那么如果其Hessian 矩阵(其二阶偏导数矩阵)在点p 处是正定的 , 那么函数在p附近是函数,反之,如果函数在 p 附近是凸函数 p , 那么 Hessian 矩阵在点p处是正半定的.