矩阵的乘积
矩阵相乘的理解
矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述
左乘矩阵是进行行操作,右乘矩阵是进行列操作。
C = A × B 中的B 的列向量可以看作是以A 的列向量为基的子空间坐标。
Hadamard哈达玛积(矩阵点乘)(Hadamard Product)
哈达玛积就是两个矩阵对应位置的元素 相乘,布局不变。俗称矩阵点乘 ,符号是空心圆 ∘,两个矩阵的形状必须一样。
矩阵内积 (Iner Product of Matrices)
符号:⟨ . , . ⟩
目的:度量长度。
定义:列向量a 与列向量b 的内积:
< a , b >= b H a
克罗内克积(Kronecker Product )
符号:⊗
定义:克罗内克积是两个任意大小的矩阵间的运算,它是张量积的特殊形式。给定A 和B ,则A 和B 的克罗内克积是一个在空间R mp × nq 的分块矩阵:
A ⊗ B = a 11 B ⋮ a m 1 B ⋯ ⋱ ⋯ a 1 n B ⋮ a mn B
矩阵求导
实值函数相对于实向量的梯度
相对于n × 1 向量x 的梯度算子记作∇ x ,定义为:
∇ x = [ ∂ x 1 ∂ , ∂ x 2 ∂ , ⋯ , ∂ x n ∂ ] T = ∂ x ∂
因此,n × 1 实向量x 为变元的实标量函数f ( x ) 相对于x的梯度为n × 1 的列向量,定义为:
∇ x f ( x ) = [ ∂ x 1 ∂ f ( x ) , ∂ x 2 ∂ f ( x ) , ⋯ , ∂ x n ∂ f ( x ) ] T = ∂ x ∂ f ( x )
梯度方向的负方向成为变元x 的梯度流(gradient flow),记为:
x ˙ = − ∇ x f ( x )
从梯度的定义式可以看出:
一个以向量为变元的变量函数的梯度为一向量。
梯度的每个分量给出了变量函数在该分量方向上的变化率
梯度向量最重要的性质之一是,它指出了当变元增大时函数ff的最大增大率。相反,梯度的负值(负梯度)指出了当变元增大时函数ff的最大减小率。根据这样一种性质,即可设计出求函数极小值的迭代算法。
类似地,实值函数f ( x ) 相对于1 × n 行向量x T 的梯度为1 × n 行向量,定义为:
∇ x T f ( x ) = [ ∂ x 1 ∂ f ( x ) , ∂ x 2 ∂ f ( x ) , … , ∂ x n ∂ f ( x ) ] = ∂ x T ∂ f ( x )
m 维行向量函数f ( x ) = [ f 1 ( x ) , … , f m ( x )] ,相对于n 维实向量x 的梯度为n × m 矩阵定义为:
∂ x ∂ f ( x ) = ∂ x 1 ∂ f 1 ( x ) ∂ x 2 ∂ f 1 ( x ) ⋮ ∂ x n ∂ f 1 ( x ) ∂ x 1 ∂ f 2 ( x ) ∂ x 2 ∂ f 2 ( x ) ⋮ ∂ x n ∂ f 2 ( x ) … … ⋱ … ∂ x 1 ∂ f m ( x ) ∂ x 2 ∂ f m ( x ) ⋮ ∂ x n ∂ f m ( x ) = ∇ x f ( x )
若m × 1 向量函数f ( x ) = y = [ y 1 , … , y m ] T ,其中y 1 , y 2 , … , y m 是向量的标量函数,一阶梯度:
∂ x T ∂ y = ∂ x 1 ∂ y 1 ∂ x 1 ∂ y 2 ⋮ ∂ x 1 ∂ y m ∂ x 2 ∂ y 1 ∂ x 2 ∂ y 2 ⋮ ∂ x 2 ∂ y m ⋯ ⋯ ⋱ ⋯ ∂ x n ∂ y 1 ∂ x n ∂ y 2 ⋮ ∂ x n ∂ y m
∂ x T ∂ y 是一个m × n 的矩阵,称为向量函数y = [ y 1 , y 2 , … , y m ] T 的 Jacobi 矩阵。
若f ( x ) = [ x 1 , x 2 , … , x n ] ,则:
∂ x ∂ x T = I
这个结论非常重要,将帮助我们导出更多有用的结论。
若A 与y 均和x 无关,则:
∂ x ∂ x T A y = ∂ x ∂ x T A y = A y
因为y T A x = ⟨ A T y , x ⟩ = ⟨ x , A T y ⟩ = x T A T y ,则:
∂ x ∂ y T A x = A T y
由于:
x T A x = i = 1 ∑ n j = 1 ∑ n A ij x i x j
所以梯度∂ x ∂ x T A x 的第k个分量为:
[ ∂ x ∂ x T A x ] k = ∂ x k ∂ i = 1 ∑ n j = 1 ∑ n A ij x i x j = i = 1 ∑ n A ik x i + j = 1 ∑ n A kj x j
即有:
∂ x ∂ x T A x = A x + A T x
特别的如果A 为对称矩阵则有:
∂ x ∂ x T A x = 2 A x
归纳以上三个例子的结果以及其他结果,便得到实值函数f ( x ) 相对于列向量x 的一下几个常用的梯度公式。
若f ( x ) = c 为常数,则梯度∂ x ∂ c = 0
线性法则 :若f ( x ) 和g ( x ) 分别是向量x 的实值函数,c 1 和c 2 为实常数,则:
∂ x ∂ [ c 1 f ( x ) + c 2 g ( x )] = c 1 ∂ x ∂ f ( x ) + c 2 ∂ x ∂ g ( x )
乘法法则 :若f ( x ) 和g ( x ) 都是向量x 的实值函数,则:
∂ x f ( x ) g ( x ) = g ( x ) ∂ x ∂ f ( x ) + f ( x ) ∂ x ∂ g ( x )
商法则 :若g ( x ) = 0 ,则:
∂ x ∂ f ( x ) / g ( x ) = g 2 ( x ) 1 [ g ( x ) ∂ x ∂ f ( x ) − f ( x ) ∂ x ∂ g ( x ) ]
链式法则 :若y ( x ) 是x 的向量值函数,则:
∂ x ∂ f ( y ( x )) = ∂ x ∂ y T ( x ) ∂ y ∂ f ( y )
式中∂ x ∂ y T ( x ) 为n × n 矩阵。
若n × 1 向量a 与x 是无关的常数向量,则:
∂ x ∂ a T x = a ∂ x ∂ x T a = a
若n × 1 向量a 与x 是无关的常数向量,则:
∂ x ∂ a T y ( x ) = ∂ x ∂ y T ( x ) a ∂ x ∂ y T ( x ) a = ∂ x ∂ y T ( x ) a
若A 和y 均与x 无关,则:
∂ x ∂ x T A y = A y ∂ x ∂ y T A x = A T y
若A 是与x 无关,而y ( x ) 与向量x 的元素有关,则:
∂ x ∂ [ y ( x ) ] T A y ( x ) = ∂ x ∂ [ y ( x ) ] T ( A + A T ) y ( x )
若A 是一个与向量x 无关的矩阵,而y ( x ) 和z ( x ) 是与向量x 的元素有关的列向量,则:
∂ x [ y ( x ) ] T A z ( x ) = ∂ x [ y ( x ) ] T A z ( x ) + ∂ x [ z ( x ) ] T A T y ( x )
令x 为n × 1 向量,a 为m × 1 常数向量,A 和B 分别为m × n 和m × m 常数矩阵,且B 为对称矩阵,则:
∂ x ∂ ( a − A x ) T B ( a − A x ) = − 2 A T B ( a − A x )
实值函数的梯度矩阵
在最优化问题中,需要最优化的对象可能是某个加权矩阵。因此,有必要分析实值函数相对于矩阵变元的梯度。
实值函数f ( A ) 相对于m × n 是矩阵A 的梯度为m × n 矩阵,简称梯度矩阵,定义为:
∂ A ∂ f ( A ) = ∂ A 11 ∂ f ( A ) ∂ A 21 ∂ f ( A ) ⋮ ∂ A m 1 ∂ f ( A ) ∂ A 12 ∂ f ( A ) ∂ A 22 ∂ f ( A ) ⋮ ∂ A m 2 ∂ f ( A ) … … ⋱ … ∂ A 1 n ∂ f ( A ) ∂ A 2 n ∂ f ( A ) ⋮ ∂ A mn ∂ f ( A )
式中A ij 是A 的元素。
实值函数相对于矩阵变元的梯度具有以下性质:
若f ( A ) = c 是常数,其中A 为m × n 矩阵,则梯度∂ A ∂ c = O m × n
线性法则 :若f ( A ) 和g ( A ) 分别是矩阵A 的实值函数,c 1 ,c 2 均为实常数,则:
∂ A ∂ [ c 1 f ( A ) + c 2 g ( A )] = c 1 ∂ A ∂ f ( A ) + c 2 ∂ A ∂ g ( A )
乘积法则 :若f ( A ) ,g ( A ) 都是矩阵A 的实值函数,则:
∂ A ∂ f ( A ) g ( A ) = f ( A ) ∂ A ∂ g ( A ) + g ( A ) ∂ A ∂ f ( A )
商法则 :若g ( A ) = 0 ,则:
∂ A ∂ f ( A ) / g ( A ) = [ g ( A ) ] 2 1 [ g ( A ) ∂ A ∂ f ( A ) − f ( A ) ∂ A ∂ g ( A ) ]
链式法则 :令A 为m × n 的矩阵,且y = f ( A ) 和g ( y ) 分别是以矩阵A 和标量y 为变元的实值函数,则:
∂ A ∂ g ( f ( A )) = d y d g ( y ) ∂ A ∂ f ( A )
若A ∈ R m × n ,x ∈ R m × 1 ,y ∈ R n × 1 ,则:
∂ A ∂ x T A y = x y T
若A ∈ R n × n 非奇异,x ∈ R n × 1 ,y ∈ R n × 1 ,则:
∂ A ∂ x T A − 1 y = − A − T x y T A − T
若A ∈ R m × n ,x ∈ R n × 1 ,y ∈ R n × 1 ,则:
∂ A ∂ x T A T A y = A ( x y T + y x T )
若A ∈ R m × n ,x ,y ∈ R m × 1 ,则:
∂ A ∂ x T A A T y = ( x y T + y x T ) A
指数函数的梯度:
∂ A ∂ exp ( x T A y ) = x y T exp ( x T A y )
迹函数的梯度矩阵
有时候,二次型目标函数可以利用矩阵的迹加以重写。因为一标量可以视为1 × 1 的矩阵,所以二次型目标函数的迹直接等同于函数本身,即f ( x ) = x T A x = tr ( x T A x ) 利用迹的性质,又可以将目标函数进一步表示为:
f ( x ) = x T A x = tr ( x T A x ) = tr ( A x x T )
因此,二次型目标函数 x T A x 等于核矩阵A 和向量外积x x T 的乘积的迹
tr ( A x x T )
对于n × n 矩阵A ,由于tr ( A ) = ∑ i = 1 n A ii ,故梯度∂ A ∂ tr ( A ) 的( i , j ) 元素为:
[ ∂ A ∂ tr ( A ) ] ij = ∂ A ij ∂ k = 1 ∑ n A kk = { 1 0 j = i j = i
所以有∂ A ∂ tr ( A ) = I
考察目标函数f ( A ) = tr ( A B ) ,其中A 和B 分别为m × n 和mn × m 实矩阵。首先,矩阵乘积的元素为[ A B ] ij = ∑ l = 1 n A i l B l j ,故矩阵乘积的迹tr ( A B ) = ∑ p = 1 m ∑ l = 1 n A pl B lp ,于是,梯度∂ A ∂ tr ( A B ) 是一个m × n 矩阵,其元素为:
[ ∂ A ∂ tr ( A B ) ] ij = ∂ A ij ∂ ( p = 1 ∑ m l = 1 ∑ n A pl B lp ) = B ji
所以有:
∂ A ∂ tr ( A B ) = ∇ A tr ( A B ) = B T
由于tr ( B A ) = tr ( A B ) 所以:
∂ A ∂ tr ( A B ) = ∂ A ∂ tr ( B A ) = B T
同理,由于tr ( x y T ) = tr ( y x T ) = x T y ,所以有:
∂ x ∂ tr ( x y T ) = ∂ x ∂ tr ( y x T ) = y
Hessian 矩阵
实值函数f ( x ) 相对于m × 1 实向量x 的二阶偏导是一个由m 2 个二阶偏导组成的矩阵,称为 Hessian 矩阵,定义为:
∂ x ∂ x T ∂ 2 f ( x ) = ∂ x T ∂ [ ∂ x ∂ f ( x ) ]
或者简写为梯度的梯度:
∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ))
根据定义,Hessian 矩阵的第j列是梯度∂ x ∂ f ( x ) = ∇ x f ( x ) 第j 个分量的梯度,即:
[ ∂ x ∂ x T ∂ 2 f ( x ) ] i , j = ∂ x i ∂ x j ∂ 2 f ( x )
或者可以写作:
∂ x ∂ x T ∂ 2 f ( x ) = ∂ x 1 ∂ x 1 ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ⋮ ∂ x n ∂ x 1 ∂ 2 f ∂ x 1 ∂ x 2 ∂ 2 f ∂ x 2 ∂ x 2 ∂ 2 f ⋮ ∂ x n ∂ x 2 ∂ 2 f … … ⋱ … ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x n ∂ 2 f ⋮ ∂ x n ∂ x n ∂ 2 f
因此,Hessian 矩阵可以通过两个步骤计算得出:
求实值函数f ( x ) 关于向量变元x 的偏导数,得到实值函数的梯度∂ x ∂ f ( x )
再求梯度∂ x ∂ f ( x ) 相对于1 × n 行向量x T 的偏导数,得到梯度的梯度即 Hessian 矩阵
根据以上步骤,得到 Hessian 矩阵的下列公式。
对于n × 1 的常数向量a T ,有:
∂ x ∂ x T ∂ 2 a T x = O n × n
若A 是n × n 矩阵,则:
∂ x ∂ x T ∂ 2 x T A x = A + A T
令x 为n × 1 向量,a 为m × 1 常数向量,A 和B 分别为m × n 和m × m 常数矩阵,且B 为对称矩阵,则:
∂ x ∂ x T ∂ 2 ( a − A x ) T B ( a − A x ) = 2 A T B A
利用全微分求导
矩阵的迹 tr(A)与一阶实矩阵微分dX
A = a 11 a 21 ⋮ a n 1 a 12 a 22 ⋮ a n 2 ⋯ ⋯ ⋱ ⋯ a 1 n a 2 n ⋮ a nn
矩阵的迹:t r ( A ) = a 11 + a 22 + ⋅ ⋅ ⋅ + a n = i = 1 ∑ n a ii
只有方阵 才有迹
交换律:t r ( A B ) = t r ( B A ) , A m × n , B n × m
矩阵变元 的实值标量函数 的全微分 :df ( X ) = t r ( ∂ X T ∂ f ( X ) d X )
矩阵变元或向量变元的实值标量函数的矩阵求导 的结果,都可以通过上式求解
使用矩阵微分 求导:
对于实值标量函数f ( X ) , t r ( f ( X )) = f ( X ) , df ( X ) = t r ( df ( X )) ,所以有df ( X ) = t r ( df ( X )) = d ( t r f ( X ))
如果实值标量函数本身就是某个矩阵函数 F p × p ( X ) 的迹,如re F ( X ) ,则由全微分的线性法 则得:
d ( t r F p × p ( X )) = d ( i = 1 ∑ p f ii ( X ) ) = i = 1 ∑ p d ( f ii ( X )) = t r ( d F p × p ( X ))
常见的求导
∂ x ∂ ( x T a ) = ∂ x ∂ ( a T x ) = a
∂ x ∂ ( x T x ) = 2 x
∂ x ∂ ( x T A x ) = A x + A T x , A n × n = ( a ij ) i = 1 , j = 1 n , n
∂ x ∂ ( a T x x T b ) = a b T x + b a T x , a = ( a 1 , a 2 , ... , a n ) T , b = ( b 1 , b 2 , ... , b n ) T
∂ x ∂ ( a T x b ) = a b T , a m × 1 , b n × 1 , x m × n
∂ x ∂ ( a T x T b ) = b a T , a m × 1 , b n × 1 , x m × n
∂ x ∂ ( a T x x T b ) = a b T x + b a T x , a m × 1 , b m × 1 , x m × m
∂ x ∂ ( a T x T x b ) = x a b T + x b a T , a m × 1 , b m × 1 , x m × m
常用的结论:
证明:d ∣ X ∣ = ∣ X ∣ t r ( X − 1 d X )
∣ X ∣ = x i 1 A i 1 + x i 2 A i 2 + ... + x in A in
∂ x ij ∂ ∣ X ∣ = A ij
∂ X T ∂ ∣ X ∣ = A 11 A 12 ⋮ A 1 n A 21 A 22 ⋮ A 2 n ⋯ ⋯ ⋱ ⋯ A n 1 A n 2 ⋮ A nn = X ∗ = ∣ X ∣ X − 1
d ∣ X ∣ = t r ( ∂ X T ∂ ∣ X ∣ d X ) = t r ( ∣ X ∣ X − 1 d X )
d ( X − 1 ) = − X − 1 d X ( X − 1 )
令A为在不考虑 矩阵变元X是对称矩阵的前提下,得到的 Jacobian 矩阵
A = ∂ x 11 ∂ f ∂ x 12 ∂ f ⋮ ∂ x 1 n ∂ f ∂ x 21 ∂ f ∂ x 22 ∂ f ⋮ ∂ x 2 n ∂ f ... ... ⋱ ... ∂ x n 1 ∂ f ∂ x n 2 ∂ f ⋮ ∂ x n ∂ f n × n
对称矩阵变元的实值标量函数 的求导公式
∂ X n × n ∂ f ( X ) = ∂ X n × n T ∂ f ( X ) = A T + A − ( A ∘ E )
设x ∼ N p ( μ , ∑ ) , ∑ > 0 ,∑ 为正定 的协方差矩阵,则x 的概率密度函数为
f ( x ) = ( 2 π ) 2 p ∣ ∑ ∣ 2 1 1 e − 2 1 ( x − μ ) T ∑ − 1 ( x − μ )
对数似然函数:
ln L ( μ , ∑ ) = ln ( i = 1 ∏ n f ( x i ) ) = − 2 p n ln ( 2 π ) − 2 1 n ln ∑ − 2 1 i = 1 ∑ n [ ( x i − μ ) T ∑ − 1 ( x i − μ )]
求导:∂ μ ∂ ( l n L ( μ , ∑ )) = ∑ − 1 i = 1 ∑ n ( x i − μ )
∂ ∑ ∂ ( ln L ( μ , ∑ )) = ∑ − 1 ( i = 1 ∑ n [( x i − μ ) ( x i − μ ) T ] ) ∑ − 1 − n ∑ − 1 − {[ 2 1 ( ∑ − 1 ( i = 1 ∑ n [( x i − μ ) ( x i − μ ) T ] ) ∑ − 1 − n ∑ − 1 ] ∘ E }
令导数为零,得:
μ = x = n 1 i = 1 ∑ n x i ∑ = n 1 i = 1 ∑ n [( x i − x ) ( x i − x ) T ]
Hermitian 矩阵的特征值和特征向量
在信号处理领域,经常碰到对称矩阵。复对称矩阵又称为Hermitian矩阵。比如对于实观测数据x ( t ) ,其自相关矩阵R = E [ x ( t ) x T ( t )] 是实对称矩阵,而复观测信号的自相关矩阵是Hermitian矩阵。Hermitian在计算过程中有一系列重要特性,可以大大简化计算过程。本文总结Hermitian矩阵特征值和特征向量的一些性质。
重要性质
特征值的实数性
Hermitian 矩阵A 的特征值一定是实的。
证明:令λ和u 分别是Hermitian矩阵A的特征值和与之对应的特征向量,即A u = λ u 。两边同时左乘特征向量的共轭转置,得二次型标量值函数u T A u = λ u T u ,对其两边取共轭转置,得到u T A u = λ T u T u 。注意内积u T u 总是实数,则有λ 也一定是实数。
可逆矩阵的特征对关系
令λ , u 是Hermitian矩阵A 的特征对。若A 可逆,则1/ λ , u 是逆矩阵A − 1 的特征对。
证明:因为A u = λ u ,则对两边左乘A − 1 ,则有u = λ A − 1 u ,所以有λ − 1 u = A − 1 u
特征向量求解步骤
对于n × n 的Hermitian矩阵A ,若它所有不同的特征值λ 1 , λ 2 , … , λ n 都通过求解特征方程获得。那么求解其特征向量可以通过以下两个步骤完成:
利用高斯消元法求解方程:
( A − λ I ) x = 0
得到与每个已知λ对应的非零解x
利用Gram-Schmidt正交化方法将x 正交化,得到相互正交,并且具有单位范数的特征向量。
若λ k 是Hermitian矩阵A 的多重特征值,并且其多重度为 m k ,那么 rank ( A − λ k I ) = n − m k ,因此任何一个Hermitian矩阵都满足可对角化定理的充要条件。因此,有U − 1 A U = Σ 。
重要定理
Hermitian矩阵的所有特征向量线性无关,并且相互正交。特征矩阵U = [ u 1 , … , u n ] 是酉矩阵,满足U − 1 = U T
证明过程:
首先证明不同特征值对应的特征向量是相互正交的
令λ 1 = λ 2 是Hermitian矩阵A对应的特征值,且其对应的特征向量分别是u 1 , u 2 ,则有:
u 2 T A u 1 = λ 1 u 2 T u 1
u 1 T A u 2 = λ 2 u 1 T u 2
对前一个式子取共轭,则有:
u 1 T A u 2 = λ 1 u 1 T u 2
因此有:λ 1 u 1 T u 2 = λ 2 u 1 T u 2 ,由于λ 1 = λ 2 ,所以 u 1 和 u 2 正交。
更进一步
对于若n × n 矩阵A,若λ k 是Hermitian矩阵A 的多重特征值,并且其多重度为 m k ,那么 rank ( A − λ k I ) = n − m k ,并 且A − λ k I 是可逆的。于是,方程( A − λ k I ) u = 0 的线性无关解。这些线性无关解是正交的。由于特征矩阵U的所有特征向量即线性无关,又相互正交,故U为酉矩阵,满足U U T = I ,即U T = U − 1
矩阵表示形式
对于Hermitian矩阵有:
正交相似形式:
U T A U = diag ( λ 1 , λ 2 , … , λ n )
矩阵分解形式(正交相似下的范式):
A = U Σ U T
求和形式:
A = i = 1 ∑ n λ i u i u i T
二次型表示
在最优化理论和信号处理中,二次型函数可表示为:
X T A x = i = 1 ∑ n λ i x T u i 2
逆矩阵表示
A − 1 的级数展开形式:
A − 1 = i = 1 ∑ n λ i − 1 u i u i T
因此若已知A 的特征值分解,可以很容易求出A − 1
定矩阵
给定一个Hermitian矩阵(即等于其共轭转置的复矩阵) M ,对于任意非零复列向量 z ,都有z H M z 都为正,则 M 是正定的。负定矩阵和负半定矩阵的定义类似,非正半定且非负半定的矩阵有时称为不定 矩阵。
对于对称实矩阵M:
M positive-definite ⟺ x ⊤ M x > 0 for all x ∈ R n ∖ { 0 }
M positive semi-definite ⟺ x ⊤ M x ≥ 0 for all x ∈ R n
M negative-definite ⟺ x ⊤ M x < 0 for all x ∈ R n ∖ { 0 }
M negative semi-definite ⟺ x ⊤ M x ≤ 0 for all x ∈ R n
同理对Hermitian矩阵M:
M positive-definite ⟺ z ∗ M z > 0 for all z ∈ C n ∖ { 0 }
等等...
矩阵M 是正定的当且仅当它满足以下任一等效条件。
M 与具有正实数项的对角矩阵 一致 。
M 是对称的或 Hermitian 的,并且它的所有特征值 都是实数且正的。
M 是对称的或 Hermitian 的,并且它的所有先导主次要函数 都是正的。
存在可逆矩阵 B M = B H B
如果矩阵满足类似的等效条件,其中“正”被“非负”替换,“可逆矩阵”被“矩阵”替换,并且单词“前导”被删除,则该矩阵是半正定矩阵。
正定和正半定实数矩阵是凸优化 的基础,因为,给定一个二次可微的 多个实数变量的函数 ,那么如果其Hessian 矩阵 (其二阶 偏导数矩阵)在点p 处是正定的 , 那么函数在p附近是凸 函数,反之,如果函数在 p 附近是凸函数 p , 那么 Hessian 矩阵在点p处是正半定的.