机器学习数学基础(一)

标量、向量、矩阵、张量

标量(scalar) 一个标量表示一个单独的数。它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector) 一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称。向量中的元素可以通过带脚标的斜体表示,向量 (X) 的第 (i) 个元素是 (X_i)。我们也会注明存储在向量中的元素的类型,实数、虚数等。

矩阵(matrix) 矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如 (A)

张量(tensor) 一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用 (A) 来表示张量“A”。张量 (A) 中坐标为 ((i,j,k)) 的元素记作(A_{(i,j,k)})

四者之间的关系 标量是 (0) 阶张量,向量是 (1) 阶张量。

张量和矩阵的区别

  • 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列),那么 (n) 阶张量就是所谓的 (n) 维的“表格”。张量的严格定义是利用线性映射来描述。
  • 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
  • 张量可以用 (3 imes 3) 矩阵形式来表示。
  • 表示标量的数和表示矢量的三维数组也可分别看作 (1 imes 1)(1 imes 3) 的矩阵。

向量和矩阵的范数

向量的范数

定义向量 (vec{a} = [-5, 6,8,-10]) 。设任意一组向量为 (vec{x} = (x_1, x_2, cdots, x_N))

  • 向量的 (1) 范数 向量的各个元素的绝对值之和。上述向量 (vec{a})(1) 范数结果就是 (29)

[Vert vec{x} Vert_1 = sum_{i = 1}^{N} |x_i| ]

  • 向量的 (2) 范数 向量的每个元素的平方和再开平方根。上述向量 (vec{a})(2) 范数结果就是 (15)

[Vert vec{x} Vert_2 = sqrt{sum_{i = 1}^{N}|x_i|^2} ]

  • 向量的负无穷范数 向量的所有元素的绝对值中最小的。上述向量 (vec{a}) 的负无穷范数结果就是 (5)

[Vert vec{x} Vert_{-infty} = min |x_i| ]

  • 向量的正无穷范数 向量的所有元素的绝对值中最大的。上述向量 (vec{a}) 的负无穷范数结果就是 (10)

[Vert vec{x} Vert_{+infty} = max |x_i| ]

  • 向量的 (p) 范数

[L_p = Vert vec{x} Vert_p = sqrt[p]{sum_{i = 1}^{N}|x_i|^p} ]

矩阵的范数

定义矩阵 (A=[-1, 2, -3; 4, -6, 6]) 。 任意矩阵定义为 (A_{m imes n}) ,其元素为 (a_{ij}) 。矩阵的范数定义为如下,当向量取不同范数时, 相应得到了不同的矩阵范数

[Vert{A}Vert_p :=sup_{x eq 0}frac{Vert{Ax}Vert_p}{Vert{x}Vert_p} ]

【注】: (sup E) 指集合 (E) 的上确界,即大于或等于 (E) 的所有其他元素的最小元素, 这个数不一定在集合 (E) 中。

  • 矩阵的 (1) 范数(列范数) 矩阵的每一列上的元素绝对值先求和,再从中取个最大的。即列和的最大值。上述矩阵 (A)(1) 范数先得到 ([5,8,9]) ,再取最大的最终结果 (9)

[Vert AVert_1=max_{1le jle n}sum_{i=1}^m|{a_{ij}}| ]

  • 矩阵的 (2) 范数 矩阵 (A^TA) 的最大特征值开平方根,上述矩阵 (A)(2) 范数得到的最终结果是 (10.0623) 。 其中, (lambda_{max}(A^T A))(A^T A) 的特征值绝对值的最大值。

[Vert AVert_2=sqrt{lambda_{max}(A^T A)} ]

  • 矩阵的无穷范数(行范数) 矩阵的每一行上的元素绝对值先求和,再从中取个最大的。即行和的最大值。上述矩阵 (A)(1) 范数先得到 ([6;16]) ,再取最大的最终结果就是 (16)

[Vert AVert_{infty}=max_{1le i le m}sum_{j=1}^n |{a_{ij}}| ]

  • 矩阵的核范数 矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵 (A) 最终结果就是 (10.9287)

  • 矩阵的 (L0) 范数 矩阵的非 (0) 元素的个数,通常用它来表示稀疏,(L0) 范数越小 (0) 元素越多,也就越稀疏。上述矩阵 (A) 最终结果就是 (6)

  • 矩阵的 (L1) 范数 矩阵中的每个元素绝对值之和,它是 (L0) 范数的最优凸近似,因此它也可以表示稀疏。上述矩阵 (A) 最终结果就是 (22)

  • 矩阵的 (F) 范数 矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的 (L2) 范数,它的优点在它是一个凸函数,可以求导求解,易于计算。上述矩阵 (A) 最终结果就是 (10.0995)

[Vert AVert_F=sqrt{(sum_{i=1}^msum_{j=1}^n{| a_{ij}|}^2)} ]

  • 矩阵的 (L21) 范数 矩阵先以每一列为单位,求每一列的 (F) 范数(也可认为是向量的 (2) 范数),然后再将得到的结果求 (L1) 范数(也可认为是向量的 (1) 范数),很容易看出它是介于 (L1)(L2) 之间的一种范数。上述矩阵 (A) 最终结果就是 (17.1559)

  • 矩阵的 (p) 范数

[Vert AVert_p=sqrt[p]{(sum_{i=1}^msum_{j=1}^n{| a_{ij}|}^p)} ]

矩阵的正定

如何判断一个矩阵为正定

  • 顺序主子式全大于 (0)
  • 存在可逆矩阵 (C) 使 (C^TC) 等于该矩阵;
  • 正惯性指数等于 (n)
  • 合同于单位矩阵 (E) ,即规范形为 (E)
  • 标准形中主对角元素全为正;
  • 特征值全为正;
  • 是某基的度量矩阵。
原文地址:https://www.cnblogs.com/solvit/p/11342271.html