从线性回归中学习到的编程技巧

以下列出了本人是学习线性回归算法时，所掌握的一些编程技巧

1.矩阵相减

matrix A是n*m，B是1*m

则A-B 表示A中的每行中对应列元素都减去B对应的列元素

2.对样本数据标准化处理

mean(A, 0) # 表示对A中的每一列取平均值，最后得到1*m的矩阵

var(A, 0) #表示对A中的每一列取方差，最后得到1*m的矩阵

所谓数据标准化：

首先对列数据求出期望（平均值）和方差，然后每列中的元素值减去均值，再将差值除以方差，得到标准化数据。

标准化数据的意义在于：表示对每个特征值的数据同等重要。

3.利用zeros和ones构建多维矩阵

wArr = zeros((n, m))

wArr = ones((n, m))

这两个方法的使用重点是，输入参数的数据类型为元数据。而外面的括号只是函数输入参数时的基本属性。函数调用，参数当然需要用括号括起来啊。

4.list转array

list只是基本数据结构，并没有过多的操作（如：shape，argsort等），这个时候，可以将list转化numpy中的array，继而转化成mat（或matrix）

5.range和arange

循环的基本结构是for ... in ...

range：产生一个python的基本类型list

arange：产生一个numpy的数组array，继而可通过reshape转化成自己想要的n*m维行列式数组，如reshape((4,2))，注意参数都需要元数据，因为不需要改变数据啊。

6.对n*n的矩阵（即行列式）求解行列式值：

若linalg.det(A) == 0.0，则数据矩阵A为奇异矩阵，不能够求解逆矩阵，因为有逆矩阵的充要条件为矩阵非奇异（满秩）。

小注：

linear algebra表示线性代码；

algebra发音为：英 /ˈældʒɪbrə/ 美 /ˈældʒɪbrə/ ；

7.python中参数的传递方式

是引用传递，所以针对mat和array时，若是函数中的操作会改变参数的值，那就需要copy一份出来

一般整数（浮点数）有无穷大和无穷小，inf表示无穷大，那么-inf就是无穷小，float(inf)和float(-inf)

8.numpy.insert

numpy.insert可以有三个参数（arr，obj，values），也可以有4个参数（arr，obj，valuse，axis）

arr：是一个数组，可以是一维或多维，在arr的基础上插入元素

obj：元素插入的位置，从0开始

values：需要插入的数值，需要数组形式，如ones((1,77))

axis:没有时，对arr进行flatten处理，若为1，表示列的方向插入，如下所示：

>>> a = np.array([[1, 1], [2, 2], [3, 3]])
>>> a
array([[1, 1],
       [2, 2],
       [3, 3]])
>>> np.insert(a, 1, 5)
array([1, 5, 1, ..., 2, 3, 3])
>>> np.insert(a, 1, 5, axis=1)
array([[1, 5, 1],
       [2, 5, 2],
       [3, 5, 3]])

9. nonzero

nonzero(a)，表示如下意思：

1.只有a中非零元素才会有索引值，那些零值元素没有索引值；

2.返回的索引值数组是一个2维元数组，该tuple数组中包含一维的array数组。其中，一维array向量的个数与a的维数是一致的；

3.索引值数组的每一个array均是从一个维度上来描述其索引值。比如，如果a是一个二维数组，则索引值数组有两个array，第一个array从行维度来描述索引值；第二个array从列维度来描述索引值；

4.transpose(np.nonzero(x))函数能够描述出每一个非零元素在不同维度的索引值。

5.通过a[nonzero(a)]得到所有a中的非零值；

举例：

    x = array([[1,0,0], [0,2,0], [1,1,0]])
    print(nonzero(x))

--------------------
结果：
(array([0, 1, 2, 2], dtype=int64), array([0, 1, 0, 1], dtype=int64))

从这里可以nonzero只获取非零元素的索引值，若是二维数据的话，结果是返回二维数据中对应索引值，

第一个数组表示行索引，第二个数组表示列索引。

举例二：

        testMat = mat(eye(4))

        print(testMat)
        testMat

        print(transpose(nonzero(testMat)))
        print(testMat[nonzero(testMat)])

-------------------------------------------------------
结果：
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[0 0]
 [1 1]
 [2 2]
 [3 3]]
[[1. 1. 1. 1.]]

从上述代码中可以看到：transpose(nonzero(testMat))获得了不等于0的元素索引值（由于是二维的，所以会有行列两个数）

而testMat[nonzero(testMat)]则是矩阵通过索引获取子矩阵，从而得到了不等于0的元素。所有的元素构成1*n的矩阵。

小结：就会获取数组a中非零元素的索引值，其实就是很简单啊

10.mean

mean() 函数定义：
numpy.mean(a, axis, dtype, out，keepdims )

mean()函数功能：求取均值
经常操作的参数为axis，以m * n矩阵举例：

axis 不设置值，对 m*n 个数求均值，返回一个实数
axis = 0：压缩行，对各列求均值，返回 1* n 矩阵
axis =1 ：压缩列，对各行求均值，返回 m *1 矩阵

参考：https://blog.csdn.net/lilong117194/article/details/78283358

11.numpy中std、var和cov

var：为方差，均方差，也可以先计算均值，然后计算每个差值再平方，最后相加并除以数据个数，即为均方差。

std：为标准方差，就是var的平方根

cov：协方差，和var类似，但是分母是N-1