Python——NumPy的使用

NumPy简介

Numpy提供了一个在Python中做科学计算的基础库，重在数值计算，主要用于处理多维数组（矩阵）的库。用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多。本身是由C语言开发，是个很基础的扩展，Python其余的科学计算扩展大部分都是以此为基础。

高性能科学计算和数据分析的基础包
ndarray，多维数组（矩阵），具有矢量运算能力，快速、节省空间
矩阵运算，无需循环，可完成类似Matlab中的矢量运算
线性代数、随机数生成

1、创建数组的3种方法

import random

import numpy as np


# numpy是帮助我们进行数值型计算的

a = np.array([1,2,3,4,5])

print(a)    # [1 2 3 4 5]
print(type(a))  # <class 'numpy.ndarray'>

b = np.array(range(1,6))
print(b)
print(type(b))


c = np.arange(1,6)
print(c)
print(type(c))

# dtype:查看数组中数据的类型
print(c.dtype)  # int64，默认是根据电脑位数来的

# 指定生成的数据类型
d = np.array([1,1,0,1],dtype=bool)
print(d)    # [ True  True False  True]


# numpy中的小数
e = np.array([random.random() for i in range(4)])
print(e)    # [0.8908038  0.4591454  0.38334215 0.08534364]
print(type(e))  # <class 'numpy.ndarray'>
print(e.dtype)  # float64

# 取数据的几位小数
f = e.round(2)  # 或者 f = np.round(e,2)
print(f)    # [0.92 0.27 0.07 0.94]

2、数组的形状

import numpy as np


# 数组的形状

a = np.array([[1,3,4],[3,5,6]])

print(a)
"""
二维数组
    [[1 3 4]
     [3 5 6]]
"""
print(a.shape)  # (2,3)，代表着2行3列的数组


b = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])

print(b)
"""
三维数组
    [[[1 2 3]
      [4 5 6]]
     [[1 2 3]
      [4 5 6]]]
"""
print(b.shape)  # (2, 2, 3)



# 由于上面这种写法（几维数组）过于复杂

c = np.arange(12)   # 生成一个一维数组
d = np.reshape(c,(3,4)) # 将1维数组转变成3*4的二维数组

print(d)
"""
3*4的二维数组
    [[ 0  1  2  3]
     [ 4  5  6  7]
     [ 8  9 10 11]]
"""


e = np.arange(24)
f = e.reshape((2,3,4))

print(f)
"""
2*3*4的三维数组，其中2表示块数，3行4列
    [[[ 0  1  2  3]
      [ 4  5  6  7]
      [ 8  9 10 11]]
      
     [[12 13 14 15]
      [16 17 18 19]
      [20 21 22 23]]]
"""

# 三种方式将3维数组f，转成1维数组

g = f.reshape((24,))    # 一定要有，  f.reshape((1,24))也行
h = f.reshape((f.shape[0]*f.shape[1]*f.shape[2],))
i = f.flatten()

print(g)
print(h)
print(i)

3、数组的计算

import numpy as np

# 数组的计算

a = np.array([i for i in range(12)])

b = a.reshape((3,4))    # 2维数组

print(b)
"""
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
"""
print(b+2)
"""
numpy会将数组中的所有元素+2，+—*/同理，下面看一个特殊的
    [[ 2  3  4  5]
     [ 6  7  8  9]
     [10 11 12 13]]
"""

# print(b/0)
"""
在numpy中，/0并不会报错，其中nan（not a number）代表未定义或不可表示的值，inf（infimum）表示无穷
    [[nan inf inf inf]
     [inf inf inf inf]
     [inf inf inf inf]]
"""


# 两个相同结构的数组的+——*/

c = np.array([1,2,3,4])
d = np.array([5,6,7,8])

e = c.reshape((2,2))
f = d.reshape((2,2))

print(e+f)
"""
e:
    [[1 2]
     [3 4]]
f:
    [[5 6
     [7 8]]
e+f:
    [[ 6  8]
     [10 12]]
"""


# 因为行的维度两个数组是相同的，所以会对每一行进行+——*/运算
# 多维中有一个（或以上）维度相同的话就可以进行计算
# 所有维度都不相同，无法进行计算

4、加载csv数据

"""
    加载csv数据
"""
us_file_path = "./youtube_video_data/US_video_data_numbers.csv"
uk_file_path = "./youtube_video_data/GB_video_data_numbers.csv"

"""
fname：文件路径
delimiter：数据分隔符（默认为空格）
dtype：数据类型
skiprows：跳过多少行
usecols：选取指定的列（元组类型）
unpack：是否转置
"""
aaa = np.loadtxt(fname=us_file_path,delimiter=",",dtype=int)

5、转置操作

a = np.array([i for i in range(12)])

b = a.reshape((3,4))

print(b)


"""
转置的3中方法
    转置：2维数组的行和列交换        
"""
print(b.T)

print(b.transpose())

# 交换0轴和1轴
print(b.swapaxes(1,0))

6、取行/列

"""
    取行/列
"""

# 取第3行
print(b[2])

# 取连续的多行（2～4行）
print(b[1:4])

# 取不连续的多行(1、3行)
print(b[[0,2]])

# 取第2列
print(b[:,1])

# 取连续的多列（1～3列）
print(b[:,0:3])

# 取不连续的多列（1，3列）
print(b[:,[0,2]])

# 取行列交叉的点（3行4列）
c = b[2,3]

print(c)
print(type(c))

#取多行和多列，取第3行到第五行，第2列到第4列的结果
#去的是行和列交叉点的位置
print(b[2:5,1:4])

#取多个不相邻的点
#选出来的结果是（0，0） （2，1） （2，3）
print(b[[0,2,2],[0,1,3]])

7、布尔索引、三元运算、裁剪

"""
    numpy中的布尔索引
"""

print(b)
"""
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
"""
print(b>5)
"""
[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
"""
# Demo：将数组中>5的值改成5
print(b[b>5])   # [ 6  7  8  9 10 11]

b[b>5] = 5


"""
    numpy中的三元运算
"""
# b中小于4的==>0，大于等于4的==>10
c = np.where(b<4,0,10)
# 注意：不会修改b，而是有一个返回值
print(c)

"""
    numpy中的裁剪
"""
# 小于10的替换成10，大于18的替换成18
b.clip(10,18)

8、numpy中的nan和inf

nan(NAN,Nan):not a number表示不是一个数字

什么时候numpy中会出现nan：

当我们读取本地的文件为float的时候，如果有缺失，就会出现nan
当做了一个不合适的计算的时候(比如无穷大(inf)减去无穷大)

inf(-inf,inf):infinity,inf表示正无穷，-inf表示负无穷

什么时候回出现inf包括（-inf，+inf）

比如一个数字除以0，（python中直接会报错，numpy中是一个inf或者-inf）

注意点：

inf和nan都是float类型

那么问题来了，在一组数据中单纯的把nan替换为0，合适么？会带来什么样的影响？

比如，全部替换为0后，替换之前的平均值如果大于0，替换之后的均值肯定会变小，所以更一般的方式是把缺失的数值替换为均值（中值）或者是直接删除有缺失值的一行

那么问题来了：

如何计算一组数据的中值或者是均值

常用的统计函数

求和：t.sum(axis=None)

均值：t.mean(a,axis=None) 受离群点的影响较大

中值：np.median(t,axis=None)

最大值：t.max(axis=None)

最小值：t.min(axis=None)

极值：np.ptp(t,axis=None) 即最大值和最小值只差

标准差：t.std(axis=None)

默认返回多维数组的全部的统计结果,如果指定axis则返回一个当前轴上的结果

Demo：将数组中的nan替换成平均值

import numpy as np


def fill_ndarray(t1):
    # 对每列进行操作
    for i in range(t1.shape[1]):
        # 获取当前列
        temp_col = t1[:,i]
        # 判断这列中有没有nan
        nan_number = np.count_nonzero(temp_col!=temp_col)
        if nan_number > 0:
            # 获取当前列中不为nan的数组
            temp_not_nan_col = temp_col[temp_col==temp_col]
            # 找出nan，替换成平均值，或temp_col(np.isnan(temp_col)) = temp_not_nan_col.mean()
            temp_col[temp_col!=temp_col] = temp_not_nan_col.mean()

    return t1


if __name__ == '__main__':
    t1 = np.arange(24).reshape((4, 6)).astype("float")
    # 将第二行的3列以后赋值为nan
    t1[1, 2:] = np.nan

    t2 = fill_ndarray(t1)

    print(t2)

numpy中的copy和view

a=b 完全不复制，a和b相互影响
a = b[:],视图的操作，一种切片，会创建新的对象a，但是a的数据完全由b保管，他们两个的数据变化是一致的，
a = b.copy(),复制，a和b互不影响

生成随机数

轴

二维数组的轴：

三维数组的轴：