4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小，占内存大小，图片数据结构，线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别，每个类别的颜色

压缩图片生成：以聚类中收替代原像素颜色，还原为二维

观察压缩图片的文件大小，占内存大小

代码：

from sklearn.datasets import load_sample_image
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.image as img
import sys
china=load_sample_image('china.jpg')#原始图片
plt.imshow(china)
plt.show()

image=china[::3,::3]#降低原始图片的分辨率
plt.imshow(image)
plt.show()

#利用Kmeans对图片进行压缩
x=image.reshape(-1,3)#改变数组的形状
n_colors=64
model=KMeans(n_colors)
labels=model.fit_predict(x)
colors=model.cluster_centers_
new_image=colors[labels].reshape(image.shape)#然后用聚类中心的颜色代替原来的颜色值。
new_image=new_image.astype(np.uint8)

plt.imshow(new_image)#形成新的图片
plt.show()

#观察原始图片与新图片所占用内存的大小。
print("原始图片所占用内存大小：")
print(sys.getsizeof(china))
print("新图片所占用内存大小：")
print(sys.getsizeof(new_image))

#将原始图片与新图片保存成文件，观察文件的大小。
img.imsave('D:/STUDY/机器学习/china.jpg',china)
img.imsave('D:/STUDY/机器学习/new_china.jpg',new_image)

#以聚类中收替代原像素颜色，还原为二维：
colors

截图：

获取每个像素的颜色类别，每个类别的颜色

观察图片文件大小，占内存大小，图片数据结构，线性化

观察压缩图片的文件大小，占内存大小

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一，单独进行评分。

代码：

from sklearn.cluster import KMeans
import numpy as np
from sklearn.model_selection import train_test_split
# 测试数据
data = np.array([['Sunny', 'Hot', 'High', 'Weak'],
               ['Sunny', 'Hot', 'High', 'Strong'],
               ['Overcast', 'Hot', 'High', 'Weak'],
               ['Rain', 'Mild', 'High', 'Weak'],
               ['Rain', 'Cool', 'Normal', 'Weak'],
               ['Rain', 'Cool', 'Normal', 'Strong'],
               ['Overcast', 'Cool', 'Normal', 'Strong'],
               ['Sunny', 'Mild', 'High', 'Weak'],
               ['Sunny', 'Cool', 'Normal', 'Weak'],
               ['Rain', 'Mild', 'Normal', 'Weak'],
               ['Sunny', 'Mild', 'Normal', 'Strong'],
               ['Overcast', 'Mild', 'High', 'Strong'],
               ['Overcast', 'Hot', 'Normal', 'Weak'],
               ['Rain', 'Mild', 'High', 'Strong']])
Y = np.array(['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No'])
# 预测数据
X = np.array([['Sunny', 'Cool', 'High', 'Strong']])
#对数据进行处理
# 对测试数据的处理
data[data == 'Sunny'] = 1
data[data == 'Overcast'] = 2
data[data == 'Rain'] = 3
data[data == 'Hot'] = 1
data[data == 'Mild'] = 2
data[data == 'Cool'] = 3
data[data == 'High'] = 1
data[data == 'Normal'] = 2
data[data == 'Weak'] = 1
data[data == 'Strong'] = 2
# 对预测数据的处理
Y[Y == 'No'] = 1
Y[Y == 'Yes'] = 2
X [X == 'Sunny'] = 1
X [X == 'Cool'] = 3
X [X == 'High'] = 1
X [X == 'Strong'] = 2

print(data)


# 切割
Xtr,Xte,y_tr,y_te=train_test_split(data, Y, test_size=0.2)

#K-Mean算法
k_model=KMeans(n_clusters=3)# 3个聚类中心
k_model.fit(Xtr,y_tr)# 模型训练
y_pre=k_model.predict(X)#模型预测
if y_pre==2:
    y_pre = 'Yes'
elif y_pre==1:
    y_pre = 'No'
print('k均值算法的预测值：', y_pre)
截图：