4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小，占内存大小，图片数据结构，线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别，每个类别的颜色

压缩图片生成：以聚类中收替代原像素颜色，还原为二维

观察压缩图片的文件大小，占内存大小

from sklearn.datasets import load_sample_image
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import matplotlib.image as img
import sys
x_img = img.imread("C://大三下/xm1.jpg")  # 读取自己准备的图片
print("图片的大小：", x_img.size)
print("图片占用的内存:", sys.getsizeof(x_img))
print("图片的数据结构:
", x_img)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.imshow(x_img)  # 显示图片
plt.show()

原图片文件大小，占内存大小，图片数据结构

显示读取的图片：

# 用kmeans对图片像素颜色进行聚类
import numpy as np
# 降低图片3倍的分辨率
x_imgs = x_img[::3, ::3]
plt.imshow(x_imgs)
plt.show()
S = x_imgs.reshape(-1, 3)  # reshape()里面的数组形状第一个为-1，第二个为第二维元素的数目
print(x_imgs.shape, S.shape)
n_colors = 64
model = KMeans(n_colors)  # 对颜色进行聚类
labels = model.fit_predict(S)  # 获取每个像素的颜色类别
colors = model.cluster_centers_  # 每个类别的颜色
# 以聚类中收替代原像素颜色，还原为二维
new_img = colors[labels].reshape(x_imgs.shape)
print("每个像素的颜色类别:", labels)
print("每个类别的颜色", colors)

# 压缩图片
plt.imshow(new_img.astype(np.uint8))
plt.show()
# 二次压缩图片
plt.imshow(new_img.astype(np.uint8)[::3, ::3])
plt.show()

第一次压缩后的图片：

第二次压缩后的图片：

压缩后的图片大小、内存大小：

# 观察压缩图片的文件大小，占内存大小
print("压缩图片大小：", new_img.size)
print("压缩图片内存", sys.getsizeof(new_img))

原图片和压缩后图片的比较：

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一，单独进行评分。

读取一个月工资的数据，可以用K均值来判断个人工资的高收入

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd

data = pd.read_csv('salary.csv', encoding="utf-8")  # 读取数据
labels = list(data['salary'])  # 选取样本数据
model = KMeans(n_clusters=3)  # 进行聚类
data1 = np.array(labels)  # 进行类型转换
x = data1.reshape((-1, 1))   # 样本个数
model.fit(x)  # 模型训练
y = model.predict(x)  # 进行模型预测

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.scatter(y, x, c=y, s=50, cmap="rainbow")
plt.title("月薪资的散点图")
plt.show()

查看工资的数据：

进行模型构建，并且进行预测，得到预测结果：

数据可视化：