基于支持向量机的分类模型和回归模型案例

'''
    案例：事件预测----加载event.txt，预测某个时间段是否会出现特殊事件。步骤如下：
        1.数据预处理：
            1>.读取文件，加载data数组，删除索引为1的列
            2>.针对每一列做编码，离散数据使用LabelEncoder,连续的数字数据使用DigitEncoder(需要自定义),编码器需要保存
            3>.整理数据集，划分测试集和训练集
        2.训练SVM模型分类器
        3.对测试集进行预测
        4.自定义测试数据，实现事件预测
        5.画图
'''
import numpy as np
import matplotlib.pyplot as mp
import sklearn.preprocessing as sp
import sklearn.model_selection as sm
import sklearn.svm as svm
import warnings

warnings.filterwarnings('ignore')


class DigitEncoder:
    # 自定义编码器：针对数字字符串做标签编码
    def fit_transform(self, y):
        return y.astype('i4')

    def transform(self, y):
        return y.astype('i4')

    def inverse_transform(self, y):
        return y.astype('str')


data = []
with open('./ml_data/event.txt', 'r') as f:
    for line in f.readlines():
        data.append(line[:-1].split(','))
data = np.array(data)
# 删除第二列
data = np.delete(data, 1, axis=1)
print(data.shape)
# 整理输入集与输出集
encoders, x, y = [], [], []
data = data.T
for row in range(len(data)):
    # 判断每个特征值是否为数字
    if data[row][0].isdigit():
        encoder = DigitEncoder()
    else:
        encoder = sp.LabelEncoder()

    if row < len(data) - 1:
        x.append(encoder.fit_transform(data[row]))
    else:
        y = encoder.fit_transform(data[row])

    encoders.append(encoder)

x = np.array(x).T
# print(x)
# print(y)

# 拆分测试集与训练集
train_x, test_x, train_y, test_y = sm.train_test_split(x, y, test_size=0.25, random_state=7)

# 交叉验证
model = svm.SVC(kernel='rbf', class_weight='balanced')
scores = sm.cross_val_score(model, train_x, train_y, cv=5, scoring='f1_weighted')
print('交叉验证平均得分：', scores.mean())

model.fit(train_x, train_y)

# 测试集测试
pred_test_y = model.predict(test_x)
print('预测精度：', (test_y == pred_test_y).sum() / test_y.size)

# 对测试数据进行测试
data = [['Tuesday', '13:30:00', '21', '23'],
        ['Thursday', '13:30:00', '21', '23']]

# 对测试数据进行编码
data = np.array(data).T
test_x = []
for row in range(len(data)):
    encoder = encoders[row]
    test_x.append(encoder.transform(data[row]))
test_x = np.array(test_x).T
# print(test_x)
pred_test_y = model.predict(test_x)
pred_test_y = encoders[-1].inverse_transform(pred_test_y)
print('预测结果为: ', pred_test_y)


输出结果：
(5040, 5)
交叉验证平均得分： 0.9458699461165295
预测精度： 0.9476190476190476
预测结果为:  ['noevent' 'noevent']

'''
    案例：交通流量预测(回归)。步骤如下：
        1.数据预处理：
            1>.读取文件，加载data数组，删除索引为1的列
            2>.针对每一列做编码，离散数据使用LabelEncoder,连续的数字数据使用DigitEncoder(需要自定义),编码器需要保存
            3>.整理数据集，划分测试集和训练集
        2.训练SVM模型回归器
        3.对测试集进行预测
        4.自定义测试数据，实现事件预测
        5.画图
'''
import numpy as np
import matplotlib.pyplot as mp
import sklearn.preprocessing as sp
import sklearn.model_selection as sm
import sklearn.svm as svm
import warnings
import sklearn.metrics as mm

warnings.filterwarnings('ignore')


class DigitEncoder:
    # 自定义编码器：针对数字字符串做标签编码
    def fit_transform(self, y):
        return y.astype('i4')

    def transform(self, y):
        return y.astype('i4')

    def inverse_transform(self, y):
        return y.astype('str')


data = []
with open('./ml_data/traffic.txt', 'r') as f:
    for line in f.readlines():
        data.append(line[:-1].split(','))
data = np.array(data)

# 整理输入集与输出集
encoders, x, y = [], [], []
data = data.T
for row in range(len(data)):
    # 判断每个特征值是否为数字
    if data[row][0].isdigit():
        encoder = DigitEncoder()
    else:
        encoder = sp.LabelEncoder()

    if row < len(data) - 1:
        x.append(encoder.fit_transform(data[row]))
    else:
        y = encoder.fit_transform(data[row])

    encoders.append(encoder)

x = np.array(x).T
# print(x)
# print(y)

# 拆分测试集与训练集
train_x, test_x, train_y, test_y = sm.train_test_split(x, y, test_size=0.25, random_state=7)

# 基于支持向量机的回归模型-----epsilon为支持向量间距
model = svm.SVR(kernel='rbf', C=10, epsilon=0.2)
model.fit(train_x, train_y)

# 测试集测试
pred_test_y = model.predict(test_x)
# 模型得分
score = mm.r2_score(test_y, pred_test_y)
print('r2得分: ', score)

# 对测试数据进行测试
data = [['Tuesday', '13:30', 'San Francisco', 'yes'],
        ['Thursday', '13:30', 'San Francisco', 'no']]

# 对测试数据进行编码
data = np.array(data).T
test_x = []
for row in range(len(data)):
    encoder = encoders[row]
    test_x.append(encoder.transform(data[row]))
test_x = np.array(test_x).T
# print(test_x)
pred_test_y = model.predict(test_x)
pred_test_y = encoders[-1].inverse_transform(pred_test_y)
print('预测结果为: ', pred_test_y)


预测结果：
r2得分:  0.6484595603352119
预测结果为:  ['24.111978908657576' '23.61904092888905']