小样本处理思路

需要解决的问题

现在有24类数据,对24类问题进行分类,每类的数据量只有10条数据。根据这些数据进行构建模型。

解决思路

1.直接构建分类器进行文本分类

结果:

可想而知,由于数据量巨少,所以准确率只有1%

2.分类加实体提取相结合

主要思路:

首先对24类数据进行二分类,因为我处理的问题可以归为两个大类,首先对两个大类的数据进行标签备注,然后去除相关实体之后可以保证二分类效果更好。
在没有对实体进行去除的情况下,二分类的准确率为50%左右

实体提取方面,由于我的数据不是量比较少和实体不是通用实体,所以不能训练专门的模型去提取实体。我这边采用的解决方法是构建实体字典,去排除相关实体。(因为是为了实现需求,和数据量的限制,所以使用实体字典是方法最好的)。使用实体字典去除实体之后进行二分类的准确率是达到了88%。

小结

在刚开始我也参考了网上很多的方法,说小样本训练的一些模型等等,但是相关博客也是较少,而且大都是简单的介绍一下,并未有真正的可以使用的代码。最后发现很多也是不可通用。一切还得根据实际需求来解决问题。

我会把我的相关代码和数据放在公众号里面,大家可以关注公众号“Python做些事”回复“小样本”,即可获取相关数据和代码。

祝大家在代码界一帆风顺,各位大佬,干杯

原文地址:https://www.cnblogs.com/qiujichu/p/13139474.html