小样本处理思路

需要解决的问题

现在有24类数据，对24类问题进行分类，每类的数据量只有10条数据。根据这些数据进行构建模型。

1.直接构建分类器进行文本分类

结果：

可想而知，由于数据量巨少，所以准确率只有1%

2.分类加实体提取相结合

主要思路：

首先对24类数据进行二分类，因为我处理的问题可以归为两个大类，首先对两个大类的数据进行标签备注，然后去除相关实体之后可以保证二分类效果更好。
在没有对实体进行去除的情况下，二分类的准确率为50%左右

实体提取方面，由于我的数据不是量比较少和实体不是通用实体，所以不能训练专门的模型去提取实体。我这边采用的解决方法是构建实体字典，去排除相关实体。（因为是为了实现需求，和数据量的限制，所以使用实体字典是方法最好的）。使用实体字典去除实体之后进行二分类的准确率是达到了88%。

在刚开始我也参考了网上很多的方法，说小样本训练的一些模型等等，但是相关博客也是较少，而且大都是简单的介绍一下，并未有真正的可以使用的代码。最后发现很多也是不可通用。一切还得根据实际需求来解决问题。

我会把我的相关代码和数据放在公众号里面，大家可以关注公众号“Python做些事”回复“小样本”，即可获取相关数据和代码。

祝大家在代码界一帆风顺，各位大佬，干杯