数据集从哪里来?

在入门NLP之前,博主也是一头雾水,数据集不知道从哪里来,模型没法训练,故而对于模型及算法的细节得不到实现,更看不到模型运行后的效果,所以博主简单总结以下几点,当缺少数据集时该怎么办?

1.如果你的方向是CV,那么一般是对现有的数据做数据增强,图片做各种旋转、斜切、曝光等;不过最好的方式还是通过使用胶囊网络来进行学习,通过学习到各种角度问题来解决数据不足的问题;

2.如果你的方向是NLP,通过爬虫去收集一些商品或店铺的评价及分数,常用的爬虫有bs4,scrapy等常用框架,如有学习的需要,私聊我(超详细的资料哦);

3.互联网知名比赛所用数据集或其他公开的数据集,比如天池等,博主已经收集CV、NLP等一些常用的任务的数据集,如有需要,私聊我哦);

原文地址:https://www.cnblogs.com/xiezi1015/p/13027483.html