为什么要对博客进行机器自动分类

本质上,网络上的所有信息都是分类信息,无论是大型的网站浏览或是搜索引擎的搜索过程,都是利用分类来完成的,分类就像一把把开启房间的钥匙,使用他们我们才能获取我们想要的东西。
随着社交网络的兴起,在网上发博客及微博已经成了人们分享自己观点、经验和知识的重要手段。普遍的做法是,注册用户名和密码,然后到自己的主页中就可以发博客了。在发博客的时候我们可以自定义博文所属的分类,该分类是我们自定义的私有分类,而这些分类可以按照我们的喜好,可以设置的五花八门,而对于博客服务的提供商而言需要按照分类的形式把用户发表的文章集中起来,便于上网的其它用户可以非常便捷的找到他们,例如新浪博客就将所有的博文分类为娱乐、体育、文史、女性、股票、教育、星座、美食等15个大类。作为运营者,当然不能采用博主的私有分类来分类博客里面所有的文章,应为这些分类是不计其数的。而如何将所有博文都正确分类呢?当然一个最稳妥的做法是雇佣工作人员对所有的博客进行人工分类,如新浪可以找人对所有博客用户新发的博文针对其设置的那15个分类一一归类,而由于新浪博客的使用人数众多,每天发表的文章也是不计其数的,所有全人工的方式工作量将是巨大的。那么有没有一种更好的方式呢?可以考虑以下两种
1、用户投稿
让用户在发表博文的时候自己投稿到预设的分类中,这也是很多博客类网站使用的方式。因为,用户明白自己所写的内容是什么?所以可以给自己的所写内容选择最合适的分类。然而,这增加了用户的工作量。或者,如果有些用户不进行该操作,那么他所写的一篇可能非常好的文章就会错过“上头条”的机会,这对用户和网站本身都是不愿看到的结果。
2、对博客进行自动分类
利用机器学习算法,对用户所写的博客进行自动分类,由于自动分类的结果有时候可能不准确,那么我们可以使用该方法对所有的博客文章进行预分类,将结果给工作人员,工作人员只需要进行审核,对分类错误的文章进行分类的调整并将正确的结果反馈给分类器,以利于让分类器自动进化,从而实现预分类越来越准确。
目前很多网站都使用了用户投稿的方式,而这种方式我们也可以使用机器自动分类的结果提供给用户最贴切的分类建议,并且可以用机器分类弥补热门文章不能上头条的遗憾。对热门的文章如访问量大于多少或推荐次数大于多少的文章进行机器的自动分类并提交给工作人员,便于工作人员能够第一时间发现热门文章并进行分类,从而实现“热门文章上头条”。
所以,利用机器自动分类的方式来对博客或其它网络信息进行自动分类,在WEB2.0下的网络生态中是十分重要的。

本人首发 顶求网 转发请注明来源

原文地址:https://www.cnblogs.com/nerd/p/7093743.html