社区智慧+机器智能=奇虎经验的知识机器人

 订阅郑昀到抓虾  google reader   订阅郑昀到鲜果
    奇虎经验的知识机器人。
   
    请看

http://jingyan.qihoo.com/wenda.php?do=topic&b=health&tid=1812621

http://jingyan.qihoo.com/wenda.php?do=topic&b=beauty&tid=1811805

的下面跟帖者。
    没错,这是机器人。这一定不是幻觉。
    这个帖子算是揉合了社区智慧+机器智能。而机器智能又偏偏是基于社区智慧而来,只不过是奇虎机器人基于百度知道、雅虎知识堂、小i机器人、爱问甚至是中小论坛的社区智慧。
    这种奇虎机器人相当于把奇虎经验凌驾于众多知识问答网站之上,让奇虎经验社区的用户无偿回答问题,还让其他知识网站给它打工。

    它的思路,估计来自于:
1:360doc给CSDN的论坛做的相似问题提示系统;
2:小i机器人的关键词搜索问答模式。

    据谭晨辉说,各大搜索公司都会玩这个,因为确实对于搜索引擎来说,实施不难。

    那么,它真的是机器人吗?有没有人工的成分呢?我相信是有的。证据就在 http://jingyan.qihoo.com/wenda.php?do=topic&b=beauty&tid=1811805 里。

    以前天大有个项目,也是扒下百度知道、爱问等著名知识问答的所有知识,然后允许用户自然语言搜索,通过计算自动给出所有符合的答案(甚至涉及到关键词在回答中的词之间的距离远近计算),按照相关度排序。
    但,奇虎经验的这一招,技术层面上简单明了而且切实可行,仅仅用了关键词简单搜索就做到了。确实是事半功倍的好办法。

    由于奇虎根深蒂固的只会关键词搜索,所以,奇虎知识机器人效果不会好到出人意料。当然,如果问题是简单的一句话,关键词不具有模糊性,应该可以有很好的答案匹配,毕竟很多问题在其他知识网站里已经整理好了,轻轻松松就匹配对了。

    但如果关键词过多,或提问很长,那么机器匹配的出差错机率还是蛮大的,不过这时候机器人可能会藏拙,我猜它有一个什么评价机制保证机器人不擅自发言,也就是保证匹配度不高的回答它就不贴了。这个匹配度,要么还是从关键词上斟酌,要么还是人工来保证。

    奇虎聚客,想法很棒,但是效果不好,就是这个原因。

    比如前面举的那个例子,很显然,疾病+遗传就是关键词。难得是,一定能找出很多匹配的答案,如何优选出最好的那个答案,是一个问题。这也就是上面说的评价机制。

    随之而来的就是,我为什么要相信这个信息。你这个智能机器人为什么这么回答。
    为什么存在这个问题呢?因为很多知识网站强调的是回答者的权威性,比如雅虎知识堂,你回答多少多少个问题,其中多少个问题回答对了被发问者奖励积分,等等措施保证了回答者的社区影响力。
    但机器人抽取答案自动回复之后,原来的社区影响力就不复存在了。
    那么,正如bloves所言,信息的信用问题就凸显了。

    不过,不管怎么样,奇虎的这个设计和最终实施效果还是让人赞赏的,虽然不知道里面到底揉合了多少人工编辑成分,但是小i机器人完全可以从中学习学习,而少去琢磨什么语义搜索。

郑昀@海内 20080107 
原文地址:https://www.cnblogs.com/zhengyun_ustc/p/jingyan_robot.html