初窥语义搜索

什么是语义搜索

万维网之父Tim Berners-Lee的解释是

语义搜索的本质是通过数学来拜托当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式。

这个介绍是看不太懂的,我就简单的说一下我的理解:字面意思理解“语义”就是不单单看搜索的本质,我们平常的搜索用的一般都是关键字搜索,搜索内容也都是包含要搜的内容。语义搜索则是透过现象看本质,举个简单的例子:我们搜索“梦字去掉林”,语义搜索则是直接出现“夕”,不会去包含我们搜索内容。

语义搜索试图以人的方式理解自然语言

语义搜索的工作方式

语义搜索描述了搜索引擎尝试通过以下方式生成最准确的结果:
搜索者意图、
查询上下文、
单词之间的关系

例如,如果你问你的朋友“最大的哺乳动物是什么?”然后跟着这个问题说“它有多大?”你的朋友会明白“它”是指最大的哺乳动物:蓝鲸。

然而,在2013年之前,搜索引擎无法理解第二个问题的背景,谷歌不会回答“ 蓝鲸有多大”,而是寻求匹配“它有多大”这一短语中的特定关键词,并使用这些确切的关键词返回网页。

语音搜索的简史

知识图谱

知识图谱是2012年推出的,是Google在实现实体和上下文对关键字字符串的重要性的第一步 – 或者,正如谷歌所说,“事情,而不是字符串”。

知识图为即将进行的大规模算法更改奠定了基础。

作为一个庞大的公共信息数据库,知识图谱收集了被视为公共领域的信息(例如,到月球的距离,亚伯拉罕林肯的总统任期,“星球大战”的演员阵容等)以及每个实体的属性(人们有生日) ,兄弟姐妹,父母,职业等)。

蜂鸟###

Google的Hummingbird更新于2013年推出,可以说是我们今天所知的语义搜索时代的开始。

Hummingbird确保“符合意义的页面做得更好,而不是只匹配几个单词的页面” – 这意味着更好地匹配搜索者上下文和意图的页面将比重复无上下文关键字令人作呕的页面排名更好。

RankBrain

2015年,谷歌推出了RankBrain,这是一个机器学习系统,既是排名因素,也是智能查询分析AI。

像Hummingbird一样,RankBrain试图理解查询背后的用户意图,它们之间的关键区别是RankBrain的机器学习组件。

RankBrain始终在学习,分析性能最佳的搜索结果,并寻找用户认为有价值的页面之间的相似性。

因此,RankBrain可能认为页面对查询是“良好响应”,即使它不包含查询中的确切单词。

语义搜索流程

参考文章: https://zhuanlan.zhihu.com/p/39237778
https://www.simcf.cc/3587.html

原文地址:https://www.cnblogs.com/qiujichu/p/12911802.html