用户搜索意图几点总结

query意图搜索模块-意图解析
1.对比通用搜索，boss求职搜索是结构化召回
2.ner是指导召回关键信号
在实际场景下，doc端的数据会包含很多结构化的字段，不同字段之间的语义差距会非常大，如果我们进行全字段检索，经常会出现一些语义漂移问题。比如，搜"销售专员"，可能会找到"临时工"，
因为它的字段里面包括"不是销售专员"，所以需要结构化召回来保证更高的精度。
3.mention挖掘，其实就是实体的一个别名，用来扩大实体链接召回
4.对召回的query做消歧排序，返回最相关的top query
5.相关性模型，期望-query相关性，核心词识别。找出每个query中的token权重，中心词搜索权重最高
6.改写，自然语言表达多样。1)query和doc的表达差异，小孩游泳->儿童游泳；2)一词多义，理发->剪发、发型设计；3）一词多义，结婚照->婚纱照，结婚证件照
给老板开车
7.长尾词收益，搜索量很小，但每天都有搜索量："幼儿园英语老师男"，幼儿园、英语老师、男，要重职类即："英语老师"权重最大

进一步地，还可以利用前面介绍的二部图迭代、深度语义匹配、Seq2Seq 翻译生成等 query 扩展方法从搜索点击弱监督行为中先挖掘出语义表达相近的 query-query、item-item 或 query-item 短语对，
然后再将语义相近的 query/item 短语对进行语义对齐，对齐的话可以采用一些规则的方法，也可以采用传统的统计翻译模型如 IBM-M2 进行对齐，
语义对齐后从中抽取出处于相同或相近上下文中的两个词语作为同义词对候选，然后结合一些统计特征、词语 embedding 相似度以及人工筛选等方式进行过滤筛选。

基于<query, title>的词权重分析方法
由于搜索引擎在根据用户提交的query在互联网上搜索相应的内容时，需要根据query中每个词term的重要性调整搜索策略，而query中的term出现在query对应的title中的次数越多说明
query中该term越重要。因此，统计<查询，标题>对中的词片段中每个词的出现情况信息，确定相同词片段中每个词的出现概率
方法：对query进行分词，得到query中的每一个term和相邻两个及以上的term组成的词组即所说的词片段，并统计词片段中每个term在其对应的title中的出现情况信息。
统计query中term在title里是否出现，并且把出现情况信息通过词片段的value值进行输出，进一步的根据每个词片段的value值统计相同词片段中每个term在title中的出现概率，由此得到
词片段中各个term的权重信息。

查询query扩展思路

查询词扩展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法, 更准确地描述用户的信息需求, 去除用户查询词的多义性, 从而更精确地查询用户所需信息。在信息检索技术中, 查询词扩展是一种能够有效提高查询效率的技术。通过用户搜索日志和点击日志可以挖掘出查询扩展词。

我们在实践中采用一种基于搜索日志会话局部上下文和全局上下文为语料库使用 word2vec 构建 skip-gram 词向量模型，根据词向量模型可以取得与查询词最相似的前 N 个词构成初步的相关候选词表，然后再利用 K 近邻算法从相关词候选词表选取出语义最相关的候选词作为查询词的扩展词。

搜索日志会话局部上下文是指与当前 query 在同一个会话上下文中的共现 query, 也是用户对 query 的查询重构，比如初始 query 为“变形金刚”，用户在查询会话中可能将 query 变换为 “变形金刚电影”进行搜索，则“变形金刚电影”为原始 query 的局部上下文。

query 的全局上下文挖掘思路：

根据查询词和查询所点击的结果构建二部图，利用随机游走模型计算出每个查询词的文档分布作为查询词的查询向量，再利用 KL 距离来计算两查询向量之间的相似性。

时刻记着自己要成为什么样的人！