搜索技术(2)

自然语言处理

  基于规则

  基于统计

统计语言模型

中文分词

  梁南元--查字典

  郭进--统计语言模型

  Basis Technology 通用分词器

  葛显平、朱安

隐含马尔科夫模型

信息熵

贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特

统计语音识别和自然语言处理

雅让斯基、布莱尔


阿米特.辛格


搜索引擎:自动下载尽可能多的网页---》建立快速有效的索引---》根据相关性对网页进行公平准确的排序

搜索原理:下载----》索引-----》排序

布尔代数:George Boole:与、或、非

莱布尼兹


图论:网络爬虫:遍历

欧拉----图论

DFS:深度优先搜索、广度优先搜索

哈希表

如何构建一个网络爬虫?----》如何在有限时间里最多地爬下最重要的网页?

网络爬虫:分布式系统:成千上万的服务器

浏览器内核工程师---》网络爬虫解析程序


 网页排名技术

PageRank:

  网页链接、承认和依赖

  二维矩阵相乘

  稀疏矩阵计算

  2003:MapReduce

  整个互联网--整体--系统论

  相关性:网页内容与查询语句、网页之间的联系


查询与内容相关性

关键词的频率:单文本词频:Term Frequency

萨尔顿 Salton IDF


地图和本地搜索:有限状态机和动态规划

地址匹配技术、有限状态机

有限状态机:AT&T:莫瑞、皮耶尔、瑞利

全球导航和动态规划(Dynamic Programming)

  寻找全程最短路线---》寻找局部最短路线


辛格、马特.克茨、马丁.柯斯尔基

作弊问题:Spam

乌迪.曼波、费尔南多.皮耶尔


密码学

凯撒大帝

亚德丽:独臂海盗:中国黑室

RSA:李维斯特Rivest、沙米尔Shamir、阿德尔曼Adleman

香农:信息论,信息检索,现代密码学

冯诺依曼:现代电子计算机、博弈论


搜索引擎反作弊

搜索引擎优化者、SEO

余弦距离、余弦定理


最大熵原理、最大熵模型


柯林斯

布莱尔


马尔科夫链:贝叶斯网络

  主题、概念、关键词:Phil Cluster

原文地址:https://www.cnblogs.com/defineconst/p/4296033.html