搜索引擎使用

原视频https://www.bilibili.com/video/BV1w54y1q7uf

搜索引擎大致分为:爬虫,索引,搜索,排序4个阶段

爬虫需要遵循robots.txt,他会限制爬虫爬取信息

如淘宝就限制了百度的爬虫

 

 淘宝等网站限制一些爬虫爬取的原因我个人认为有3点:

1.可能爬取用户登陆后的一些信息,安全系数不高

2.影响网站内部推荐,影响流量

3.大量的爬虫访问爬取,对服务器请求多,影响其他用户体验

那么如何让搜索引擎更好的检索内容呢?

这是评论区的课代表记得的,比较完整

*标点符号均为英文,以谷歌为例,大部分百度或其他搜索引擎同样支持

1.准确搜索:

给关键词加上英文双引号 eg: “人工智能算法”

2. 排除关键词:

在搜索内容后面加上空格减号需要排除的关键词 eg: 苹果 -iPhone -iPad

3. 用OR逻辑搜索:

用大写的OR和空格隔开关键词 eg: 百度 OR 谷歌

4. 模糊搜索:用*代替文字或单词

eg: study * home

5. filetype:

在关键词后加上filetype:文件类型 eg: 高等数学 filetype:pdf

6. site:

在关键词后加上site:指定的网站 eg: 后浪 site:bilibili.com

7. inurl/allinurl:

site是在一个网站搜索,而inurl是在多个网站搜索

在关键词后加上inurl:需要筛选的url关键字,allinurl必须同时包含关键词 eg: 民法典 inurl:gov.cn

8. intitle/allintitle:

在关键词后加上intitle:需要筛选的title关键字,allintitle必须同时包含关键词 eg: machine learning intitle:stanford mit

9. define:

通过define:关键词得到准确定义 eg: define:internet

组合示例:"machine learning" -vision -drive site:stanford.edu filetype:pdf

原文地址:https://www.cnblogs.com/caishunzhe/p/13297779.html