百度新闻搜索结果页的采集

采集需求示例说明:具体要求如下

采集页面:http://news.baidu.com/ns?kw=& ... p;word=%C0%ED%B2%C6

http://news.baidu.com/ns?kw=&sc=news&cl=2&tn=news&ct=0&rn=20&lm=&ie=&rs2=&myselectvalue=&f=&pv=&z=&from=news&word=%C0%ED%B2%C6

需要的就是这个页面的内容。
从<div id="r">开始的20条新闻信息。
信息后面的(“8条相同新闻”)这里的文字和链接不要
百度搜索结果每页标题都是相同,需要解决(我用的是dede,相同标题不能入库)

再说明一下,需要的就是这个页面的内容。再进去的站的内容不需要。应该明白?



这个是一个网友发给我的采集说明;
针对百度搜索结果的采集,分为3种情况:
1、直接采集百度搜索结果页面的内容,得到信息的标题,链接,信息的概述;
2、采集百度搜索结果页面的内容,得到网站名、网址,并排出重复;
3、采集百度搜索结果页面,得到对应信息链接,再采集信息链接得到最终结果;

本例中说明的是第一种情况;
一、先说说百度搜索结果的翻页参数;

http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=newsA&ie=gb2312&ct=0&word=%C0%ED%B2%C6&pn=(*)&cl=2


pn是页码的标记,但是和其他的翻页不一样的是,他并不是按照1、2、3、4往上排的,而是0、20、40、60往上加的。
截图说明:
baidusearch-采集地址.jpg


二、采集信息标题:
正则说明:

<td class="text"><a href="http://(*)target=_blank><span><b>[参数]</b>


baidusearch-标题.jpg


三、采集信息内容:
正则说明:<font color=#6f6f6f>[参数]et=_blank>百度快照</a>
baidusearch-内容.jpg


四、采集信息来源:
正则说明:<nobr>[参数]
baidusearch-作者.jpg


五、采集信息出处:
正则说明:<nobr>(*) [参数]</nobr>
baidusearch-出处.jpg


六、采集信息时间:
正则说明:<td class="text"><a href="[参数]"
baidusearch-时间.jpg


以上采集均使用了页面循环采集的勾选项;
用火车头的采集结果效果预览请看第二楼的回帖;

如果要下载写好的规则文件请访问:http://www.dataindex.org/dicontent-834-1-1.html
[采集规则] 百度搜索结果页系列采集规则

原文地址:https://www.cnblogs.com/wzg0319/p/2159883.html