采集

<?xml version="1.0" encoding="utf-8"?>
<gathers>
  <gather>
    <!--&lt; < 小于号 &gt; > 大于号 &amp; & 和 &apos; " 单引号 &quot; " 双引号-->
    <gathertime>2012-7-28 12:09:09</gathertime>
    <!--1 按采集时间,2按采集页列表+时间,3 只按采集列表-->
    <gathertype>2</gathertype>
    <!--1 顺序,2倒序-->
    <gatherordery>1</gatherordery>
    <pagestart>1</pagestart>
    <pageend>3</pageend>
    <clickA>3000</clickA>
    <clickB>20000</clickB>
    <!--列表页-->
    <listA><![CDATA[>笑话列表</td>]]></listA>
    <listB><![CDATA[<span class="main_title">
]]></listB>
    <mlinkRex><![CDATA[<a href="([^>]*)" class="main_14" target="_blank" >([^>]*)</a>]]></mlinkRex>
    <mnameRex><![CDATA[散文,美文]]></mnameRex>
    <mdateRex><![CDATA[\d{4}(-)\d{1,2}(-)\d{1,2}]]></mdateRex>
    <listremovecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~&nbsp;~<img([^>]*)>]]></listremovecode>
    <!--详细页-->
    <nameRex><![CDATA[<h2>]]></nameRex>
    <nameRexB><![CDATA[</h2>]]></nameRexB>
    <!--1 采集url,2 图片下载到本地-->
    <picmode>1</picmode>
    <picRex></picRex>
    <stateRex></stateRex>
    <stateRexB><![CDATA[]]></stateRexB>
    <yearRex><![CDATA[qingganmeiwen,yc,xinxiu,shanggan,sanwen,suibi,ganrenwenzhang,renshengzheli]]></yearRex>
    <yearRexB><![CDATA[]]></yearRexB>
    <updatetimeRex></updatetimeRex>
    <updatetimeRexB></updatetimeRexB>
    <langRex><![CDATA[]]></langRex>
    <langRexB><![CDATA[]]></langRexB>
    <areaRex></areaRex>
    <areaRexB></areaRexB>
    <movetypeRex><![CDATA[查看此类型的所有笑话">]]></movetypeRex>
    <movetypeRexB><![CDATA[ </a>]]></movetypeRexB>
    <actorRex></actorRex>
    <actorRexB></actorRexB>
    <desA><![CDATA[<span id="text110">]]></desA>
    <desB><![CDATA[</span>]]></desB>
    <plistA><![CDATA[]]></plistA>
    <plistB><![CDATA[]]></plistB>
    <playlinkRex></playlinkRex>
    <!--本地type-->
    <playlinksplit><![CDATA[16,16,16,16,16,16,16,16]]></playlinksplit>
    <!--采集type-->
    <playlinksplitRex><![CDATA[12,1,4,8,18,15,20,23]]></playlinksplitRex>
    <itemname>lookmw</itemname>
    <charset>gb2312</charset>
    <playfrom>lookmw</playfrom>
    <playType>1</playType>
    <url>http://www.jokeji.cn</url>
    <playurl></playurl>
    <pageurl>http://www.jokeji.cn/keyword.asp?MaxPerPage=22&listtype=title&cid=0&me_page={0}</pageurl>
    <removecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~~<div([^>]*)>~</div>~<table([^>]*)>~</table>~<img([^>]*)>~&nbsp;~<iframe([^>]*)>~</iframe>~class="user_14"]] ></removecode>
    <!--语言-->
    <nextpageplay>1</nextpageplay>
    <linktype>1</linktype>
    <linkremovecode></linkremovecode>
  </gather>
</gathers>
原文地址:https://www.cnblogs.com/jiebian/p/2623086.html