写一个简单的爬虫(博客)

          写一个简单的爬虫,用来爬去一个网站上的html,css这些静态文件,Python3.0实现,re模块写正则表达式来匹配页面上的js和css文件名,使用os模块创建存放文件的文件夹,代码如下:

        先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录,core(获取HTML的代码和工具代码文件,get_html.py,tools.py)

       1. start.py主要是运行主程序的,代码实现如下:

         

       2. get_html.py代码实现如下:

         

       3. tools.py主要实现文件写操作,代码如下:

        

       4.settings.py主要实现目标目录的拼接,代码如下:

       

       5.extra.py代码实现如下:

        

       

        

原文地址:https://www.cnblogs.com/wangguoyuan-09/p/7048037.html