爬虫笔记

1.chorm浏览器F12-检查-复制想要的东东的copy selector

大概长这样：#page_list > ul > li:nth-child(1) > a > img

要使用Beautifulsoup： imgs = soup.select('#page_list > ul > li:nth-of-type(1) > a > img')[0].get('lazy_src') 中间这个地方需要改掉

2.想爬多个页面可以使用：

for each_number in range(1,page_number): # 每页24个链接,这里输入的是页码

full_url = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)

3.分割字符串用split 如 a= www.baidu.com a.split('.')[-1] 这样就是提取com

　　删除字符用strip