记录一些爬虫的小细节

1.使用BeautifulSoup初始化用requests获取到的html文本时,有时候会出现乱码现象,只需要指定response.encoding = 'utf-8' 即可

2.有时候使用selenium定位元素时,定位代码没有问题,但是提示定位不到,这是因为页面中存在多个iframe标签,相当于多个子页面,你需要在相应的子页面里面选取你需要的元素,比如你在名为a的iframe当中选取名为b的Iframe,肯定时选取不到的,同时他的默认deafult-content是整个页面,不包含iframe,也就是说你切换到一个iframe当中选取完元素之后,如果你要在iframe之外选取其他元素,就需要切换回默认页面,总的来说就是看你要选取的元素在id为什么的iframe当中,然后切换到那个iframe当中即可,

browser.switch_to.default_content()    # 切换到默认代码快当中
browser.switch_to.frame("iframeResult")   #切换到id为iframeResult的代码块当中
原文地址:https://www.cnblogs.com/eenio/p/10784710.html