Python爬虫学习笔记1:request、selenium、ChromeDrive、GeckoDriver等相关依赖安装

系列学习笔记参考:python3网络爬虫开发实战

requests

# pip install requests
import requests

selenium

Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 。 对于一些 JavaScript谊染的页面来说,这种抓取方式非常有效.

# pip install selenium
import selenium

ChromDriver

点击 Chrome菜单“帮助”→“关于 GoogleChrome”,即可查看 Chrome 的版本号.

在网站:http://chromedriver.chromium.org/downloads下载对应版本的文件,下载后解压文件到/usr/bin 里面

解决方法参考:https://www.cnblogs.com/silentdoer/p/8946946.html,感觉挺靠谱,不过我本机上没成功,没敢在捣鼓

尝试其他方式:

将当前可执行文件放在/usr/local/chromedriver 目录下(没有就自己新建一个),接下来可以修改~/.profile文件, 

export PATH=” $PATH:/usr/local/chromedriver" 保存后执行如下命令:

touch ~/.profile

 配置完成后,就可以在命令行下直接执行 chromedriver命令了:

chromedriver 

在python编辑器上执行

from selenium import webdriver
browser = webdriver.Chrome() 

闪退,报错,提示版本对不上(之前装过73版本的,在/usr/bin路径上),需要把该路径上的文件删除了。

解决方法,修改/usr/bin 下面的权限,参考:https://www.jianshu.com/p/c658973eb122,修改后重启,记得修改回来,修改回来脚本:csrutil enable

替换掉旧的就可以了

GeckoDriver 

Firefox来说, 也可以使用同样的方式完成 Selenium的对接,这时需要安装另一个驱动GeckoDriver

下载地址:https://github.com/mozilla/geckodriver/releases

步骤和上面一样,也是修改/usr/bin 的权限

from selenium import webdriver
brower = webdriver.Firefox()

PhantomJS

PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎,它原生支持多种 Web标准: DOM操作、 css选择器、 JSON、 Canvas以及 SVG。

Selenium支持 PhantomJS,这样在运行的时候就不会再弹出 一个浏览器了

 

不过鉴于目前selenium不在支持PhantomJS,这里不在进行安装。

相关新闻查看:http://www.sohu.com/a/224999034_100122143

 pyquery

pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文梢, 支 持 css选择器。

pip install pyquery

tesserocr

在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 :

brew install imagemagick
brew install tesseract --all-languages

接下来再安装 tesserocr即可: pip3 install tesserocr pillow

这样我们便完成了 tesserocr的安装

在用homebrew 安装的时候如果遇到update brew,解决方式参考:https://learnku.com/articles/18908

安装好后,试验下下面的图片,图片地址:

https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png

到图片路径下面,执行:

tesseract image.png result -l eng && cat result.txt 

结果:

嗷嗷

原文地址:https://www.cnblogs.com/zheng1076/p/11121561.html