爬虫---08.selenium

概念基于浏览器自动化的模块
自动化可以通过代码指定一系列的行为动作然后将其作用到浏览器中
pip install selenium
selenium和爬虫之间的关联
- 1.便捷的捕获到任意形式动态加载的数据（可见即可得）
- 2.实现模拟登陆

简单实例

注意：网页里可以直接复制xpath路径在代码部分右键

        from selenium import webdriver
        from time import sleep

        # 基于浏览器的驱动程序实例化一个浏览器对象

        bro = webdriver.Chrome(executable_path='./chromedriver')
        # 对目的网站发起请求
        bro.get('http://www.jd.com/')
        # 标签定位
        search_text = bro.find_element_by_xpath('//*[@id="key"]')
        search_text.send_keys('iphoneX')        # 向标签中录入数据

        btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
        btn.click()
        sleep(2)
        # 在搜索结果页面进行滚轮向下滑动的操作(执行JS操作：js注入)
        bro.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        
        -------------------------------------------------------------------------------------------------------------

        from selenium import webdriver
        from time import sleep
        from lxml import etree

        url = "http://scxk.nmpa.gov.cn:81/xk/"

        bro = webdriver.Chrome(executable_path='./chromedriver.exe')
        bro.get(url)
        page_text_list = []         # 每一页的页面源码数据
        sleep(1)

        # 捕获到当前页面对应的页面源码数据
        # 当前页面全部加载完毕后对应的所有数据
        page_text = bro.page_source
        page_text_list.append(page_text)

        # 点击下一页

        for i in range(2):
            next_page = bro.find_element_by_xpath('//*[@id="pageIto_next"]')
            next_page.click()
            sleep(1)
            page_text_list.append(bro.page_source)

        tree = etree.HTML(page_text)
        li_lst = tree.xpath('//*[@id="gzlist"]/li')
        print(li_lst)

        for li in li_lst:
            name = li.xpath('./dl/@title')[0]
            print(name)
        sleep(2)
        bro.quit()

selenium的弊端，效率低
动作链ActionChains 指的是一系列连续的动作(滑动动作)
selenium规避检测有的网站会检测请求是否为selenium发起, 如果是的话则该次请求失败规避检测的方法是使用浏览器接管技术
- 这里的步骤是原始的下边部分是另外看到的都没尝试过
  - 进入cmd 输入命令
  - chrome.exe --remote-debugging-port=9222 --user-data-dir='C:selenumAutomationProfile'
  - 对于-remote-debugging-port值可以指定任何打开的端口
  - 对于-usesr-data-dir标记指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件
  - 还有不要忘了在环境变量中PATH里将chrome的路径添加进去
  - 此时会打开一个浏览器页面，我们数据百度网址把它当成一个已存在的浏览器
- 步骤
  - 1.必须将你电脑中安装的谷歌浏览器的驱动程序所在目录找到。且将目录添加到环境变量中。
  - 2.打开cmd 输入上边的指令
    chrome.exe --remote-debugging-port=9222 --user-data-dir='C:selenumAutomationProfile'(后边跟的是一个空文件夹目录)
    指定执行结束后会打开你本机安装好的谷歌浏览器
  - 3.执行如下代码可以使用下边代码接管步骤2打开的真实的浏览器
```
          from selenium import webdriver
          from selenium.webdriver.chrome.options import Options
          chrome_options = Options()
          chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
          chrome_driver = 'C:Program Files(x86)GoogleChromeApplicationchromedriver.exe' #(本机安装好的谷歌驱动程序路径)
          driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=chrome_options)
          print(driver.title)
```

无头浏览器即无可视化界面的浏览器

谷歌无头浏览器（推荐）

phantomJs

点击查看代码

  from selenium import webdriver
  from selenium.webdriver.chrome.options import Options
  import time

  # 创建一个参数对象 用来控制chrome以无界面模式打开
  chrome_options = Options()
  chrome_options.add_argument('--headless')
  chrome_options.add_argument('--disable-gpu')

  # 创建浏览器对象
  browser = webdriver.Chrome(executable_path='./chromedriver', chrome_options=chrome_options)

  # 上网
  url = 'http://www.baidu.com'
  browser.get(url)
  time.sleep(3)
  # 截图
  browser.save_screenshot('baidu.png')
  print(browser.page_source)
  browser.quit()