爬虫第四节 http协议请求


# http协议请求
# 如果进行客户端与服务器之间的信息传递,我们0可以用HTTP协议请求进行
# 对于HTTP请求 主要分六种类型,各类型的作用如下
"""
1) GET请求：GET请求会通过URL网址传递信息，可以直接在URL中写上要传递的 信息，
    也可以由表单进行传递。如果使用表单进行传递，这表单中的信息会自动转为URL地址中的数据，
    通过URL地址传递。
2)POST请求：可以向服务器提交数据，是一种比较主流也比较安全的数据传递方式，
    比如在登录时，经常使用POST请求发送数据。
3)PUT请求：请求服务器存储一个资源，通常要指定存储的位置。
4)DELETE请求：请求服务器删除一个资源。
5 ) HEAD请求：请求获取对应的HTTP报头信息。
6) OPTIONS请求：可以获得当前URL所支持的请求类型。


"""


#(1)get请求
# https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1
# &tn=48021271_15_hao_pg&wd=hello&fenlei=256
# 可以发现，对应的査询信息是通过URL传递的，这里说采用的是HTTP请求中 的GET方法，
# 我们将该网址提取出来就行分析，
# 该网址为：https://www.baidu.com/ s?ie=utf8&wd=hello&tn=87048150_dg,
# 字段ie的值为utf8,代表的是编码信息，而字段wd 为hello
# ，所以字段wd应该存储的就是用户带检索的关键词。根 据我们的猜测，简化一下该网址，
# 可以简化为：https://www.baidu.com/s?wd=hello,
# 此时只 包含了对应的wd字段，即待检索关键词字段，将该网址复制到浏览器中，刷新一下，
# 发现 该网址也能够出现关键词为“hello”的搜索结果。
# 由此可见，我们在百度上査询一个关键词时，会使用GET请求进行，
# 其中关键性字段是wd,网址的格式是："https://www.baidu.com/ s?wd=关键词"
# 实际案例
import urllib.request

keywd = "hello"
url = "http://www.baidu.com/s?wd=" + keywd
req = urllib.request.Request(url)
data = urllib.request.urlopen(req).read()
fhandle = open("G:python爬虫精通Python网络爬虫源码书中源码/2.html", "wb")
fhandle.write(data)
fhandle.close()
# 接下来，我们将详细分析一下上面的代码。首先定义要査询的关键词，并赋 给keywd变量，
# 然后按照分析出来的URL格式，构造了对应的URL并赋值给对应的url变 量，
# 随后，使用urllib.request.Request()构建了一个Request对象并赋给变量req,
# 通过urllib. request.urlopen()打开对应的Request对象，
# 此时，由于网址中包含了 GET请求信息，所以会 以GET请求的方式获取该页面，
# 随后读取该页面的内容并赋值给data变量，
# 再将爬取到的 内容写入"G:python爬虫精通Python网络爬虫源码书中源码/2.html”网页文件中。


# 第二
# 注意
# 上面的代码有不完善的地方，如果我们要检索的关键词是中文，
# 如“韦玮老师”，若还 以上面的代码去执行，则会出现如下错误。
# UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-13:
# ordinal not in range(128)

import urllib.request

url = "http://www.baidu.com/s?wd="
key = "爬虫"
key_code = urllib.request.quote(key)
url_all = url + key_code
req = urllib.request.Request(url_all)
data = urllib.request.urlopen(req).read()
fh = open("G:python爬虫精通Python网络爬虫源码书中源码/3.html", "wb")
fh.write(data)
fh.close()

"""
通过以上实例我们可以知道，如果要使用GET请求，思路如下：
1 )构建对应的URL地址，该URL地址包含GET请求的字段名和字段内容等信息，并
   且URL地址满足GET请求的格式，即“http://网址？字段名1=字段内容1&字段名2=字 段内容2”。
2）以对应的URL为参数，构建Request对象。
3 ）通过urlopen（）打开构建的Request对象。
4）按需求进行后续的处理操作，比如读取网页的内容、将内容写入文件等。
   以上，我们为大家通过实例讲解了爬虫中如何使用GET请求，并总结了爬虫中使用 GET请求的基本步骤和思路。
"""

# (2)POST请求
# 我们在进行注册、登录等操作的时候，基本上都会遇到POST请求，
# 接下来通过实例来分析如何通过爬虫来实现POST请求。
# 由于登录需要用到Cookie的知识，所以关于如何登录这一块的内容，学完了 Cookie的知识之后，
# 再为大家详细介绍，在此，我们仅需要知道如何使用爬虫通过 POST表单传递信息即可。

# POST表单的测试网页，供学习时做测试使用，
# 网址为: http://www.iqianyue.com/mypost/打开对应网址，发现有一个表单
"""
       
姓名：【___________】
       
密码：【___________】

【单击提交】
        
"""


# 那么怎样通过爬虫自动实现这个传递过程呢？
# 因为这里所采用的传递方法是POST方法，所以如果要使用爬虫自动实现，我们要构造 POST请求，
# 实现的思路如下：
# 1）设置好URL网址。
# 2）构建表单数据，并使用urllib.parse.urlencode对数据进行编码处理。
# 3）创建Request对象，参数包括URL地址和要传递的数据。
# 4）使用add_header（）添加头信息，模拟浏览器进行爬取。
# 5 ）使用urllib.request.urlopen（）打开对应的Request对象，完成信息的传递。
# 6）后续处理，比如读取网页内容、将内容写入文件等。

# 首先，需要设置好对应的URL地址，分析该网页，在单击提交之后，会传递到当前面进行处理，
# 所以处理的页面应该是http://www.iqianyue.com/mypost/,
# 所以，URL应该设置为 http://www.iqianyue.com/mypost/"
# 然后我们需要构建表单数据，在该网页上右击“査看页面源代码”，找到对应的form表单部分，

# 可以发现，表单中的姓名对应的输入框中，name属性值为“name”,密码对应的输入框中，name属性值为“pass”，
# 所以，我们单位构造的数据中会包含两个字段，字段名分别是 “name”、“pass”，
# 字段值设置为对应的我们要传递的值。
# 格式为字典形式，即：
# {字段名1:字段值1,字段名2:字段值2,-}
# 所以，我们要构造的数据可以为("name":"ceo@iqianyue.com", "pass":"aA123456"},
# 将要传递的姓名设置为**ceo@iqianyue.com",要传递的密码设置为了 “aA123456”。
# 设置好数据之后，需要使用urllib.parse.urlencode对数据进行编码处理。
# 然后，我们还需要创建Request对象，参数包括URL地址和要传递的数据。
# 可以这样创建：req=urllib.request.Request (url 地址，传递的数据)。
# 接下来，可以使用add_header()添加头信息，模拟浏览器进行爬取，
# 并且使用urllib. request.urlopen()打开对应的Request对象，
# 完成信息的传递并进行后续处理等，这一部分内 容我们之前提过，这里不再赘述。
# 实例如下：
import urllib.request
import urllib.parse

url = "http://www.iqianyue.com/mypost/"
postdata = urllib.parse.urlencode({
    "name": "ceo@iqianyue.com",
    "pass": "aA123456"
}).encode('utf-8')  # 将数据使用urlencode编码处理后，使用encode()设置为utf-8编码
req = urllib.request.Request(url, postdata)
req.add_header('User-Agent',
               'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0')
data = urllib.request.urlopen(req).read()
fhandle = open("G:python爬虫精通Python网络爬虫源码书中源码/5.html", "wb")
fhandle.write(data)
fhandle.close()