crawler_URL编码原理详解

经常写爬虫的童鞋,难免要处理含有中文的url,大部分时间,都知道url_encode,各个语言也都有支持,今天简单整理下原理,供大家科普

1、特征:

  如果URL中含有非ASCII字符的话, 浏览器会对URL进行URL_ENCODE, 然后发送给服务器. URL_ENCODE的过程就是把URL作为字符按照某种编码方式(GBK, UTF-8等)编码成二进制的字节码,然后每个字节用一个包含3个字符的字符串 "%xy" 表示,其中xy为该字节的两位十六进制表示形式。

    URLencode到底按照那种编码方式对字符编码?这里就是浏览器的事情了,而且不同的浏览器有不同的做法,中文版的浏览器一般会默认的使用GBK,通过设置浏览器也可以使用UTF-8,不同的用户就有不同的浏览器设置,也就造成不同的编码方式,所以很多网站的做法都是先把url里面的中文或特殊字符用javascript做URL encode,然后再拼接url提交数据,也就是替浏览器做了URLencode,好处就是网站可以统一get方法提交数据的编码方式。 完成了URLencode

网页的charset是告诉浏览器用什么编码对网页进行解释, 而且也可以

2、流程图:

原URL---->GET时浏览器根据HTTP头的Content-Type的charset,POST根据(<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>)对URL进行编码或者利用JavaScript(如果JavaScript编码了则浏览器一看都是ASCII字符就不再编码)使用GBK或者UTF-8等编码对URL进行编码---->全为ASCII字符---->以iso-8859-1编码方式转换为二进制---->随请求头一起发送出去(GET没有请求实体, POST有)---->服务器接收到经过iso-8859-1编码后的URL---->服务器用iso-8859-1编码进行解码---->网页一般都有meta头的charset选项, 服务器根据此进行再次解码(POST表单提交过去的时候也会根据此编码进行编码)---->得到正确的值

原文地址:https://www.cnblogs.com/cphmvp/p/4797720.html