URL和URL编码

编码是个大学问,只做大致理解。
URL:Uniform Resource Locator 统一资源描述符,我们上网输入的网址就对应着一个网络资源。

只有字母和数字[0-9a-zA-Z]、一些特殊符号”$-_.+!*’(),”[不包括双引号]、以及某些保留字,才可以不经过编码直接用于URL。

如果 URL 中有除了以上字符外,都要经过编码,RFC1738 没有规定统一的编码方法,而是交给了浏览器去决定。
虽然地址栏上会看到中文字符,但

Unicode 编码

一种囊括世界上所有符号的编码方式,给所有符号都赋予一个独一无二的编码。然而 Unicode 编码却只是指定了符号的二进制代码,没有规定该二进制代码如何存储。

UTF-8 编码:互联网使用最广的 Unicode 实现方式

是 Unicode 编码的一种实现方式,使用变长的编码方式,用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8 编码规则://直接超过来了,以后再看

  • 对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
  • 对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

参考资料: 阮一峰————字符编码笔记

原文地址:https://www.cnblogs.com/Zhoust/p/14994607.html