URL编码及解码原理

URL编码和Base64编码是不一样的，URL编码有专门的标准，目前Java11中使用的是RFC2396（参考：https://www.ietf.org/rfc/rfc2396.txt）。

在 java.net.URLEncoder 类的静态代码块中有如下代码：

dontNeedEncoding = new BitSet(256);
int i;
for (i = 'a'; i <= 'z'; i++) {
    dontNeedEncoding.set(i);
}
for (i = 'A'; i <= 'Z'; i++) {
    dontNeedEncoding.set(i);
}
for (i = '0'; i <= '9'; i++) {
    dontNeedEncoding.set(i);
}
dontNeedEncoding.set(' '); /* encoding a space to a + is done
                            * in the encode() method */
dontNeedEncoding.set('-');
dontNeedEncoding.set('_');
dontNeedEncoding.set('.');
dontNeedEncoding.set('*');

可以发现，除了 a-z、A-Z、0-9、-、_、.、*，不被编码外，其它的都得需要编码，其中空格会被替换为“+”号。

如果采用UTF-8编码的话，剩余的字符会转为字符对应的UTF-8编码的十六进制，然后在十六进制的每个字节前面添加一个“%”，比如“吴”的UTF-8编码十六进制是“E590B4”，一共占三个字节，所以，”吴“的URL编码是”%E5%90%B4“。

------------------------------我是博客签名------------------------------
座右铭：不要因为知识简单就忽略，不积跬步无以至千里。
版权声明：自由转载-非商用-非衍生-保持署名。
本作品采用知识共享署名 4.0 国际许可协议进行许可。
----------------------------------------------------------------------