坑爹的对GBK编码的字符进行url编码

url编码又叫百分号编码

现在的url编码十分混乱，都没有按照新标准来

对汉字都按照不同的编码后再进行url编码

2005年1月发布的RFC 3986，强制所有新的URI必须对未保留字符不加以百分号编码；其它字符要先转换为UTF-8字节序列,

然后对其字节值使用百分号编码。此前的URI不受此标准的影响。

假如大家都按照这个标准来进行url编码，就不会出现各种乱码的问题了。

现在来说说自己的苦恼：

url编码标准规定，对于那些不安全字符（保留字符，不可打印字符）需要进行编码，编码的格式是%xx，就是百分号后面加上两个16进制的字符。

对于汉字都是先转成特定编码格式如何gbk或者utf8格式。大家都知道gbk和utf8分别都是按照两个字节和3个字节来表示汉字。

所以大家看到对gbk编码格式的汉字的url编码大部分是%xx%xx，而utf8格式的url编码都是%xx%xx%xx

说到这里就郁闷了。。。。

有些服务器或者转码工具对与有些gbk编码格式的字符的url编码都不按照标准来，本来是%xx%xx形式的url格式，硬是要变成%xxx格式。

可怜的java.net.urldecoder类，不支持对%xxx这种url格式的解码。所以出现了乱码。

哎，出现了乱码，测试人员就要来找你了，快解bug。尼玛啊，编码问题，最头疼啊。。。

马上就谷歌和百度了一把，哎，都没有对我有实质性用处的东西啊。

一气之下，决定，自己去研究gbk编码标准规范，看看gbk汉字内码字库，研究研究上述%xxx格式出现的规律。

发现gbk字符有一字节和双字节编码，00–7F范围内是一位，和ASCII保持一致，此范围内严格上说有96个文字和32个控制符号。
之后的双字节中，前一字节是双字节的第一位。总体上说第一字节的范围是81–FE（也就是不含80和FF），

第二字节的一部分领域在40–7E，其他领域在80–FE。

对比字库发现，只要第二个字节在41-5a和61-7a都会在url编码中替换assii码表字母的形式。例如汉字“汚”gbk编码为9B41

而它的url编码变成了%9BA。

哎，哥们，你为啥要变成这样，感觉很多余啊，难道为了压缩网络传输的字节数，难道为了消除歧义（这个我看不出有啥歧义），

希望有机会能听大神解释一下，为啥要变成这样啊。。。

个人感觉变成这样，编码就对大小写敏感了。。

这里呼吁一下：希望以后都按标准来，要不然会坑死程序员，程序员伤不起。。。。