JavaScript中的编码函数

JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：unescape,decodeURI,decodeURIComponent 。

下面简单介绍一下它们的区别

1、escape()函数

定义：

escape() 函数可对字符串进行编码，这样就可以在所有的计算机上读取该字符串。

用法：

escape(string)，参数 string 必需，表示要被转义或编码的字符串。

返回值：

已编码的 string 的副本。其中某些字符被替换成了十六进制的转义序列。

说明：

该方法不会对 ASCII 字母和数字进行编码，也不会对下面这些 ASCII 标点符号进行编码： - _ . ! ~ * ' ( ) 。其他所有的字符都会被转义序列替换。

2、encodeURI()函数

定义：

encodeURI() 函数可把字符串作为 URI 进行编码。

用法：

encodeURI(URIstring)，参数 URIstring 必需。是一个字符串，含有 URI 或其他要编码的文本。

返回值：

URIstring 的副本，其中的某些字符将被十六进制的转义序列进行替换。

说明：

该方法不会对 ASCII 字母和数字进行编码，也不会对这些 ASCII 标点符号进行编码： - _ . ! ~ * ' ( ) 。
该方法的目的是对 URI 进行完整的编码，因此对以下在 URI 中具有特殊含义的 ASCII 标点符号，encodeURI() 函数是不会进行转义的：;/?:@&=+$,#

3、encodeURIComponent() 函数

定义：

encodeURIComponent() 函数可把字符串作为 URI 组件进行编码。

用法：

encodeURIComponent(URIstring)，参数 URIstring 必需。一个字符串，含有 URI 组件或其他要编码的文本。

返回值：

URIstring 的副本，其中的某些字符将被十六进制的转义序列进行替换。

说明：

该方法不会对 ASCII 字母和数字进行编码，也不会对这些 ASCII 标点符号进行编码： - _ . ! ~ * ' ( ) 。
其他字符（比如：;/?:@&=+$,# 这些用于分隔 URI 组件的标点符号），都是由一个或多个十六进制的转义序列替换的。

注意：

请注意与 encodeURI() 函数的区别之处，encodeURIComponent() 假定它的参数是 URI 的一部分（比如协议、主机名、路径或查询字符串），因此 encodeURIComponent() 函数会转义用于分隔 URI 各个部分的标点符号。而 encodeURI() 函数是把字符串作为一个完整URI 进行编码的，不会对用于分隔 URI 各个部分的标点符号进行转义。

4、编码函数总结

通过对三个函数的分析，我们可以知道：escape()除了 ASCII 字母、数字和特定的符号外，对传进来的字符串全部进行转义编码，因此如果想对URL编码，最好不要使用此方法。而encodeURI() 用于编码整个URI，因为URI中的合法字符都不会被编码转换。encodeURIComponent方法在编码单个URIComponent（指请求参数）应当是最常用的，它可以将参数中的中文、特殊字符进行转义，而不会影响整个URL。

5、URI和URL的区别

URI，是uniform resource identifier，统一资源标识符，用来唯一的标识一个资源。

URL，是uniform resource locator，统一资源定位器，它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源。

URN，是uniform resource name，统一资源命名，是通过名字来标识资源，比如mailto:java-net@java.sun.com。

也就是说，URI是以一种抽象的，高层次概念定义统一资源标识，而URL和URN则是具体的资源标识的方式。URL和URN都是一种URI。总的来说，URL是一种具体的URI，它不仅唯一标识资源，而且还提供了定位该资源的信息。URI是一种语义上的抽象概念，可以是绝对的，也可以是相对的，而URL则必须提供足够的信息来定位，所以，是绝对的，而通常说的relative URL，则是针对另一个absolute URL，本质上还是绝对的。

6、一次编码的情况

一般情况下, 前台发送参数

var paramName = encodeURIComponent(parmeValue);

服务器接收时, 直接这样

String paramValue = request.getParameter(paramName); // 容器自动解码。

我们知道 encodeURIComponent 使用的是 UTF-8 编码规则来编的，如果 request.getParameter(paramName) 时，容器也按 UTF-8 解的话，是正确的，根本无须在客户端进行二次的编码。如果 request.getParameter(paramName) 时容器没有按 UTF-8 解的话,，结果只有一个，就是乱码!

容器按什么编码来解码，决定于 request.setCharacterEncoding(***) 或者服务器程序配置。如果你在 jsp 程序中能够设置页面编码方式为utf-8，并且修改服务器配置，让容器在接收 GET 提交的参数时使用 UTF-8。客户端提交前就不用二次编码, 接收时也只要直接 request.getParameter(paramName) 即可。

7、两次编码的情况

如果因为项目需要，不能指定容器使用何种编码规则来解码提交的参数，比如：需要接收来自不同页面，不同编码的参数内容时，这个时候，在客户端对参数进行二次编码，可以有效的避开“提交多字节字符”的这个棘手问题。

前端进行两次编码

var paramName = encodeURIComponent(encodeURIComponent(paramValue));

因为经过第一次编码，你的参数内容便不带有多字节字符了，成了纯粹的 AscII 字符串。(这里把第一次编码的结果叫成 [STR_ENC1] 好了。[STR_ENC1] 是不带有多字节字符的)，再编一次后，提交，接收时容器自动解一次（容器自动解的这一次，不管是按 GBK 还是 UTF-8 还是 ISO-8859-1 都好，都能够正确的得到 [STR_ENC1]）。然后，再在程序中实现一次解码，Java中可以这样解码

String paramValue = request.getParameter(paramName);

paramValue = URLDecoder.decode(paramValue, "UTF-8");

这样就可以得到提交的参数的原值了。

或者也可以这样做：

例如你的服务器编码是ISO-8859-1，后台接收到后按照服务器编码进行转码，也能得到提交的参数的原值，这样做的缺点是必须知道服务器编码。

String paramValue = request.getParameter(paramName);

paramValue = new String(paramValue.getBytes("ISO-8859-1"), "UTF-8");