问题
最近发现一个问题,后台Java代码使用new URL(url)
方式发起一个POST请求,模拟表单提交操作,从后台提交数据到服务器端。当客户端的数据中带加号时,服务器端的Servlet使用request.getParameter('param')
得到的数据加号被变为了空格。比如:客户端发送的数据为aa+aa
,服务器接收到的数据变为了aa aa
。
简单写了几句代码验证一下:
1 | String str = "aaa+aaa aaa%2B"; |
运行结果如下:
1 | ENCODE=aaa%2Baaa+aaa%252B |
原因
通过上面的代码可以看到,编码时,空格被编码成了+号,+号变成了%2b
。当未经过编码的带+号的字符串解码时,+号直接转变为了空格。
翻了一下文档是这么说的(地址):
接着到application/x-www-form-urlencoded MIME format的说明处(地址):
再翻了一下servlet中request.getParameter('param')
方法说明,如下:
接着看getParameter到底如何取数据的:
从上图可以知道,当在servlet中使用getParameter
方法来接收POST数据时,默认是会根据请求头的类型来解码的。这就证实了如果通过后端new URL(url)
的方式模拟表单的POST,如果在POST前不对数据进行编码且数据中带有+号,那么服务器端收到的数据必然会是错误的(+号会被自动解码为空格)。
验证
常规的表单提交content-type有两种:application/x-www-form-urlencoded
和multipart/form-data
,如果表单提交时不设置任何类型,默认以第一种方式提交数据;第二种属于带附件的表单提交,当表单中有附件时,必须设置表单的enctype
为multipart/form-data
.
很多时候,我们用 Ajax 提交数据时,也是使用这种方式。例如 JQuery的 Ajax,Content-Type 默认值为application/x-www-form-urlencoded;charset=utf-8
。
前端代码
1 | $.ajax({ |
HTTP请求情况
由于在chrome的控制台中所显示的数据被优化显示了,所以在Form Date
部分,需要点击后面的view source
才能看到浏览器发送数据的真实格式是怎么样的。默认优化后的显示应当为yiying:aaa+aa a
,
从上图中可以看到,浏览器实际上的使用Content-Type:application/x-www-form-urlencoded; charset=UTF-8
的编码规则,实际发送的数据为yiying=aaa%2Baa+a
,其中+号变为了%2b,空格被编码为+号。
后端情况
1 |
|
从后端的输出值可以看到,后端的servlet自动解码为原始数据。
关于后端中文乱码问题的特别说明:
后端服务器(tomcat 的server.xml)如果没有设置编码规则(URIEncoding=”utf-8”),Servlet默认会以
ISO-8859-1
来解码中文字符(Servlet规范定义),而前端标识为utg-8,此种情况就会产生乱码,可以用如下3种办法来解决:
- 在server.xml设置编码规则为utf-8
- 在调用getParameter之前使用代码设置编码规则,
request.setCharacterEncoding("utf-8");
- 定点处理,
String name = new String(request.getParameter("name").getBytes("iso-8859-1"),"utf-8");
结论
显而易见,如果需要在后端使用new java.net.URL(url)
的方式POST提交数据,需要像浏览器那样先给数据编码处理,再发送数据。
作者公众号: