Java如何正确处理下载文件时HTTP头的编码问题

 更新时间:2023年07月03日 11:43:58   作者:今夜无风亦无雨  
这篇文章主要介绍了Java如何正确处理下载文件时HTTP头的编码问题,
通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息,今天来讲解下正确处理下载文件时HTTP头的编码问题,需要的朋友可以参考下

最近在做项目时遇到了一个 case :需要实现一个强制下载功能(即强制弹出下载对话框),并且文件名必须保持和用户之前上传时相同(可能包含非 ASCII 字符)。

前一个需求很容易实现:使用 HTTPHeader的Content-Disposition: attachment即可,还可以配合Content-Type: application/octet-stream来确保万无一失。而后一个需求就比较蛋疼了,牵扯到 Header 的编码问题(文件名是作为 filename 参数放在 Content-Disposition 里面的)。众所周知, HTTP Header 中的 Content-Type 可以指定内容的编码,可 Header 本身的编码又该如何制定?甚至, Header 究竟是否允许非 ASCII 编码呢?

如果放任编码问题不管,那么恭喜你,你一定会遇到在某个系统及浏览器下下载文件时文件名乱码的情况。如果你尝试搜索解决,那么再一次恭喜你,你会找到一堆自相矛盾的解决方案(我可以负责任地告诉你,其中的99%都是不符合标准的 trick 罢了)。让我们来看看到底应该如何优雅完美地解决这个问题吧!

为了探索这个问题,我走了不少弯路。从自己尝试,到 Google 、百度(分别尝试过中英文搜索),再到阅读 Discuz 等经典项目的源码,众说纷纭、莫衷一是。最后我才想到回归 RFC ,从标准文档中找办法,果然有所收获。由于探究过程实在太曲折,我就先把标准做法写下来。

应该这样设置 Content-Disposition :

Content-Disposition: attachment;
                     filename="$encoded_fname";
                     filename*=utf-8''$encoded_fname

其中,$encoded_fname指的是将 UTF-8 编码的原始文件名按照RFC 3986进行百分号 urlencode 后得到的( PHP 中使用rawurlencode()函数)。这几行也可以合并为一行,推荐使用一个空格隔开。

另外,为了兼容 IE6 ,请保证原始文件名必须包含英文扩展名!

好了,接下来我们来看看为什么要这么做以及为什么能这么做。

首先,根据 HTTP 1.1 协议规范(RFC 2616 Section 4), HTTP 消息格式其实是基于古老的 ARPA INTERNET TEXT MESSAGES (RFC 822 Section 3),根据其规定,消息只能是 ASCII 编码的。RFC 2616 Section 2.2又一次强调, TEXT 中若要使用其他字符集,必须使用RFC 2047的规则将字符串编码为 ASCII 码(事实上这个规则原本是针对 MIME 的扩展,使用的是 base64 编码,格式与百分号编码有很大不同)。总而言之,按照标准, HTTP Header 中的文本数据必须是 ASCII 编码的。

filename="TEXT"
;这是 RFC 2616 标准,TEXT必须是 ASCII 字符且被认为就是“原文”
filename*=charset'lang'encoded-text
;这是按照 RFC 2047 扩展后的,注意格式上的细微区别,采用 base64 编码(编码结果也是 ASCII 字符)

然而,事实上在1999年 HTTP 1.1 标准推出之时, Content-Dispostion 这个 Header 尚不是正式标准的一部分,只不过是因为被广泛使用而从 MIME 标准中直接借用过来了而已(RFC 2616 Section 19.5.1)。因而几乎没有浏览器去支持 Content-Disposition 的多语言编码特性这样一个“扩展特性的扩展特性”(事实上, HTTP 1.1 草案中建议的使用 RFC 2047 来进行多语言编码的特性从未被主流浏览器支持过)。

可是这个问题却的确是现实需要的,所以浏览器就各自想出了一些办法:

  • IE支持两种格式的混合版:filename="encoded_text"(这里采用的是百分号编码)。本来按照 RFC 2616 ,引号内的部分应当直接被当作内容,就算它“看起来像是编码后的字符串”;可是IE却会“自动”对这样的文件名进行解码——前提是该文件名必须有一个不会被编码的后缀名(即正常的英文字母后缀名)!
  • 其他一些浏览器则支持一种更为粗暴的方式——允许在filename="TEXT"中直接使用 UTF-8 编码的字符串!

这两类浏览器的行为是彼此互不兼容的。所以你可以判断 UA 然后对IE使用前一种办法,其他浏览器使用后一种,这样便可以达到一般情况下能够 just work 的效果( Discuz 就是这么做的)。不过对于 Opera 和 Safari ,这样做可能不一定有效。

时代在进步,2010年RFC 5987发布,正式规定了 HTTP Header 中多语言编码的处理方式,应当采用类似 MIME 扩展的parameter*=charset'lang'value的格式,但是其中 value 应根据RFC 3986 Section 2.1使用百分号进行编码,并且规定浏览器至少应该支持 ASCII 和 UTF-8 。随后,2011年RFC 6266发布,正式将 Content-Disposition 纳入 HTTP 标准,并再次强调了 RFC 5987 中多语言编码的方法,还给出了一个范例用于解决向后兼容的问题——就是我在一开始给出的例子:

Content-Disposition: attachment;
                     filename="encoded_text";
                     filename*=utf-8''encoded_text

在这个例子中,对于较新的 Firefox 、 Chrome 、 Opera 、 Safari 等浏览器,都支持新标准规定的 filename* ,并且会优先使用,所以尽管 filename=”encoded_text” 不被它们支持,仍然不会有问题;至于使用 UTF-8 只是因为它是标准中强制要求必须支持的。而对于旧版本的IE浏览器,它们无法识别后面的 filename* ,会自动忽略并使用旧的 filename 。这样一来就完美解决了多浏览器的多语言兼容问题,既不需要 UA 判断,也符合标准。

P.S.为什么 PHP 要使用rawurlencode()函数呢?因为这才是真正符合 RFC 3986 的“百分号URL编码”,只是由于历史原因,之前先有了一个urlencode()函数用于实现 HTTP POST 中的类似的编码规则,故而只好用这么一个奇怪的名字。两者的区别在于前者会把空格编码为%20,而后者则会编码为+号。如果使用后者,那么IE6在下载带有空格的文件名时空格会变为加号。一般情况下,你是不会用到urlencode()这个函数的( Discuz 某些版本中错误地使用它来进行文件名编码,从而导致空格变加号的BUG)。

到此这篇关于Java如何正确处理下载文件时HTTP头的编码问题的文章就介绍到这了,更多相关Java下载文件HTTP头编码问题内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Springboot读取外部配置文件,项目部署时配置读取不到问题及解决

    Springboot读取外部配置文件,项目部署时配置读取不到问题及解决

    这篇文章主要介绍了Springboot读取外部配置文件,项目部署时配置读取不到问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-06-06
  • java发送http请求并获取状态码的简单实例

    java发送http请求并获取状态码的简单实例

    下面小编就为大家带来一篇java发送http请求并获取状态码的简单实例。小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-05-05
  • Java排序算法之计数排序解析

    Java排序算法之计数排序解析

    这篇文章主要介绍了Java排序算法之计数排序解析,找到数组中数值最大的元素,创建一个长度为最大元素+1的临时数组,这样就可以把原始数组转换为以原始数组元素值为下标,相同元素个数为值的临时数组,需要的朋友可以参考下
    2023-10-10
  • JavaFX实现简易时钟效果

    JavaFX实现简易时钟效果

    这篇文章主要为大家详细介绍了JavaFX实现简易时钟效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-11-11
  • java中BeanNotOfRequiredTypeException的问题解决(@Autowired和@Resource注解的不同)

    java中BeanNotOfRequiredTypeException的问题解决(@Autowired和@Resourc

    本文主要介绍了java中BeanNotOfRequiredTypeException的问题解决(@Autowired和@Resource注解的不同),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • java实现一个简单TCPSocket聊天室功能分享

    java实现一个简单TCPSocket聊天室功能分享

    这篇文章主要为大家分享了java实现的一个简单TCPSocket聊天室功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-04-04
  • Java实现贪吃蛇游戏(1小时学会)

    Java实现贪吃蛇游戏(1小时学会)

    这篇文章主要为大家详细介绍了Java实现贪吃蛇游戏,1小时学会贪吃蛇游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-05-05
  • Java 高并发二:多线程基础详细介绍

    Java 高并发二:多线程基础详细介绍

    本文主要介绍Java 高并发多线程的知识,这里整理详细的资料来解释线程的知识,有需要的学习高并发的朋友可以参考下
    2016-09-09
  • WordPress中卸载插件以及移除文章类型组件的代码示例

    WordPress中卸载插件以及移除文章类型组件的代码示例

    这篇文章主要介绍了WordPress中卸载插件以及移除文章类型组件的代码示例,包括卸载函数钩子的方法介绍,需要的朋友可以参考下
    2015-12-12
  • 关于Spring启动流程及Bean生命周期梳理

    关于Spring启动流程及Bean生命周期梳理

    这篇文章主要介绍了关于Spring启动流程及Bean生命周期梳理,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11

最新评论