Java根据字节数据判断文件类型
通常,在WEB系统中,上传文件时都需要做文件的类型校验,大致有如下几种方法:
1. 通过后缀名,如exe,jpg,bmp,rar,zip等等。
2. 通过读取文件,获取文件的Content-type来判断。
3. 通过读取文件流,根据文件流中特定的一些字节标识来区分不同类型的文件。
4. 若是图片,则通过缩放来判断,可以缩放的为图片,不可以的则不是。
然而,在安全性较高的业务场景中,1,2两种方法的校验会被轻易绕过。
1. 伪造后缀名,如图片的,非常容易修改。
2. 伪造文件的Content-type,这个稍微复杂点,为了直观,截图如下:
3.较安全,但是要读取文件,并有16进制转换等操作,性能稍差,但能满足一定条件下对安全的要求,所以建议使用。
但是文件头的信息也可以伪造,截图如下,对于图片可以采用图片缩放或者获取图片宽高的方法避免伪造头信息漏洞。
被伪装成gif的恶意图片文件
对应的Java代码如下:
- package apistudy;
- import java.awt.image.BufferedImage;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.FileNotFoundException;
- import java.io.IOException;
- import java.io.InputStream;
- import java.util.HashMap;
- import java.util.Iterator;
- import java.util.Map;
- import java.util.Map.Entry;
- import javax.imageio.ImageIO;
- import javax.imageio.ImageReader;
- import javax.imageio.stream.ImageInputStream;
- public class FileTypeTest
- {
- public final static Map<String, String> FILE_TYPE_MAP = new HashMap<String, String>();
- private FileTypeTest(){}
- static{
- getAllFileType(); //初始化文件类型信息
- }
- /**
- * Created on 2010-7-1
- * <p>Discription:[getAllFileType,常见文件头信息]</p>
- * @author:[shixing_11@sina.com]
- */
- private static void getAllFileType()
- {
- FILE_TYPE_MAP.put("jpg", "FFD8FF"); //JPEG (jpg)
- FILE_TYPE_MAP.put("png", "89504E47"); //PNG (png)
- FILE_TYPE_MAP.put("gif", "47494638"); //GIF (gif)
- FILE_TYPE_MAP.put("tif", "49492A00"); //TIFF (tif)
- FILE_TYPE_MAP.put("bmp", "424D"); //Windows Bitmap (bmp)
- FILE_TYPE_MAP.put("dwg", "41433130"); //CAD (dwg)
- FILE_TYPE_MAP.put("html", "68746D6C3E"); //HTML (html)
- FILE_TYPE_MAP.put("rtf", "7B5C727466"); //Rich Text Format (rtf)
- FILE_TYPE_MAP.put("xml", "3C3F786D6C");
- FILE_TYPE_MAP.put("zip", "504B0304");
- FILE_TYPE_MAP.put("rar", "52617221");
- FILE_TYPE_MAP.put("psd", "38425053"); //Photoshop (psd)
- FILE_TYPE_MAP.put("eml", "44656C69766572792D646174653A"); //Email [thorough only] (eml)
- FILE_TYPE_MAP.put("dbx", "CFAD12FEC5FD746F"); //Outlook Express (dbx)
- FILE_TYPE_MAP.put("pst", "2142444E"); //Outlook (pst)
- FILE_TYPE_MAP.put("xls", "D0CF11E0"); //MS Word
- FILE_TYPE_MAP.put("doc", "D0CF11E0"); //MS Excel 注意:word 和 excel的文件头一样
- FILE_TYPE_MAP.put("mdb", "5374616E64617264204A"); //MS Access (mdb)
- FILE_TYPE_MAP.put("wpd", "FF575043"); //WordPerfect (wpd)
- FILE_TYPE_MAP.put("eps", "252150532D41646F6265");
- FILE_TYPE_MAP.put("ps", "252150532D41646F6265");
- FILE_TYPE_MAP.put("pdf", "255044462D312E"); //Adobe Acrobat (pdf)
- FILE_TYPE_MAP.put("qdf", "AC9EBD8F"); //Quicken (qdf)
- FILE_TYPE_MAP.put("pwl", "E3828596"); //Windows Password (pwl)
- FILE_TYPE_MAP.put("wav", "57415645"); //Wave (wav)
- FILE_TYPE_MAP.put("avi", "41564920");
- FILE_TYPE_MAP.put("ram", "2E7261FD"); //Real Audio (ram)
- FILE_TYPE_MAP.put("rm", "2E524D46"); //Real Media (rm)
- FILE_TYPE_MAP.put("mpg", "000001BA"); //
- FILE_TYPE_MAP.put("mov", "6D6F6F76"); //Quicktime (mov)
- FILE_TYPE_MAP.put("asf", "3026B2758E66CF11"); //Windows Media (asf)
- FILE_TYPE_MAP.put("mid", "4D546864"); //MIDI (mid)
- }
- public static void main(String[] args) throws Exception
- {
- File f = new File("c://aaa.gif");
- if (f.exists())
- {
- String filetype1 = getImageFileType(f);
- System.out.println(filetype1);
- String filetype2 = getFileByFile(f);
- System.out.println(filetype2);
- }
- }
- /**
- * Created on 2010-7-1
- * <p>Discription:[getImageFileType,获取图片文件实际类型,若不是图片则返回null]</p>
- * @param File
- * @return fileType
- * @author:[shixing_11@sina.com]
- */
- public final static String getImageFileType(File f)
- {
- if (isImage(f))
- {
- try
- {
- ImageInputStream iis = ImageIO.createImageInputStream(f);
- Iterator<ImageReader> iter = ImageIO.getImageReaders(iis);
- if (!iter.hasNext())
- {
- return null;
- }
- ImageReader reader = iter.next();
- iis.close();
- return reader.getFormatName();
- }
- catch (IOException e)
- {
- return null;
- }
- catch (Exception e)
- {
- return null;
- }
- }
- return null;
- }
- /**
- * Created on 2010-7-1
- * <p>Discription:[getFileByFile,获取文件类型,包括图片,若格式不是已配置的,则返回null]</p>
- * @param file
- * @return fileType
- * @author:[shixing_11@sina.com]
- */
- public final static String getFileByFile(File file)
- {
- String filetype = null;
- byte[] b = new byte[50];
- try
- {
- InputStream is = new FileInputStream(file);
- is.read(b);
- filetype = getFileTypeByStream(b);
- is.close();
- }
- catch (FileNotFoundException e)
- {
- e.printStackTrace();
- }
- catch (IOException e)
- {
- e.printStackTrace();
- }
- return filetype;
- }
- /**
- * Created on 2010-7-1
- * <p>Discription:[getFileTypeByStream]</p>
- * @param b
- * @return fileType
- * @author:[shixing_11@sina.com]
- */
- public final static String getFileTypeByStream(byte[] b)
- {
- String filetypeHex = String.valueOf(getFileHexString(b));
- Iterator<Entry<String, String>> entryiterator = FILE_TYPE_MAP.entrySet().iterator();
- while (entryiterator.hasNext()) {
- Entry<String,String> entry = entryiterator.next();
- String fileTypeHexValue = entry.getValue();
- if (filetypeHex.toUpperCase().startsWith(fileTypeHexValue)) {
- return entry.getKey();
- }
- }
- return null;
- }
- /**
- * Created on 2010-7-2
- * <p>Discription:[isImage,判断文件是否为图片]</p>
- * @param file
- * @return true 是 | false 否
- * @author:[shixing_11@sina.com]
- */
- public static final boolean isImage(File file){
- boolean flag = false;
- try
- {
- BufferedImage bufreader = ImageIO.read(file);
- int width = bufreader.getWidth();
- int height = bufreader.getHeight();
- if(width==0 || height==0){
- flag = false;
- }else {
- flag = true;
- }
- }
- catch (IOException e)
- {
- flag = false;
- }catch (Exception e) {
- flag = false;
- }
- return flag;
- }
- /**
- * Created on 2010-7-1
- * <p>Discription:[getFileHexString]</p>
- * @param b
- * @return fileTypeHex
- * @author:[shixing_11@sina.com]
- */
- public final static String getFileHexString(byte[] b)
- {
- StringBuilder stringBuilder = new StringBuilder();
- if (b == null || b.length <= 0)
- {
- return null;
- }
- for (int i = 0; i < b.length; i++)
- {
- int v = b[i] & 0xFF;
- String hv = Integer.toHexString(v);
- if (hv.length() < 2)
- {
- stringBuilder.append(0);
- }
- stringBuilder.append(hv);
- }
- return stringBuilder.toString();
- }
- }
这样,不管是传入的文件有后缀名,还是无后缀名,或者修改了后缀名,真正获取到的才是该文件的实际类型,这样避免了一些想通过修改后缀名或者 Content-type信息来攻击的因素。但是性能与安全永远是无法同时完美的,安全的同时付出了读取文件的代价。本人建议可采用后缀名与读取文件的方 式结合校验,毕竟攻击是少数,后缀名的校验能排除大多数用户,在后缀名获取不到时再通过获取文件真实类型校验,这样来适当提高性能。
Java根据字节数据判断文件类型的更多相关文章
- PHP读取文件头(2字节)判断文件类型(转)
看到此标题或许你会说是否是多此一举,直接判断扩展名不就知道文件类型了吗,但是扩展名很容易伪造,这样就绕过了判断.大部分的文件都会将一个特殊的数字或字符存放在文件的特定位置里(开始处的2个字节) /** ...
- Java判断文件类型
通常,在WEB系统中,上传文件时都需要做文件的类型校验,大致有如下几种方法: 1. 通过后缀名,如exe,jpg,bmp,rar,zip等等. 2. 通过读取文件,获取文件的Content-type来 ...
- 用java流方式判断文件类型
这个方法只能在有限的范围内有效.并不是万金油 比如 图片类型判断,音频文件格式判断,视频文件格式判断等这种肯定是2进制且专业性很强的文件类型判断. 下面给出完整版代码 首先是文件类型枚取 packag ...
- java文件上传,自动判断文件类型
public enum FileType { /** * JEPG. */ JPEG("FFD8FF"), /** * PNG. */ PNG("89504E47&quo ...
- Python之基于十六进制判断文件类型
核心代码: #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : suk import struct from io import Byt ...
- 利用PHP取二进制文件头判断文件类型
<?php $files = array('D:\no.jpg', 'D:\no.png','D:\no2.JPEG','D:\no.BMP'); $fileTypes = array( 779 ...
- 使用apache.tika判断文件类型
一. 判断文件类型一般可采用两种方式 1. 后缀名判断 简单易操作,但无法准确判断类型 2. 文件头信息判断 通常可以判断文件类型,但有些文件类型无法判断(如word和excel头信息的前几个字节是一 ...
- Linux中用st_mode判断文件类型
Linux中用st_mode判断文件类型 2012-12-11 12:41 14214人阅读 评论(4) 收藏 举报 分类: Linux(8) C/C++(20) 版权声明:本文为博主原创文章, ...
- php 读取文件头判断文件类型的实现代码
php代码实现读取文件头判断文件类型,支持图片.rar.exe等后缀. 例子: <?php $filename = "11.jpg"; //为图片的路径可以用d:/uploa ...
随机推荐
- dubbo No provider available for the service com.alibaba.dubbo.monitor.MonitorService from registry
No provider available for the service com.alibaba.dubbo.monitor.MonitorService from registry http:// ...
- BZOJ 2115: [Wc2011] Xor
2115: [Wc2011] Xor Time Limit: 10 Sec Memory Limit: 259 MB Submit: 2794 Solved: 1184 [Submit][Stat ...
- Qt程序Windows部署前打包方法
1.需求 很多公司都在使用Qt作为GUI库,在开发者的计算机上通常是利用配置PATH环境变量来实现调用Qt的DLL.然而当把开发后的软件直接部署在顾客方,顾客的计算机上并没有Qt的bin目录,所以并不 ...
- linux下查看和设置软件的安装路径
1:你可以通过whereis 软件名来查找系统里的文件位置 比如你想查找eclipse文件,那么就: [root@localhost ~]# whereis eclipse 会显示: eclipse: ...
- (摘)oracle dataguard切换
众所周知,Data Guard已经是现今标准的主流容灾方案,由于日志传递对于网络适应程度强,且可以采用同步实时的传递方式和异步延迟的传递方式,甚至可以成为远程的异地容灾方案.不管用于何种用途,DG都免 ...
- win8下nodejs安装配置记录
1:打开nodejs官网http://nodejs.org/ 下载安装版. 2:安装完成后,打开cmd输入node -v 查看是否安装成功: 3:安装express,通过全局安装方式进行安装: 安装完 ...
- 在docker以FPM-PHP运行php,慢日志导致的BUG分析
问题描述: 最近将IOS书城容器化,切换流量后.正常的业务测试了一般,都没发现问题.线上的错误监控系统也没有报警,以为迁移工作又告一段落了,暗暗的松了一口气.紧接着,报警邮件来了,查看发现是一个苹果支 ...
- 通过代理访问nginx和直接访问nginx区别
80.82.78.38 [23/Sep/2016:05:36:18 +0800] "GET http://www.baidu.com/cache/global/img/gs.gif HTTP ...
- Linux Top使用说明
运行top后,按P键就按CPU排序,按M键就按内存排序 P – 以 CPU 占用率大小的顺序排列进程列表 M – 以内存占用率大小的顺序排列进程列表 在系统维护的过程中,随时可能有需要查看 CPU 使 ...
- glibc的了解,对内核的封装
glibc除了提供最底层的C运行库,还封装了kernel提供的API,程序通过glibc进行系统调用( syscall). 应用层面的C库,比如OpenSSL库: /usr/include/opens ...