一.快速入门 1.Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等. 使用Tika,可以提取文件中的作者.标题.创建时间.正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等): (1)若文档为纯文本,如txt,html,java文件等,则二者对于文件内容的提取基本无差别,都可将内容呈现出来. (2)若文档为富文本,如office,pdf等,使用java.io直