一.高速入门 1.Tika是一个用于文本解释的框架.其本身并不提供不论什么的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等. 使用Tika.能够提取文件里的作者.标题.创建时间.正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等): (1)若文档为纯文本,如txt,html,java文件等.则二者对于文件内容的提取基本无区别,都可将内容呈现出来. (2)若文档为富文本,如office,pdf等.使用java.i…