作者:马健邮箱:stronghorse_mj@hotmail.com发布:2012.06.11 目录一.背景二.DjVu中的隐藏文本三.PDF中的隐藏文本 一.背景 目前对于扫描电子文档,网上比较流行的格式是PDF和DjVu.为了便于对扫描文档进行文字检索.复制,这两种格式均允许在扫描图像层之外,再加一层隐藏文字层,成为通常所说的“双层PDF”和“双层DjVu”. 对于双层PDF和DjVu来说,阅读者所直接看到的都是原汁原味的扫描页面,保留了原始书籍页面的全部内容和版式,但当阅读者用鼠标在页面上