上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt. 师兄推荐使用PDFMiner来处理,尝试了一番,确实效果不错,在此和大家分享. PDFMiner 的简介:PDFMiner is a tool for extracting information from PDF documents.
把mysql的数据导出成txt select a from b into outfile '/sqlfile/a.txt'; my.ini里需要设置secure_file_priv = d:/sqlfile; linux中是/etc/my.conf,必须导出到配置的地方,导出到其他地方会报错: Query OK, 2kw rows affected (1 min 33.86 sec) 速度还是挺快的: 如果导出到其他路径,会出现: ERROR 1290 (HY000): The MySQL se