由数据库导出的数据是格式化数据,如下所示,每两个<REC>之间的数据是一个记录的所有字段数据,如<TITLE>.<ABSTRACT>.<SUBJECT_CODE>.但是每条记录中可能某些字段信息为空, 在导出的文本文件中,就会缺失这个字段,如记录3,缺失<ABSTRACT>这个字段,记录4,缺失<SUBJECT_CODE>这个字段. <REC>(记录1) <TITLE>=Regulation of the pr…
读取csv文件: def readCsv(): rows=[] with file(r'E:\py\py01\Data\system.csv','rb') as f: reads=csv.reader(f) for i in reads: rows.append(i) print rows return rows写入csv文件: def writer(): with file(r'E:\py\py01\Data\system.csv','wb') as f: writer=csv.writer(…
#!/usr/bin/env python # -*- coding: utf-8 -*- import ConfigParser import json import os import re from re import sub import sys import time import requests from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizont…