用于mongodb中“标准”数据的清洗,数据为网页源代码,须从中提取: 标准名称,标准外文名称,标准编号,发布单位,发布日期,状态,实施日期,开本页数,采用关系,中图分类号,中国标准分类号,国际标准分类号,国别,关键词,摘要,替代标准. 提取后组成字典存入另一集合. #coding=utf-8 from pymongo import MongoClient from lxml import etree import requests s = [u'标准编号:',u'发布单位:',u'发布日期:'…
#coding=utf-8 from pymongo import MongoClient from lxml import etree import requests jigou = u"\r\n [机构]\r\n " zuozhe = u"\r\n [作者]\r\n " # 获取数据库 def get_db(): client = MongoClient('localhost', 27017) db = client.cnki db.authenticate(&…
将‘ISO 3408-1-2006,MOD  ISO 3408-2-1991,MOD  ISO 3408-3-2006,MOD’类似格式字符串存为: [{'code': 'ISO 3408-1-2006', 'type': 'MOD'}, {'code': 'ISO 3408-2-1991', 'type': 'MOD'}, {'code': 'ISO 3408-3-2006', 'type': 'MOD'}]格式 #coding=utf-8 s = 'ISO 3408-1-2006,MOD I…
2017年6月28日 to 2017-06-282017年10月27日 to 2017-10-272017年12月1日 to 2017-12-012017年7月1日 to 2017-07-01 #coding=utf-8 def func(string): year = string.find(u'年') month = string.find(u'月') day = string.find(u'日') if month-year==2: string = string.replace(u"年&…
现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行.我需要把它按每五万行为单位做成一个json文件,格式大致如下: [{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本. # -*- coding: utf-8 -*- import json def func(num): f1 = open("result.t…
2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定.肯定有很多low爆的地方,希望大家可以给我一些建议. spider文件: # -*- coding: utf-8 -*- import scrapy from nosta.items import NostaItem import time import hashlib class NostaSpider(scrapy.Spider):…
在写某个平台的自动化脚本时,笔者把全部的操作都封装到了两个类中,page.py和commonpage.py: page.py部分代码: class BasePage(object): ''' 页面基础类 ''' def __init__(self, driver): self.driver = driver def find_element(self,loc): return self.driver.find_element(*loc) #在输入框中输入文字 def input_text(sel…
python代码规范与标准库参考 python代码规范参考文献: http://www.runoob.com/w3cnote/google-python-styleguide.html https://google.github.io/styleguide/pyguide.html https://www.jianshu.com/p/8b6c425b65a6 Goolle开源项目风格指南: https://zh-google-styleguide.readthedocs.io/en/latest…
面向过程与面向对象都是我们编程中,编写程序的一种思维方式.例如:公司打扫卫生(擦玻璃.扫地.拖地.倒垃圾等), 按照面向过程的程序设计方式会思考“打扫卫生我该怎么做,然后一件件的完成”,最后把公司卫生打扫干净了. 按照面向对象的程序设计方式会思考“我该让谁来做,如小明擦玻璃.让小丽扫地.让小郭拖地.让小强倒垃圾等”,这里的“小明.小丽.小郭.小强”就是对象,他们要打扫卫生,怎么打扫是他们自己的事,反正最后一群对象合力把公司卫生打扫干净了. 继续举例: 使用面向过程说明买电脑这件事:分析整个过程大…
一,接口类 继承有两种用途: 一:继承基类的方法,并且做出自己的改变或者扩展(代码重用) 二:声明某个子类兼容于某基类,定义一个接口类Interface,接口类中定义了一些接口名(就是函数名)且并未实现接口的功能,子类继承接口类,并且实现接口中的功能 开发中容易出现的问题 class Alipay: ''' 支付宝支付 ''' def pay(self,money): print('支付宝支付了%s元'%money) class Applepay: ''' apple pay支付 ''' def…