将‘ISO 3408-1-2006,MOD  ISO 3408-2-1991,MOD  ISO 3408-3-2006,MOD’类似格式字符串存为: [{'code': 'ISO 3408-1-2006', 'type': 'MOD'}, {'code': 'ISO 3408-2-1991', 'type': 'MOD'}, {'code': 'ISO 3408-3-2006', 'type': 'MOD'}]格式 #coding=utf-8 s = 'ISO 3408-1-2006,MOD I…
用于mongodb中“标准”数据的清洗,数据为网页源代码,须从中提取: 标准名称,标准外文名称,标准编号,发布单位,发布日期,状态,实施日期,开本页数,采用关系,中图分类号,中国标准分类号,国际标准分类号,国别,关键词,摘要,替代标准. 提取后组成字典存入另一集合. #coding=utf-8 from pymongo import MongoClient from lxml import etree import requests s = [u'标准编号:',u'发布单位:',u'发布日期:'…
#coding=utf-8 from pymongo import MongoClient from lxml import etree import requests jigou = u"\r\n [机构]\r\n " zuozhe = u"\r\n [作者]\r\n " # 获取数据库 def get_db(): client = MongoClient('localhost', 27017) db = client.cnki db.authenticate(&…
2017年6月28日 to 2017-06-282017年10月27日 to 2017-10-272017年12月1日 to 2017-12-012017年7月1日 to 2017-07-01 #coding=utf-8 def func(string): year = string.find(u'年') month = string.find(u'月') day = string.find(u'日') if month-year==2: string = string.replace(u"年&…
现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行.我需要把它按每五万行为单位做成一个json文件,格式大致如下: [{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本. # -*- coding: utf-8 -*- import json def func(num): f1 = open("result.t…
2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定.肯定有很多low爆的地方,希望大家可以给我一些建议. spider文件: # -*- coding: utf-8 -*- import scrapy from nosta.items import NostaItem import time import hashlib class NostaSpider(scrapy.Spider):…
递归 一个函数在执行过程中一次或多次调用其本身便是递归,就像是俄罗斯套娃一样,一个娃娃里包含另一个娃娃. 递归其实是程序设计语言学习过程中很快就会接触到的东西,但有关递归的理解可能还会有一些遗漏,下面对此方面进行更加深入的理解 递归的分类 这里根据递归调用的数量分为线性递归.二路递归与多重递归 线性递归 如果一个递归调用最多开始一个其他递归调用,我们称之为线性递归. 例如: def binary_search(data, target, low, high): """ 二分查…
lambda 优点: 1:可以简单使用一个脚本来替代我们的函数 2:不用考虑命名的问题 3:简化代码的可读性,不用跳转到def了,省去这样的步骤 内置函数:bif filter:过滤器 map:映射 >>> lambda x: 2*x+1 <function <lambda> at 0x00000000026C6AC8> >>> g=lambda x: 2*x+1 >>> g(3) 7 >>> help(fil…
十四. Python基础(14)--递归 1 ● 递归(recursion) 概念: recursive functions-functions that call themselves either directly or indirectly in order to loop. 最大递归层数: the default maximum recursion depth in Python is 997. 限制条件: 一定有一个分支不调用自身 修改最大递归层数: import sys sys.se…
简介 Flake8 是由Python官方发布的一款辅助检测Python代码是否规范的工具,相对于目前热度比较高的Pylint来说,Flake8检查规则灵活,支持集成额外插件,扩展性强.Flake8是对下面三个工具的封装: 1)PyFlakes:静态检查Python代码逻辑错误的工具. 2)Pep8: 静态检查PEP8编码风格的工具. 3)NedBatchelder’s McCabe script:静态分析Python代码复杂度的工具. 不光对以上三个工具的封装,Flake8还提供了扩展的开发接口…