#coding=utf-8 from pymongo import MongoClient from lxml import etree import requests jigou = u"\r\n [机构]\r\n " zuozhe = u"\r\n [作者]\r\n " # 获取数据库 def get_db(): client = MongoClient('localhost', 27017) db = client.cnki db.authenticate(&…
用于mongodb中“标准”数据的清洗,数据为网页源代码,须从中提取: 标准名称,标准外文名称,标准编号,发布单位,发布日期,状态,实施日期,开本页数,采用关系,中图分类号,中国标准分类号,国际标准分类号,国别,关键词,摘要,替代标准. 提取后组成字典存入另一集合. #coding=utf-8 from pymongo import MongoClient from lxml import etree import requests s = [u'标准编号:',u'发布单位:',u'发布日期:'…
爬取指定主题的论文,并以相关度排序. #!/usr/bin/python3 # -*- coding: utf-8 -*- import requests import linecache import random from bs4 import BeautifulSoup if __name__=="__main__": keywords='通信' ### 查询的主题 n=0 target='http://search.cnki.net/search.aspx?q='+str(ke…
将‘ISO 3408-1-2006,MOD  ISO 3408-2-1991,MOD  ISO 3408-3-2006,MOD’类似格式字符串存为: [{'code': 'ISO 3408-1-2006', 'type': 'MOD'}, {'code': 'ISO 3408-2-1991', 'type': 'MOD'}, {'code': 'ISO 3408-3-2006', 'type': 'MOD'}]格式 #coding=utf-8 s = 'ISO 3408-1-2006,MOD I…
2017年6月28日 to 2017-06-282017年10月27日 to 2017-10-272017年12月1日 to 2017-12-012017年7月1日 to 2017-07-01 #coding=utf-8 def func(string): year = string.find(u'年') month = string.find(u'月') day = string.find(u'日') if month-year==2: string = string.replace(u"年&…
现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行.我需要把它按每五万行为单位做成一个json文件,格式大致如下: [{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本. # -*- coding: utf-8 -*- import json def func(num): f1 = open("result.t…
2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定.肯定有很多low爆的地方,希望大家可以给我一些建议. spider文件: # -*- coding: utf-8 -*- import scrapy from nosta.items import NostaItem import time import hashlib class NostaSpider(scrapy.Spider):…
相信各个即将毕业的学生或在岗需要评职称.发论文的职场人士,论文检测都是必不可少的一道程序.面对市场上五花八门的检测软件,到底该如何选择?选择查重后到底该如何修改?现在就做一个知识的普及.其中对于中国的学者都会选择如下三种检测系统,接下来将做简单介绍: 1  知网 知网是使用率最广的一套检测系统,其使用率广,其实是在于这套系统背后的资源支持及平台支持,如同方依靠的学校背景及咱们下载文章的知网平台.知网随着使用对象的不同,又划分为以下几个分类:     ①知网学术不端检测.现在的知网学术不端检测已发…
一.问题描述: 最近在知网搜索论文的时候,经常遇到有的论文没有pdf文件的情况,但不得不吐槽我觉得知网做的阅读器确实是有点烂.所以想将caj文件转化为pdf文件,找到了一个比较好的方法,所以希望记录一下. 二.具体方法: 1.没办法,要转换还是要先下载知网的caj阅读器.然后将你要转化的论文用caj阅读器打开. 2.文件->打印->在名称下拉框中选择Micrisoft print to pdf->然后点击确定->选择文件保存地址. 3.然后点击确定,等待打印结束就好了.然后就可以看…
数据来源:数据挖掘入门与实战  公众号: datadw scrapy_jingdong[9]- 京东爬虫.基于scrapy的京东网站爬虫,保存格式为csv.[9]: https://github.com/taizilongxu/scrapy_jingdong QQ-Groups-Spider[10]- QQ 群爬虫.批量抓取 QQ 群信息,包括群名称.群号.群人数.群主.群简介等内容,最终生成 XLS(X) / CSV 结果文件.[10]: https://github.com/casparts…