python3爬取中国药学科学数据

今天我表弟说帮忙爬一下中国药学科学数据，导出json格式给他。一共18万条数据。

看了一下网站http://pharm.ncmi.cn/dataContent/admin/index.jsp?submenu=183

竟然get请求。不爬你爬谁。。。

#/usr/bin/env python

#Guoyabin

#-*- coding:utf-8 -*-

import re,requests,threading,time

def inserttxt(file,text):

	f=open(file,'a+')

	f.write(text)

	f.close()

def down(begin,end):

	url='http://pharm.ncmi.cn/dataContent/dataSearch.do'

	for i in range(begin,end):

		file=str(end)+'.txt'

		params={'method':'viewpage','id':i,'did':26}

		try:

			html=requests.get(url,params=params,timeout=60)

			r=html.text.replace("\r","")

			html.close()

			r=r.replace("\n","")

			r=r.replace("\t","")

			r=r.replace("&gt;","")

			req='width="89%">(.*?) </td>'

			yaovalue=re.findall(req,r)

			yaokey=['{\nname:"','",\nenglish:"','",\nnumber:"','",\nshanpinmingchen:"','",\ndanwei:"','",\ndate:"','",\nclass:"','",\nguige:"','",\njixing:"','",\nleibie:"','",\npizhun:"']

			yao=zip(yaokey,yaovalue)

			for i in yao:

				for x in i:

					inserttxt(file,x)

			inserttxt(file,'"\n},\n')

			#休息3秒在爬，原来没有休息。导致大量TCP连接。且对方直接封我ip。

                        #18万条数据/10线程*3秒等待/60秒/60分=15个小时拿完对方数据。不如改一下程序，多台独立IP电脑运行了。

			time.sleep(3)

		except:

			print('url访问失败')

			continue

if __name__=='__main__':

	t1=threading.Thread(target=down,args=(2228,20000,))

	t1.start()

	t2=threading.Thread(target=down,args=(20000,40000,))

	t2.start()

	t3=threading.Thread(target=down,args=(40000,60000,))

	t3.start()

	t4=threading.Thread(target=down,args=(60000,80000,))

	t4.start()

	t5=threading.Thread(target=down,args=(80000,100000,))

	t5.start()

	t6=threading.Thread(target=down,args=(100000,120000,))

	t6.start()

	t7=threading.Thread(target=down,args=(120000,140000,))

	t7.start()

	t8=threading.Thread(target=down,args=(140000,160000,))

	t8.start()

	t9=threading.Thread(target=down,args=(16000,180000,))

	t9.start()

	t10=threading.Thread(target=down,args=(18000,183662,))

	t10.start()

	t10.join()

	input('已经下载完，按回车退出')

　　开始运行了几次没问题，已经爬下一半了，过了一会直接被封了。可能爬的太快了。容我做个悲伤的表情。

无耻的求一下赞助

python3爬取中国药学科学数据的更多相关文章

初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
python爬取中国天气网站数据并对其进行数据可视化
网址:http://www.weather.com.cn/textFC/hb.shtml 解析:BeautifulSoup4 爬取所有城市的最低天气对爬取的数据进行可视化处理按温度对城市进行排 ...
python3爬取拉钩招聘数据
使用python爬去拉钩数据第一步:下载所需模块 requests 进入cmd命令 :pip install requests 回车联网自动下载 xlwt 进入cmd命令 :pip install ...
python3抓取中国天气网不同城市7天、15天实时数据
思路:1.根据city.txt文档来获取不同城市code2.获取中国天气网7d和15d不同城市url3.利用requests库请求url获取html内容4.利用beautifulsoup获取7d和15 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...

随机推荐

Pop Sequeue
题目描述 Given a stack which can keep M numbers at most. Push N numbers in the order of 1,2,3...,N and p ...
洛谷 CF196A 题解
题目传送门题目描述: 读入字符串,求该串的最大字典序子序列. 我的思路: 循环判断只要当前字符比后面所有的字符的字典序大,就把这个字符存到另一个字符串中,最后和输入的字符串循环比较如果该字符和输入时 ...
【刷题-LeetCode】188 Best Time to Buy and Sell Stock IV
Best Time to Buy and Sell Stock IV Say you have an array for which the i-th element is the price of ...
【记录一个问题】opencv中使用UMat类，在析构的时候出现refcount == 0的断言错误
发生coredump时的错误信息如下: terminate called after throwing an instance of 'cv::Exception' what(): OpenCV(4. ...
基于SpringBoot如何实现一个点赞功能？
基于SpringBoot如何实现一个点赞功能? 解析: 基于 SpringCloud, 用户发起点赞.取消点赞后先存入 Redis 中,再每隔两小时从 Redis 读取点赞数据写入数据库中做持久化存储 ...
Qt之消息对话框
widget.h: #ifndef WIDGET_H #define WIDGET_H #include <QWidget> #include<QLineEdit> class ...
为什么 Redis 的查询很快, Redis 如何保证查询的高效
Redis 如何保证高效的查询效率为什么 Redis 比较快 Redis 中的数据结构 1.简单动态字符串 SDS 对比 c 字符串的优势 SDS可以常数级别获取字符串的长度杜绝缓冲区溢出减少修 ...
测试udp端口
yum -y install nc 在a机器上执行: nc -ul 1080 在b机器上执行:nc -u 服务器ip 1080 a机器可以接收到报文则代表端口正常.
在海外上传文件到中国AWS S3
s3cmd --access_key= --secret_key=xxxx --region=cn-north-1 --host=s3.cn-north-1.amazonaws.com.cn --ho ...
Unity——日志打印工具
一.日志工具功能封装Debug类,需要实现功能: 1.控制所有日志是否打印: 2.除了Log,Warning,Error外,给更多日志种类(不同颜色): 3.格式化打印日志: 4.不定参数,自动拼接 ...

python3爬取中国药学科学数据

python3爬取中国药学科学数据的更多相关文章

随机推荐

热门专题