python3读取BJDA药品经营企业数据
#-*- coding:utf-8 -*-
#读取北京FDA的药品经营企业数据
# 20161125 zhangshaohua
import re
import urllib.request
import urllib.parse
import os def getContent(url,pat,charSet):
#指定网址、正则表达式、编码方式,返回指定内容
page = urllib.request.urlopen(url)
content = page.read().decode(charSet)
pattern = re.compile(pat)
result = re.findall(pattern,content) return result
#读取首页
url = 'http://www.bjda.gov.cn/eportal/ui?pageId=331148' #取总记录数,每页20条
zjls = getContent(url,'总记录数:(\d{1,5}),','UTF-8') vdzjls = int(zjls[0])
vdzjls = int(round(vdzjls/20,0)) for i in range(51,vdzjls):
url = 'http://www.bjda.gov.cn/eportal/ui?pageId=331148¤tPage='+str(i)
pattern = 'artileId=(.*)">查看'
page_id = getContent(url,pattern,'UTF-8')
for url_id in page_id:
try:
subid = url_id
suburl = "http://www.bjda.gov.cn/eportal/ui?pageId=331631&artileId="+subid
qymc = getContent(suburl,'企业名称:</th>\r\n.*?<td>(.*?)</td>','UTF-8')
zcdz = getContent(suburl,'注册地址:</th>\r\n.*?<td>(.*?)\s{0,3}</td>','UTF-8')
xkzh = getContent(suburl,'许可证号:</th>\r\n.*?<td>(.*?)</td>','UTF-8') print(qymc,zcdz,xkzh)
file_object = open('bjda.txt','a')
file_object.write(qymc[0])
file_object.write(',')
file_object.write(zcdz[0])
file_object.write(',')
file_object.write(xkzh[0])
file_object.write('\n\r') finally:
None
file_object.close() vdzjls = int(zjls[0]) print('药品零售企业读取完成!')
经历了读取HDA的练习,此次读取BJ的数据开始比较顺畅。在读取996条数据时出错,再次出现换行造成的问题;
多次试错后用‘\s{0,3}’成功解决.
正则表达式要继续学习,才能不断进步,避免遇“”坑“”时能顺利通过!
python3读取BJDA药品经营企业数据的更多相关文章
- python3读取HDA零售企业数据(一)
#-*- coding:utf-8 -*- # 下载河南FDA各药品经营企业目录 import urllib.request import urllib.parse import re import ...
- python3 读取表格的数据
python3 读取表格的数据 xlrd1.1.0的下载网址:https://pypi.python.org/pypi/xlrd. xlrd1.1.0兼容python2和python3. python ...
- python3 读取串口数据
python3 读取串口数据 demo import serial import time ser = serial.Serial("COM3",115200,timeout = ...
- python3 读取txt文件数据,绘制趋势图,matplotlib模块
python3 读取txt文件数据,绘制趋势图 test1.txt内容如下: 时间/min cpu使用率/% 内存使用率/% 01/12-17:06 0.01 7.61 01/12-17:07 0.0 ...
- DataPipeline丨新型企业数据融合平台的探索与实践
文 |刘瀚林 DataPipeline后端研发负责人 交流微信 | datapipeline2018 一.关于数据融合和企业数据融合平台 数据融合是把不同来源.格式.特点性质的数据在逻辑上或物理上有机 ...
- 未来科技城 x 奇点云打造「企业数据大脑」,助力1.3万家企业服务
“当前,政府数字化和数字政府建设已成为一种趋势.一种必然,并且有了一条水到渠成式的实现路径.” 上升为国家战略的数字中国建设加速了”智慧政务“的生动实践,杭州未来科技城的「企业数据大脑」就是一个典型. ...
- IntelliJ IDEA 在网页修改数据,但是在浏览器刷新的时候,不能读取到修改之后的数据
使用IntelliJ IDEA 在网页修改数据,但是在浏览器刷新的时候,不能读取到修改之后的数据? 解决办法:tomcat配置中,On frame deactivation属性选择Update cla ...
- Android - 读取XML文件中的数据
读取XML中存储的数据.将xmlfile.xml存放在assets文件夹中.在activity_main.xml中创建一个textview,用来显示读取到的数据. XML文件内容如下:xmlfile. ...
- 数据库学习任务四:数据读取器对象SqlDataReader、数据适配器对象SqlDataAdapter、数据集对象DataSet
数据库应用程序的开发流程一般主要分为以下几个步骤: 创建数据库 使用Connection对象连接数据库 使用Command对象对数据源执行SQL命令并返回数据 使用DataReader和DataSet ...
随机推荐
- javascript与java的不同之处
javascript与java的不同之处 虽然很像,但不是一种语言. 二者的区别体现在: 首先,它们是两个公司开发的不同的两个产品,Java是SUN公司推出的新一代面向对象的程序设计语言,特别适合 ...
- command for ContextMenu in DataTemplate
准备教程. 1. 无难度方式 <DataTemplate x:Key="DataTemplate1"> <StackPanel > <toolkit ...
- iOS 获取当前经纬度
一般说来LBS功能一般分为两块:一块是地理定位,就是获取当前精度.纬度和地理位置的功能,这一部分功能主要用到CoreLocation.Frameworks.一部分就是显示地图信息.丰富地图内容等,这一 ...
- service mysqld start 报错:service mysqld start 报错 090517 13:34:15 [ERROR] Can't open the mysql.plugin table. Please run mysql_upgrade to create it. 090Can't open the mysql.plugin table. Please run mysql
service mysqld start 报错 090517 13:34:15 [ERROR] Can't open the mysql.plugin table. Please run mysql_ ...
- 【Linux】linux命令大全
[注意]:命令[compgen -b]可以列出所有当前系统支持的命令. 109个Linux命令 目录 1 文件管理... 5 1.1 basename. 5 1.2 ...
- git reset revert区别
git revert HEAD~1 撤销倒数第二次提交,并将这次操作作为一个新提交添加到log里,之前的提交历史不变,是撤销某次提交 git reset,直接回退到指定版本 git reset --s ...
- 为什么代理属性设置成assign为了防止生成保留环来
循环引用 全部的引用计数系统, 都存在循环应用的问题, 比如以下的引用关系: 1. 对象a创建并引用到了对象b 2. 对象b创建并引用到了对象c 3. 对象c创建并引用到了对象b 这时候b和c的引用计 ...
- ckeditor的详细配置(转)
CKEditor 3 JavaScript API Documentation : http://docs.cksource.com/ckeditor_api/symbols/CKEDITOR.con ...
- 全栈技术经理——团队管理:每周问问你的团队这这些问题 V1.0
全栈技术经理--团队管理:每周问问你的团队这这些问题 V1.0 1.本周取得了哪些进展? 通过回答这个问题可以让员工庆祝甚至夸耀一些自己的成果,包括那些跟最高优先级不相干而被忽视的小事情.借此你也 ...
- lua基础【三】唯一数据结构table表
--[[ 数据结构table对象(一种动态分配的对象) lua中的表操作.table类型实现了"关联数组的". "关联数组是一种具有特殊索引方式的数组" 能够通 ...