import xlrd # 读xlsx
import xlsxwriter # 写xlsx
import urllib.request # url请求,Python3自带,Python2与3中urllib的区别见:http://blog.csdn.net/Jurbo/article/details/52313636
import os # 创建output文件夹
import glob # 获取文件夹下文件名称
import time # 记录时间
import json # 读取json格式文件 def xlsx_merge(folder,header,filename):
fileList = []
for fileName in glob.glob(folder + "*.xlsx"):
fileList.append(fileName)
fileNum = len(fileList)
matrix = [None] * fileNum
for i in range(fileNum):
fileName = fileList[i]
workBook = xlrd.open_workbook(fileName)
try:
sheet = workBook.sheet_by_index(0)
except Exception as e:
print(e)
nRows = sheet.nrows
matrix[i] = [0]*(nRows - 1)
nCols = sheet.ncols
for m in range(nRows - 1):
matrix[i][m] = [""]* nCols
for j in range(1,nRows):
for k in range(nCols):
matrix[i][j-1][k] = sheet.cell(j,k).value
fileName = xlsxwriter.Workbook(folder + filename + ".xlsx")
sheet = fileName.add_worksheet("merged")
for i in range(len(header)):
sheet.write(0,i,header[i])
rowIndex = 1
for fileIndex in range(fileNum):
for j in range(len(matrix[fileIndex])):
for colIndex in range (len(matrix[fileIndex][j])):
sheet.write(rowIndex,colIndex,matrix[fileIndex][j][colIndex])
rowIndex += 1
print("已完成%d个文件的合并"%fileNum)
fileName.close() def poi_by_adcode_poicode(folder,city_file = "city",poi_file = "poi",merge_or_not = 1):
city_file = city_file
poi_file = poi_file
merge_or_not = merge_or_not
header_full = ["id","name","type","typecode","biz_type","address","location","tel","pname","cityname","adname","rating","cost"] #返回结果控制为base时,输出的POI标签类别
header = ["id","name","type","typecode","biz_type","address","location","tel","pname","cityname","adname"]
offset = 25 # 实例设置每页展示10条POI(官方限定25条,实际测试可以为50)
# 读取列表
folder_sheet = xlrd.open_workbook(folder + "input/" + "folder.xlsx").sheet_by_index(0)
folder_list = folder_sheet.col_values(0)
folder_code_list = folder_sheet.col_values(1)
city_sheet = xlrd.open_workbook(folder+ "input/" + city_file + ".xlsx").sheet_by_index(0)
city_list =city_sheet.col_values(0)
city_code_list = city_sheet.col_values(1)
poi_type_sheet = xlrd.open_workbook(folder+ "input/" + poi_file + ".xlsx").sheet_by_index(0)
poi_type_list = poi_type_sheet.col_values(1)
total_work = (city_sheet.nrows - 1) * (poi_type_sheet.nrows - 1) # 指示工作总量
city_col_index = 1 # 用于记录上次已经读取到的行数
work_index = 1
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + ":抓取开始!")
for folder_index in range(1,len(folder_list)): # 区分地级市
output_folder = folder + folder_list[folder_index] +"/" # 创建输出路径
if os.path.isdir(output_folder):
pass
else:
os.makedirs(output_folder)
for city_index in range(city_col_index,len(city_list)): # 对行政区
if folder_code_list[folder_index][0:4] == city_code_list[city_index][0:4]: # 如果前四数字相同,则在该地级市目录下写入,否则退出循环
for poi_type_index in range(1,len(poi_type_list)): # 对兴趣点类别
workbook_file = output_folder + str(city_list[city_index]) + str(poi_type_list[poi_type_index]) + ".xlsx"
if os.path.exists(workbook_file):
print(str(city_list[city_index]) + str(poi_type_list[poi_type_index]) + " 已存在")
else:
workbook =xlsxwriter.Workbook(workbook_file) # 新建工作簿
sheet = workbook.add_worksheet("result") # 新建工作表
for col_index in range(len(header_full)):
sheet.write(0,col_index,header_full[col_index]) # 写表头
row_index = 1
for page_index in range(1, 101): # 制定行政区和兴趣点类别后,POI信息已固定, 现针对页数写入
try:
url = "http://restapi.amap.com/v3/place/text?&keywords=&types=" + str(poi_type_list[poi_type_index]) + "&city=" + city_code_list[city_index] + "&citylimit=true&offset=" + str(offset) + "&page="+ str(page_index) + "&key=你的key&extensions=all"
# 请求的结构化url地址如上,见:http://lbs.amap.com/api/webservice/guide/api/search/
data = json.load(urllib.request.urlopen(url))["pois"]
for i in range(offset):
for col_index in range(len(header)):
sheet.write(row_index, col_index, str(data[i][header[col_index]])) # 写入简略表头内容
sheet.write(row_index,len(header),str(data[i]["biz_ext"]["rating"])) # 写入详细表头内容
sheet.write(row_index,len(header) + 1,str(data[i]["biz_ext"]["cost"]))
row_index += 1
except:
break
workbook.close()
work_index = (city_index - 1) * len(poi_type_list) + poi_type_index
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + ":" + str(city_list[city_index]) + " " + str(poi_type_list[poi_type_index]) + " 已获取!进度:%.3f%%" %(work_index / total_work *100))
city_col_index += 1
else:
break
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "" + folder_list[folder_index] + "已完成!") if merge_or_not == 1:
if os.path.exists(output_folder + folder_list[folder_index] + ".xlsx"):
pass
else:
xlsx_merge(output_folder, header_full, folder_list[folder_index])
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + ":已对文件进行合并!")
else:
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + ":未进行合并!")
print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + ":所有工作完成!") poi_by_adcode_poicode("E:/XXDir/","city", "poi",1)

1、如果是将数据储存在excel中(存储在数据库中时,不用考虑),最好将结果分阶段保存成单独文件并及时输出时间和进度。

2、可以通过判断以前保存的文件是否存在达到断点续爬的目的,也可以通过此方式,实现多主机共享进度(农村人的分布式爬取^-^,通过建立共享文件夹)。

3、做多重循环时,要考虑清楚循环之间的步骤应该置哪个循环之下。

4、通过将复杂的功能拆分成多个小的功能,可以更好的完成一段复杂代码的编写。

5、尽可能将实现的功能编写成函数和库,以便下次调用。

Python——阶段总结(一)的更多相关文章

  1. 11、python阶段测试

    1.执行Python脚本的两种方式 如果想要永久保存代码,就要用文件的方式 如果想要调试代码,就要用交互式的方式 2.Pyhton单行注释和多行注释分别用什么? 单行注释:# 多行注释: '' &qu ...

  2. Python阶段复习 - part 4 - 用户登录程序

    简易版: #!/usr/bin/env python # _*_ coding:UTF-8 _*_ # __auth__:Dahlhin import sys userinfo = r'userinf ...

  3. Python阶段复习 - part 3 - Python函数

    利用函数打印9*9乘法表 def cheng(num): for i in range(1,num+1): for j in range(1,i+1): print('{0} * {1} = {2}' ...

  4. Python阶段复习 - part 2 - Python序列/持久化

    1. 把一个数字的list从小到大排序,然后写入文件,然后从文件中读取出来文件内容,然后反序,在追加到文件的下一行中 >>> import json >>> imp ...

  5. Python阶段复习 - part 1 - Python基础练习题

    1.实现1-100的所有的和 # 方法1: sum = 0 for i in range(1,101): sum += i print(sum) # 方法2: num1 = int(input('请输 ...

  6. Python学习 —— 阶段综合练习一

    Python 阶段综合练习一 综合之前的函数.数据结构.流程控制等,做以下实例练习:(建议先不要看代码,自己先试着写:代码仅供参考,有多种实现方法) 1. 定义 is_Even 函数,传一 int 参 ...

  7. Python中函数、类、模块和包的调用

    初学python阶段,大多数人对函数.类.模块和包的调用都搞得不是很清楚,这篇随笔就简单的进行说明. (1)函数 当函数定义好之后,可以直接调用. 比如:def summ(add1,add2),那么 ...

  8. 【目录】Python学习笔记

    目录:Python学习笔记 目标:坚持每天学习,每周一篇博文 1. Python学习笔记 - day1 - 概述及安装 2.Python学习笔记 - day2 - PyCharm的基本使用 3.Pyt ...

  9. day12_雷神_线程总结

    #线程 1. 多线程理论 0.进程只是一个资源单位,用来隔离资源,从执行角度是主线程. 1.多个线程共享一个进程的数据资源: 2.线程开销小: 2. 开线程的两种方式 0. 站在资源的角度,主进程:执 ...

随机推荐

  1. HTML+Css让网页自动适应电脑手机屏幕

    <meta name="viewport" content="width=device-width, initial-scale=1.0, minimum-scal ...

  2. w3wp.exe进程占用内存过高解决方法

    解决CPU占用过多: 1.在IIS中对每个网站进行单独的应用程序池配置.即互相之间不影响. 2.设置应用程序池的CPU监视,不超过25%(服务器为4CPU),每分钟刷新,超过限制时关闭. 根据w3wp ...

  3. WPF软件开发系统之四——医疗病人信息管理系统

    仿360悬浮窗的方式,始终有个工具栏浮在桌面的最顶层,方便任何时候操作. 主要功能包括:病人信息的添加.修改.查询.包括别人基本信息.诊断结果.接待医生.手术多张图片等. 系统特点:简洁.易操作.美观 ...

  4. androidkiller连接模拟器并修改源码调试

    首先需要连接模拟器,首先在模拟器的bin目录下运行命令:nox_adb.exe connect 127.0.0.1:62001(可以disconnect关闭): 之后在androidkiller的bi ...

  5. C#基础知识之IOC

    依赖注入:http://www.cnblogs.com/leoo2sk/archive/2009/06/17/1504693.html IOC:https://jinnianshilongnian.i ...

  6. 数据库【mongodb篇】练习操作

    本文的目标是通过大量的示例,来更好的理解如果在Mongodb中进行数据操作: 初入客户端刚利用 mongod命令进入客户端环境,此时对数据库一无所知: 举目四望,想知道现在有哪些数据库,   show ...

  7. git常用命令说明教程

    git常用命令说明教程 git介绍 是一个分布式的,版本控制软件.每台使用git的电脑都是一个分版本库.svn是集中管理的. 安装git 一 git相关操作 1.官网下载最新版安装https://gi ...

  8. windows下mysql 5.7以上版本安装及遇到的问题

    (原) 早些前用window安装mysql挺简单的,一个安装程序,一路下一步. 2006的5.0版本,确实太早了点. 于是官网上又下了一个版本,windows也是提供了二个版本Installer(安装 ...

  9. LVM 磁盘分区扩容

    前提:将磁盘中未分区磁盘进行分区操作 https://www.cnblogs.com/guoxiangyue/p/10033367.html 然后进行vg扩容 pvcreate /dev/sdc lv ...

  10. Codeforces Goodbye 2018

    Goodbye 2018 可能是我太菜考试的时候出不了$E$ 可能是我太菜考试的时候调不出$F$ 所以转化为手速场之后手速还上不去.jpg A 模拟题意... #include <cstdio& ...