python爬虫的一些心得

爬虫用于从网上得到目标数据，根据需要对其予以利用，加以分析，得到想要的实验成果。现在讲一讲我这两天学到的东西。

第一，爬虫的算法结构，包括以下几个方面：

（1）读取网络数据

（2）将获取的数据解析为目标格式，进而筛选出想要的数据

（3）将有用数据存于本地数据库中

第二，具体实施方案

（1）读取网络数据，需要用到urllib和urllib2两个库，和需要爬取数据的资源定位符URL。

通过url，将网页所有数据
1 request = urllib2.request(url)

 response = urllib2.response(request)

 html = response.read()

关于url的动态变化
 1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

 i=0

 for tim in range(1364774400,1365206400,86400):

    i=i+1

    if(i%180==0):

      time.sleep(15)

    ltime=time.localtime(tim)

    timeStr=time.strftime("%Y-%m-%d", ltime)

    url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

    url=url+timeStr

    print url

（2）利用BeautifulSoup将获取的数据解析为目标格式，进而筛选出想要的数据

 soup = BeautifulSoup(html,"html.parser")

 trs = soup.find("table",id="DaliyReportControl1_DataGridDataDic")

 length = len(trs.contents)

（3）利用Access，分三步：建立数据库连接 --> 打开一张表 --> 存储数据

 import win32com.client

 ##建立数据库连接

 conn = win32com.client.Dispatch(r'ADODB.Connection')

 DSN = 'PROVIDER=Microsoft.Jet.OLEDB.4.0;DATA SOURCE=D:/test.mdb;'

 conn.Open(DSN)

 ##打开一个记录集

 rs = win32com.client.Dispatch(r'ADODB.Recordset')

 rs_name = 'aircondition'#表名

 rs.Open('[' + rs_name + ']', conn, 1, 3)

 print rs.RecordCount
*************
   conn.Close()

 for x in range(2,length-1):

       if(len(trs.contents[x].contents)==8):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[2].string

          rs.Fields('AQI').Value=trs.contents[x].contents[3].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[4].string

          rs.Fields('Grade').Value=trs.contents[x].contents[5].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[6].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "***********8"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string + "," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string + "," + trs.contents[x].contents[7].string

       elif(len(trs.contents[x].contents)==7):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[1].string

          rs.Fields('AQI').Value=trs.contents[x].contents[2].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[3].string

          rs.Fields('Grade').Value=trs.contents[x].contents[4].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[5].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "*******" + "7"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string +"," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string

    print "**************"+str(i)+"***********" + str(timeStr)+"**************"

时间关系，并没有很仔细的归纳。以后有机会再整理吧。

python爬虫的一些心得的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
我的第一个Python爬虫——谈心得
2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫相关
一.Python re模块的基本用法: https://blog.csdn.net/chenmozhe22/article/details/80601971 二.爬取网页图片 https://www. ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
自学Python十一 Python爬虫总结
通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试 ...
我的第一个 python 爬虫脚本
#!/usr/bin/env python# coding=utf-8import urllib2from bs4 import BeautifulSoup #res = urllib.urlopen ...

随机推荐

邮件中嵌入html中要注意的样式
工作中常会有需求向用户发送邮件,需要前端工程师来制作html格式的邮件,但是由于邮件客户端对样式的支持有限,要兼容很多种浏览器需要注意很多原则: 1.邮件使用table+css布局 2.邮件主要部分在 ...
Autofac - MVC/WebApi中的应用
Autofac前面写了那么多篇, 其实就是为了今天这一篇, Autofac在MVC和WebApi中的应用. 一.目录结构先看一下我的目录结构吧, 搭了个非常简单的架构, IOC(web), IBLL ...
css样式之border-radius
border-radius 属性设置边框的园角可能的值:像素,百分比扩展延伸 html代码 <div></div> css代码 div { height: 200px; w ...
一个软件开发者的BPM之路
我是小林,一名普通的软件工程师,从事BPM(业务流程管理)软件开发工作.我没有几十年的技术底蕴,无法像大牛们一样高谈阔论,品评BPM开发之道:也不是资深的流程管理专家,能与大家分析流程管理的时弊.我只 ...
H3 BPM社区：流程开发者的学习交流平台
企业上市有上市流程,融资扩充有融资流程,项目招投标有招投标流程,部门领导选拔有晋升流程,员工请假休假有请假流程,早起上班梳洗有符合自己习惯的流程--生活处处是流程,流程无处不在.但从信息化建设来说,企 ...
[OC] NSURLSession
有的程序员老了,还没听过NSURLSession 有的程序员还嫩,没用过NSURLConnection 有的程序员很单纯,他只知道AFN. NSURLConnection在iOS9被宣布弃用,NSUR ...
敏捷转型历程 - Sprint4 回顾会
我: Tech Leader 团队:团队成员分布在两个城市,我所在的城市包括我有4个成员,另外一个城市包括SM有7个成员.另外由于我们的BA离职了,我暂代IT 的PO 职位.PM和我在一个城市,但他不 ...
【AutoMapper官方文档】DTO与Domin Model相互转换（中）
写在前面 AutoMapper目录: [AutoMapper官方文档]DTO与Domin Model相互转换(上) [AutoMapper官方文档]DTO与Domin Model相互转换(中) [Au ...
架构之路（九）Session Per Request
前面的两篇反应很差:没评论没赞.很伤心啊,为什么呢?搞得我好长一段时间都没更新了——呵呵,好吧,我承认,这只是我的借口.不过,还是希望大家多给反馈.没有反馈,我就只能猜了:前面两篇是不是写得太“粗”了 ...
Spark笔记：复杂RDD的API的理解（下）
本篇接着谈谈那些稍微复杂的API. 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录这个方法我最开始接 ...

python爬虫的一些心得

python爬虫的一些心得的更多相关文章

随机推荐

热门专题