使用python实现简单的爬虫
python爬虫的简单实现
开发环境配置
python环境的安装
python环境使用的是3.0以上版本
为了便于安装这里使用的是anaconda
下载链接是anaconda
选择下载64位即可
编辑器的安装
这里使用pycharm作为python开发的编辑器,下载网址 pycharm
下载Community社区版即可
在打开pycharm创建新项目的时候如下图所示,那么就代表了环境已经安装好了
爬虫的实现
包的安装
我们这里使用的爬虫插件是beautifulsoup不属于python的基础库,所以我们需要另行添加插件,在pycharm添加插件也是非常简单的,只需要在file->settings->project->project interpreter添加对应的插件即可
点击+号即可选择需要的python包进行安装
简单爬虫的初步实现
接下来就要开始真正的写爬虫了
#首先需要引入包
from urllib.request import urlopen
from bs4 import BeautifulSoup html = urlopen("https://www.cnblogs.com/ladyzhu/p/9617567.html")#括号内的是需要爬取的网址地址
bsObj = BeautifulSoup(html.read()) print(bsObj.title)
将数据写入到数据库
简单的数据清洗
前面我们已经爬取到到了一个简单的网页的信息,但是这些信息是杂乱无章的,接下我们已爬取研招网的院校库为例,爬取每个院校的校名、所在地、院校隶属,学习一下如何进行一个简单的数据处理与爬取。
我们可以看到整个界面是十分复杂的,但是我们可以进行一个分析,我们所需要的数据仅仅是最下面的表格内的数据
通过查看网页源码可以发现,所有的院校信息确实是保存在下面的一个table之中的
<table class="ch-table">
<thead>
<tr>
<th>院校名称</th>
<th width="100">所在地</th>
<th width="150">院校隶属</th>
<th width="100" class="ch-table-center">院校特性</th>
<th width="100" class="ch-table-center">研究生院</th>
<th width="100" class="ch-table-center">自划线院校</th>
<th width="90">在线咨询</th>
<th width="90">招生简章</th>
</tr>
</thead>
<tbody>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367878.dhtml" target="_blank">北京大学</a>
</td>
<td>北京</td>
<td>教育部</td>
<td class="ch-table-center">
<span class="ch-table-tag">985</span>
<span class="ch-table-tag">211</span>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td>
<a href="/zxdy/forum--type-sch,forumid-455559,method-listDefault,start-0,year-2014.dhtml"target="_blank">进入</a>
</td>
<td class="text_center">
<a href="/sch/listZszc--schId-367878,categoryId-10460768,mindex-13,start-0.dhtml" target="_blank">查询</a>
</td>
</tr>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367879.dhtml" target="_blank">中国人民大学</a>
</td>
<td>北京</td>
<td>教育部</td>
<td class="ch-table-center">
<span class="ch-table-tag">985</span>
<span class="ch-table-tag">211</span>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td>
<a href="/zxdy/forum--type-sch,forumid-441209,method-listDefault,start-0,year-2014.dhtml"
target="_blank">进入</a>
</td>
<a href="/sch/listZszc--schId-367879,categoryId-10460770,mindex-13,start-0.dhtml" target="_blank">查询</a>
</td>
</tr>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367880.dhtml" target="_blank">
清华大学
</a>
</td>
<td>北京</td>
<td>教育部</td>
<td class="ch-table-center">
<span class="ch-table-tag">985</span>
<span class="ch-table-tag">211</span>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td>
<a href="/zxdy/forum--type-sch,forumid-441314,method-listDefault,start-0,year-2014.dhtml"
target="_blank">进入</a>
</td>
<td class="text_center">
<a href="/sch/listZszc--schId-367880,categoryId-10460772,mindex-13,start-0.dhtml" target="_blank">查询</a>
</td>
</tr>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367881.dhtml" target="_blank">
北京交通大学
</a>
</td>
<td>北京</td>
<td>教育部</td>
<td class="ch-table-center">
<span class="ch-table-tag ch-table-tag-empty"></span>
<span class="ch-table-tag">211</span>
</td>
<td class="ch-table-center">
<i class="iconfont ch-table-tick"></i>
</td>
<td class="ch-table-center">
</td>
<td>
<a href="/zxdy/forum--type-sch,forumid-455567,method-listDefault,start-0,year-2014.dhtml"
target="_blank">进入</a>
</td>
<td class="text_center">
<a href="/sch/listZszc--schId-367881,categoryId-10460774,mindex-13,start-0.dhtml" target="_blank">查询</a>
</td>
</tr>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367882.dhtml" target="_blank">
北京工业大学
</a>
</td>
<td>北京</td>
<td>北京市</td>
<td class="ch-table-center">
<span class="ch-table-tag ch-table-tag-empty"></span>
<span class="ch-table-tag">211</span>
</td>
<td class="ch-table-center">
</td>
<td class="ch-table-center">
</td>
<td>
<a href="/zxdy/forum--type-sch,forumid-441418,method-listDefault,start-0,year-2014.dhtml"
target="_blank">进入</a>
</td>
<td class="text_center">
<a href="/sch/listZszc--schId-367882,categoryId-10460776,mindex-13,start-0.dhtml" target="_blank">查询</a>
</td>
</tr>
<tr>
<td>
<a href="/sch/schoolInfo--schId-367883.dhtml" target="_blank">北京航空航天大学
</a>
</td>
<td>北京</td>
<td>工业与信息化部</td>
<td class="ch-table-center">
<span class="ch-table-tag">985</span>
<span class="ch-table-tag">211</span>
</td>
</tbody>
</table>
我们可以发现数据是有规律的,每个tr的首个td是学校的名称,第二个td是院校所在地,第三个td是院校的隶属,我们需要的信息都有了,应该如何对这些复杂的信息进行一个简单的清洗呢?
#爬取院校信息方法
from urllib.request import urlopen
import pymysql
from urllib.error import HTTPError,URLError
from bs4 import BeautifulSoup
import re #爬取院校信息方法
def findSchoolInfo(url):
try:
html = urlopen(url)
except HTTPError as e:
return None
try:
bsObj = BeautifulSoup(html.read(),'lxml')
shcoolInfo = bsObj.findAll("table",{"class":"ch-table"})
except AttributeError as e:
return None
return shcoolInfo #处理信息为需要的信息
def handleSchoolInfo(info):
if info == None:
print("没有院校信息")
else:
school_list = []
for item in info:
list = item.findAll("tr")
for x in list:
school = x.findAll("td")
if len(school)
school_list.append(school[0:3])
else:
continue
for item in school_list:
school_name = item[0].get_text().strip()
school_shengfen = item[1].get_text()
shcool_belong = item[2].get_text() shcoolInfo = findSchoolInfo("https://yz.chsi.com.cn/sch/search.do?start=0"
handleSchoolInfo(shcoolInfo)
print("爬取完成")
在findSchoolInfo方法中我们初步对数据进行了一个处理,使用了findAll来进行了数据的首次爬取,可以看到所需要的表格已经被爬取到了
在handleSchoolInfo方法中同样使用到了findAll("tr")来对数据进行一个清洗,通过tr的筛选之后,table标签已经没有了
同理我们使用findAll("td")来进行td的筛选,同时可以发现一个数据是为空的,因为通过前面tr的筛选的首行信息里面是th而不是td的
接下来由于只需要每个数据的前三行,所以只需要将前三个数据保存即可,然后将保存的数据进行一个有效数据的剥离
school_list.append(school[0:3])
for item in school_list:
school_name = item[0].get_text().strip()
school_shengfen = item[1].get_text()
shcool_belong = item[2].get_text()
但是此时爬取到的数据也仅仅是当前页的数据,通过分析研招网的链接不难得知,每一页之间的差距仅仅是在最后的参数不同,那么在爬虫的URL进行修改即可
https://yz.chsi.com.cn/sch/?start=0
https://yz.chsi.com.cn/sch/?start=20
index = 0
while index < 44:
shcoolInfo = findSchoolInfo("https://yz.chsi.com.cn/sch/search.do?start="+str(index*20))
handleSchoolInfo(shcoolInfo)
index+=1
数据库的连接
使用的数据库是SQL Server 2012,首先需要的是进行包的安装与引入使用的是
import pyodbc
安装参考包的安装
pyodbc模块是用于odbc数据库(一种数据库通用接口标准)的连接,不仅限于SQL server,还包括Oracle,MySQL,Access,Excel等
连接字符串的编写
conn = pyodbc.connect(r'DRIVER={SQL Server Native Client 11.0};SERVER=数据库的IP地址;DATABASE=需要连接的数据库名称;UID=用户名;PWD=密码')
连接对象的建立
在完成连接字符串之后,我们需要建立连接对象
cursor = conn.cursor()
数据库连接就已经完成了,接下来就是数据库的基本操作了
数据写入到数据库
上面我们已经找到了需要的数据同时也建立了数据库的连接,接下来就是将数据插入到数据库了
def insertDB(school_name,school_shengfen,shcool_belong):
sql = "INSERT INTO tb_school(school_name,school_shengfen,school_belong) \
VALUES ('%s', '%s', '%s')" % \
(school_name,school_shengfen,shcool_belong)
try:
cursor.execute(sql)
conn.commit()
print(school_shengfen+"\t"+school_name+"添加成功")
except:
print("插入出错")
conn.rollback()
我们可以看到数据库内确实已经有数据了
最后关闭数据库的连接
conn.close()
参考引用:
[1] Ryan Mitchell. Web Scraping with Python[M]. O'Reilly Media ,2015.
[2] Python连接SQL Server入门
使用python实现简单的爬虫的更多相关文章
- Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://bbs.51testing. ...
- Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站“http://www.51testing. ...
- [Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
- 使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎.所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
- Python实现简单的爬虫获取某刀网的更新数据
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8 import urllib.request i ...
- python一个简单的爬虫测试
之前稍微学了一点python,后来一直都没用,今天稍微做一个小爬虫试一试.. 参考了: http://www.cnblogs.com/fnng/p/3576154.html 太久没用了,都忘记pych ...
- 用Python写简单的爬虫
准备: 1.扒网页,根据URL来获取网页信息 import urllib.parse import urllib.request response = urllib.request.urlopen(& ...
- 【Python开发】【神经网络与深度学习】如何利用Python写简单网络爬虫
平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看 先分析网站内容,红色部分即是网站文章内容div,可以看 ...
- python`最简单的爬虫`实现
不管怎么样,一天一更的好习惯一定要保持,现在一天不写点东西都感觉不踏实,总会感觉少了点什么,废话少说,记录一下今天初学的spider(甚至说不上是spider,I'm so vagetable [/认 ...
随机推荐
- plpgsql: 动态插入数据 1
--目标:1.建立一个函数实现 输入一个表名(tableName)tableName,一个JSON串{feildName1:feildVale1,feildName2:feildVale2} -- 然 ...
- SQL 基本编程
定义变量 赋值 取值 分支语句 循环语句 定义变量 declare @变量 数据类型 //@必须带着 不然程序不知道变量是什么 不带@ 电脑会报错 例如 declare ...
- CodeForces 149D Coloring Brackets (区间DP)
题意: 给一个合法的括号序列,仅含()这两种.现在要为每对括号中的其中一个括号上色,有两种可选:蓝or红.要求不能有两个同颜色的括号相邻,问有多少种染色的方法? 思路: 这题的模拟成分比较多吧?两种颜 ...
- vertx从入门到精通
1.Vert.x安装指南 http://blog.csdn.net/sdyy321/article/details/38926005 http://blog.csdn.net/chszs/articl ...
- Servlet和JSP之自定义标签学习
此文章会讲述简单标签处理器,因为经典自定义标签处理器没有简单标签处理器方便使用,故在此不进行描述. 参考:慕课网的<JSP自定义标签>视频; <Servlet.JSP和Sprin ...
- 二、pandas入门
import numpy as np import pandas as pd Series: #创建Series方法1 s1=pd.Series([1,2,3,4]) s1 # 0 1 # 1 2 # ...
- MVC使用方法
1.mvc打开html代码 后台处理: ///<summary> ///恢复html中的特殊字符 ///</summary> ...
- nonrepetitive DNA|repetitive DNA|moderaly repetitive DNA|highly repetitive DNA|selfish gene|junk DNA
5.5 真核生物基因组包含非重复DNA序列和重复DNA序列 依据重复序列的频数,可将真核生物DNA做如下分类: 1次即非重复DNA(nonrepetitive DNA,相应的也会更长,随着基因组扩大( ...
- xampp中php手动升级
http://windows.php.net/download/ //要下载的 里面有dll文件 http://www.php.net/downloads.php VC9 x86 ...
- Protocol(协议)、Delegate(委托)、DataSource(数据源)
这里以 UITableViewController 和 UITableView 的关系为例: //--------------------------------------------------- ...