python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库

1、爬取页面 http://www.quanshu.net/book/9/9055/

2、用到模块urllib（网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整url),MySQLdb(导入MySQL）数据库

3、for 循环遍历列表取得盗墓笔记章节title 和 titleurl

4、try except 异常处理

5、python 代码

#-*-coding: utf-8 -*-

import urllib

import re

import urlparse

import MySQLdb

rooturl='http://www.quanshu.net/book/9/9055/'

#getlist返回包含title 和titleurl的列表

def getlist(url):

    html=urllib.urlopen(url).read()

    html=html.decode('gb2312').encode('utf-8')

    reg=r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'

    return re.findall(reg,html)

try:

    conn = MySQLdb.connect(host='localhost', user='root', passwd='Admin@', db='local_db', port=3306, charset='utf8')

    with conn:

        cursor = conn.cursor()

        #如果存在daomubiji数据表先删除

        drop_table_sql='DROP  TABLE IF EXISTS daomubiji'

        cursor.execute(drop_table_sql)

        conn.commit()

        #如果存在daomubiji数据表 先删除后接着创建daomubiji表

        create_table_sql = '''

           CREATE TABLE daomubiji (

           ID INT(11),

           title VARCHAR(255),

           titleurl VARCHAR(255)

           )ENGINE=INNODB DEFAULT CHARSET=utf8

        '''

        cursor.execute(create_table_sql)

        conn.commit()

        #下面调用getlist(）函数获取rooturl下所有章节的titleurl 和title 组成的列表

        urllist = getlist(rooturl)

        #href属性取得的url不完整 仅取出了完整url的右半段 因此下面for循环变量名起名righturl

        ID=0

        #对列表进行遍历 取 titleurl 和title

        for righturl in urllist:

            title = righturl[1]

            newurl = righturl[0]

            #urlparse 模块的urlparse.urljoin方法将righturl 按照rooturl格式拼接成完整url

            titleurl = urlparse.urljoin(rooturl, newurl)

            ID+=1

            print ID,title, titleurl

            cursor.execute("INSERT INTO  daomubiji values(%s,%s,%s)", (ID,title, titleurl))

            conn.commit()

        print "输入了"+ str(ID) +"条数据"

except MySQLdb.Error:

    print "连接失败！"

代码执行情况：

6、MySQL数据库查询是否导入成功

SELECT * FROM daomubiji

7、执行成功

python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201的更多相关文章

python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
xpath爬虫实战-爬取小说斗罗大陆第四部
爬取思路用到的第三方库文件 lxml,requests,fake_agent 用fake_agent里的UserAgent修饰爬虫用requests进行基本的请求用lxml进行html的分析用 ...
python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库。
小帅b说过在这几篇中会着重说说将爬取下来的数据进行存储上次我们说了一种 csv 的存储方式这次主要来说说怎么将爬取下来的数据保存到 MySQL 数据库接下来就是学习python的正确姿势真 ...
scrapy爬取小说盗墓笔记
# -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scra ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...

随机推荐

Jqgrid 数据格式化配置
默认格式化 $jgrid = { formatter : { integer : {thousandsSeparator: " ", defaultValue: '0'}, num ...
H20的题——[noip2003]银河英雄传（并查集）
公元五八○一年,地球居民迁移至金牛座α第二行星,在那里发表银河联邦创立宣言,同年改元为宇宙历元年,并开始向银河系深处拓展. 宇宙历七九九年,银河系的两大军事集团在巴米利恩星域爆发战争.泰山压顶集团派宇 ...
黑马程序员——JAVA基础之IO流缓冲区，转换流，字节流
------- android培训.java培训.期待与您交流! ---------- 字符流的缓冲区缓冲区的出现提高了对数据的读写效率. 对应类 • BufferedWriter ...
asp.net ajax 调用一例
<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="WebForm1.aspx. ...
unity, readOnly varible
参考:http://answers.unity3d.com/questions/489942/how-to-make-a-readonly-property-in-inspector.html
SVN错误：run 'cleanup' if it was interrupted的解决
原文转自:http://www.lxway.com/812960411.htm 今天碰到了个郁闷的问题,svn执行clean up命令时报错“Previous operation has not fi ...
Oracle警告、跟踪文件（10046、死锁等跟踪）
跟踪文件由各个后台进程生成,警报日志中记录关键操作包括: ·所有启动和关闭命令,包括中间命令,如alter database mount ·实例的所有内部错误(ORA-600错误,只能 ...
linux 下 ntfs移动硬盘挂载
fdisk -l Disk /dev/sdb: 500.0 GB, 500074283008 bytes255 heads, 63 sectors/track, 60797 cylindersUnit ...
overload, override和overwrite之间的区别
Overload.Overwrite和Override的概念比较容易混淆,而且Overwrite和Override的中文翻译五花八门,让人很Confuse,顾保持英文原意: Overload 重载 ...
spring java 获取webapp下文件路径
spring java 获取webapp下文件路径 @RequestMapping("/act/worldcup_schedule_time/imgdownload") @Resp ...

python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201

python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201的更多相关文章

随机推荐

热门专题