Python 爬取图书图片和地址

#-*- coding:utf-8 -*-

import xlwt

import urllib

import re

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

def get_book_message(url):

    page = urllib.urlopen(url)

    html = page.read()

    urls = []

    page.close()

    imgReg = r'src="(.+?\.jpg)"'

    titlReg = r'rel="bookmark">(.+?)</a>'

    divre = re.compile(imgReg)

    divreTitle = re.compile(titlReg)

    divlist = re.findall(divre,html)

    titleList = re.findall(divreTitle,html)

    bookMessage = {}

    for url,title in zip(divlist,titleList):

        bookMessage[title] = url

    return bookMessage

def run():

    value = get_book_message('http://www.allitebooks.com/')

    workbook = xlwt.Workbook(encoding = 'ascii')

    worksheet = workbook.add_sheet('MyBookMessage')

    worksheet.write(0,1,u'地址')

    worksheet.write(0,2,u'标题')

    index = 1

    for x in value:

        worksheet.write(index,1,x)

        worksheet.write(index,2,value[x])

        index = index + 1

    workbook.save('MyBookMessage.xls')

run()

Python 爬取图书图片和地址的更多相关文章

Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
Python 爬取美女图片，分目录多级存储
最近有个需求:下载https://mm.meiji2.com/网站的图片. 所以简单研究了一下爬虫. 在此整理一下结果,一为自己记录,二给后人一些方向. 爬取结果如图: 整体研究周期 2-3 天, ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
用python 爬取网页图片
import re import string import sys import os import urllib url="http://tieba.baidu.com/p/252129 ...
python爬取网页图片
# html:网页地址 def getImg2(html): soup = BeautifulSoup(html, 'html.parser') href_regex = re.compile(r'^ ...
python爬取百度图片
import requests import re from urllib import parse import os from threading import Thread def downlo ...
python爬取许多图片的代码
from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = & ...
python 爬取妹子
爬取妹子图片网址:https://www.mzitu.com/jiepai/ 2019-06-13 环境WIN10 1903 python 3.7.3 个人习惯先在IDLE中进行调试 import ...

随机推荐

LeetCode Pascal's Triangle Pascal三角形
题意:给一个数字,返回一个二维数组,包含一个三角形. 思路:n=0.1.2都是特例,特别处理.3行以上的的头尾都是1,其他都是依靠上一行的两个数.具体了解Pascal三角形原理. class Solu ...
洛谷 P2733 家的范围 Home on the Range
题目背景农民约翰在一片边长是N (2 <= N <= 250)英里的正方形牧场上放牧他的奶牛.(因为一些原因,他的奶牛只在正方形的牧场上吃草.)遗憾的是,他的奶牛已经毁坏一些土地.( 一 ...
LibreOJ #6208. 树上询问
内存限制:512 MiB 时间限制:500 ms 标准输入输出题目类型:传统评测方式:文本比较上传者: 匿名树链剖分+线段树屠龙宝刀点击就送 #include <vector> ...
cookie存验证码时间，时间没走完不能再次点击
<script> var balanceSeconds=getcookie('Num'); console.log(balanceSeconds) var timer; var isCli ...
1066: 输入n个数和输出调整后的n个数
1066: 输入n个数和输出调整后的n个数 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 2739 Solved: 1578[Submit][Stat ...
剑指offer46 求1+2+...+n 以及& &&区别
参考代码: class Solution { public: int Sum_Solution(int n) { int result = n; result && (result + ...
beta版和alpha版
外部测试版的意思. 软件会出现三种版本 1.alpha内部测试版本,极不稳定,一般也不会出现的公众视线,仅供内部测试人员测试用. 2.beta公共测试版,就是对外发布软件的测试版,收集公众的意见和建议 ...
C# 调用腾讯地图WebService API获取距离(一对多)
官方文档地址:https://lbs.qq.com/webservice_v1/guide-distance.html 代码: /// <summary> /// 获取距离最近的点的经纬度 ...
Github使用技巧总结
<config> PyCharm与GitHub配置使用总结 <readme> 在github的readme添加图片 github readme写法 GitHub上README. ...
Ubuntu安装sogou拼音输入法
1.更新系统:sudo apt-get update 2.更新相关依赖 sudo apt-get install fcitx -f 2.安装fcitx:sudo apt-get install fci ...

Python 爬取图书图片和地址

Python 爬取图书图片和地址的更多相关文章

随机推荐

热门专题