爬虫之爬取豆瓣图书名字及ID

from urllib import request

from bs4 import BeautifulSoup as bs

#爬取豆瓣最受关注图书榜

resp = request.urlopen('https://book.douban.com/chart?subcat=I')

html_data = resp.read().decode('utf-8')

#转化为BeautifulSoup对象

soup = bs(html_data,'html.parser')

#搜索最受关注的图书列表

topchart_book =soup.find_all('ul',class_='chart-dashed-list')

#搜索列表中所有图书

topchart_book_list = topchart_book[0].find_all('li',class_='media clearfix')

#新建数组用于存放后续的数据

topchart_list = []

#遍历图书馆列表，从中过滤出我们所需的信息

for item in topchart_book_list:

    #新建字典用于存放我们的图书信息，之后可用class来存储

    topchart_dict = {}

    #搜索到具体信息的位置

    book_item = item.find('a',class_='fleft')

    book_items = item.find('span',class_='font-small color-red fleft')

    #得到图书ID

    topchart_dict['id'] = book_item['href'].split('/')[4]   

    #得到图书名称

    topchart_dict['name'] = book_item.getText().replace('\t','').replace('\n','').replace(' ','')  #图书名字

    #得到图书评分

    topchart_dict['grade'] = book_items.getText()

    #将图书信息加入到数组中

    topchart_list.append(topchart_dict)

print(topchart_list)

爬虫之爬取豆瓣图书名字及ID的更多相关文章

requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器会包含表头通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
go爬虫之爬取豆瓣电影
go爬取豆瓣电影好久没使用go语言做个项目了,上午闲来无事花了点时间使用golang来爬取豆瓣top电影,这里我没有用colly框架而是自己设计简单流程.mark一下思路定义两个channel, ...

随机推荐

Python对Redis增删改查
pip install redis import redis # 连接redis # 几个常用默认参数: # host='localhost', port=6379, db=0, decode_res ...
机器学习--K近邻（KNN）算法的原理及优缺点
一.KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法. 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对 ...
Noip刷题计划
写在前面去年也想刷10年NOIP来着..结果刷到13年就没动力了233... 今年一定要完成目标啊!! "愿你明日重生,醒时心存冬阳" 2018年题目首次得分出错原因考点 ...
lua require路径设置实例
1.首先要强调的是,lua require的路径用的是斜杠"/",而不是从Windows文件属性那里复制来的反斜杠"\". 2.通过 print(pagckag ...
The trap of Bash trap
Can you spot the problem with the following Bash script? resource_created="false" function ...
Hibernate 知识收纳.
一.乐观锁和悲观锁悲观锁(Pessimistic Lock), 顾名思义,就是很悲观,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会block直到它拿 ...
手把手教你如何用 OpenCV + Python 实现人脸检测
配好了OpenCV的Python环境,OpenCV的Python环境搭建.于是迫不及待的想体验一下opencv的人脸识别,如下文. 必备知识 Haar-like Haar-like百科释义.通俗的来讲 ...
java高并发系列 - 第4天:JMM相关的一些概念
JMM(java内存模型),由于并发程序要比串行程序复杂很多,其中一个重要原因是并发程序中数据访问一致性和安全性将会受到严重挑战.如何保证一个线程可以看到正确的数据呢?这个问题看起来很白痴.对于串行程 ...
Idea导出jar包运行报错：找不到主清单属性解决方法
解决方法 1.打开项目结构 2.创建一个Artifact 3.设置我这里使用的maven,所以有resources文件夹 4.创建lib文件夹右键output diretory,选择创建文件夹,名 ...
Razor_06 列表的查询
Razor_06 列表的查询列表的查询同步/AJAX 查询分局部视图[强类型] system.text.Json Ajax 返回 Json 数据 , System.Text.Json .循环引 ...

爬虫之爬取豆瓣图书名字及ID

爬虫之爬取豆瓣图书名字及ID的更多相关文章

随机推荐

热门专题