Beautifulsoup关于find的测试

from bs4 import BeautifulSoup

import requests

url='https://book.douban.com/subject_search?search_text=golang&cat=1001'

html=requests.get(url).text

# print(html)

soup=BeautifulSoup(html,'lxml')

booknames=soup.findAll('li',{'class':'subject-item'})   #查找标签

bookname=[]

chubanshe=[]

year=[]

pingjia_price=[]

for name in booknames:

    a=name.get_text().replace(' ','').replace('\n','').split('/')  #get_text方法

    # print(a)

    bookname.append(a[0])

    chubanshe.append(a[1])

    year.append(a[2])

    pingjia_price.append(a[-1])

print(bookname)

print(chubanshe)

print(year)

print(pingjia_price)

　　beautifulsoup中的find和findall参数

findAll(tag,attributes,recursive,text,limit,keywords)

findAll(tag,attributes,recursive,text,keywords)

分别代表，标签，传入字典形式的标签属性，递归开关，文本匹配数量，limitpi匹配前多少项目，关键字参数

一般来说，使用，第一个和最后的关键字参数便可，其他都是默认参数，

Beautifulsoup关于find的测试的更多相关文章

beautifulsoup测试
import re from bs4 import BeautifulSoup html_doc = """ <html><head><ti ...
BeautifulSoup库测试代码
import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3. ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
BeautifulSoup ：功能使用
# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Envirom ...
使用Beautifulsoup爬取药智网数据
使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...
python+urllib+beautifulSoup实现一个简单的爬虫
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能 ...
Python-Windows下安装BeautifulSoup和requests第三方模块
http://blog.csdn.net/yannanxiu/article/details/50432498 首先给出官网地址: 1.Request官网 2.BeautifulSoup官网我下载的 ...
BeautifulSoup获取指定class样式的div
如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法, 1)用字符串查找方法,然 ...
Python -- BeautifulSoup的学习使用
BeautifulSoup4.3 的使用下载和安装 # 下载 http://www.crummy.com/software/BeautifulSoup/bs4/download/ # 解压后使用r ...

随机推荐

jquery_ajax 跨域
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
linux目录详解
网卡的配置文件目录 /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 ...
将本地代码通过git命令上传到github的流程
首先在项目根目录打开命令行或者直接打开git-bash转到项目根目录下 1.创建本地仓库 $ git init 初始化本地仓库 $ git add --all 将项目文件添加到跟踪列表 $ git c ...
poj1155 依赖背包
/* 依赖背包 dp[i][j]表示i结点为根的树选择j个用户时的最大剩余费用即背包容量是j,价值是最大费用 */ #include<iostream> #include<cstr ...
noip 初赛复习重点知识点
一.进制转化将k进制数转化为十进制数: 设k进制数为(abcd)k,则对应十进制数为 (小数同理,乘k的负幂次) 将十进制数转成k进制数: 设十进制数为x: t1=x/k,t2=x mod k t1 ...
vsftpd中的local_umask和anon_umask
umask是在linux中常见的一个东西,它其实是一个掩码.当然,也有umask这样一个命令,它是对用户建立的文件的默认属性的定义.该定义为: 假设umask为022,则对于一个文件夹的话,它的默认 ...
C#算法选择排序、冒泡排序、插入排序
1.冒泡排序: 方法一: public static int[] MaoPao(int[] arr) { //执行多少次 for (int i = 0; i < arr.Length; i++) ...
Newtonsoft.Json WindowPhone7.1
才发现最新版本的Newtonsoft.Json 已经不支持wp71了… 查了下最后一个支持的版本是Json.NET 5.0 Release 8… 安装的时候需要: Install-Package Ne ...
CentOS6— Redis安装（转和延续）
Part I. Redis安装(转载部分) 一.安装(官网地址 http://redis.io/download) wget http://download.redis.io/redis-stable ...
【bzoj4887】[Tjoi2017]可乐矩阵乘法
题解: 比较简单的一道题目如果会倍增floyd这个就很显然的每次转移看成乘上一个矩阵另外自爆等同于连到一个特殊点,特殊点只能走自己停留就是增加自环

Beautifulsoup关于find的测试

Beautifulsoup关于find的测试的更多相关文章

随机推荐

热门专题