python3用BeautifulSoup抓取a标签

# -*- coding:utf-8 -*-

#python 2.7

#XiaoDeng

#http://tieba.baidu.com/p/2460150866

from bs4 import BeautifulSoup

import urllib.request

html_doc = "http://tieba.baidu.com/p/2460150866"

req = urllib.request.Request(html_doc)

webpage = urllib.request.urlopen(req)

html = webpage.read()

soup = BeautifulSoup(html, 'html.parser')

#抓取class='app_icon_link'的a标签

img_src=soup.findAll("a",{'class':'app_icon_link'})   #抓取a标签

for img in img_src:

    img=img.findAll('img')

    for k in img:

        k=k.get('src')

        print(k)

python3用BeautifulSoup抓取a标签的更多相关文章

python3用BeautifulSoup抓取div标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 imp ...
python3用BeautifulSoup抓取id='xiaodeng',且正则包含‘elsie’的标签
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #使用多个指定名字的参数可以同时过滤 ...
python3+beautifulSoup4.6抓取某网站小说（三）网页分析，BeautifulSoup解析
本章学习内容:将网站上的小说都爬下来,存储到本地. 目标网站:www.cuiweijuxs.com 分析页面,发现一共4步:从主页进入分版打开分页列表.打开分页下所有链接.打开作品页面.打开单章内容. ...
python3用BeautifulSoup抓取图片地址
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #抓取图片地址 from bs4 i ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
python3+beautifulSoup4.6抓取某网站小说（四）多线程抓取
上一篇多文章,是二级目录,根目录"小说",二级目录"作品名称",之后就是小说文件. 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录- ...
Python3.x：抓取百事糗科段子
Python3.x:抓取百事糗科段子实现代码: #Python3.6 获取糗事百科的段子 import urllib.request #导入各类要用到的包 import urllib import ...
使用selenium+BeautifulSoup 抓取京东商城手机信息
1.准备工作: chromedriver 传送门:国内:http://npm.taobao.org/mirrors/chromedriver/ vpn: selenium BeautifulSo ...
利用BeautifulSoup抓取新浪网页新闻的内容
第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本直接上代码 #coding = 'utf-8' import requests from bs4 impor ...

随机推荐

webpack - require 概要
webpack 是一个预编译模块打包工具,它只会对使用到的模块进行打包. 一个模块是否被使用?可以根据该模块是否被 require 来判断.如果require时指定的是具体的模块名称与正确的路径,那么 ...
Jquery empty() remove() detach() 方法的区别
方法简介: empty() This method removes not only child (and other descendant) elements, but also any text ...
HDU5818 Joint Stacks 左偏树,可并堆
欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解题目传送门 - HDU5818 题意概括有两个栈,有3种操作. 第一种是往其中一个栈加入一个数: 第二种是取出其中一个栈的顶 ...
RabbitMq中的消息应答与持久化
一:消息应答 1.介绍涉及到的程序: boolean autoAck=false; channel.basicConsume(QUENE_NAME,autoAck,consumer); 2.auto ...
List实体去重
public static ArrayList<Room> removeDuplicate(List<Room> room) { Set<Room> set = n ...
类属性判断 hasattr getattr
Jetbrains 2018 等系列软件激活破解除去黄色警告框方法（含多个平台）
现在以IDEA 2018软件在windows为例进行讲解破解方法,其它软件及其在不同平台的破解方法原理大同小异,有需要的有兴趣的可以尝试一下. 最近更新了Intellij IDEA到2018.1.5 ...
canvas学习-----1px线条模糊问题
canvas有时候会出现1像素的线条模糊不清且好像更宽的情况,如下图: 这样的线条显然不是我们想要的. 这篇文章的目的就是弄清楚里面的原理,以及解决它. 大家都知道屏幕上最小的显示尺寸就是1像素,虽然 ...
关于Git的总结
首先我们先看一张图: 首先我们必须要先理解这几个概念:暂存区,本地仓库,远程仓库暂存区:这个是我们每一次进行代码修改的地方,例如我们ieda的所编译的代码就是缓存区本地仓库:是我们每一次pull, ...
Microsoft Corporation 去掉 windows 修改启动加载版权
windows 修改开机界面 boot启动界面 windows 修改启动加载版权 windows 系统如何修改开机画面的版权文字“Microsoft Corporation ... ◎Micro ...

python3用BeautifulSoup抓取a标签

python3用BeautifulSoup抓取a标签的更多相关文章

随机推荐

热门专题