1.获取子标签:

thr_msgs = soup.find_all('div',class_=re.compile('msg'))

 
for in thr_msgs:
    print(i)
    first = i.select('em:nth-of-type(1)')
    print(first)
 
 
 
>>>
 
<div class='\"msg\"'><em>佛山</em><em>1-3年</em><em>大专</em></div>
[<em>佛山</em>]
<div class='\"msg\"'><em>南京</em><em>3-5年</em><em>本科</em></div>
[<em>南京</em>]
<div class='\"msg\"'><em>南阳</em><em>1-3年</em><em>大专</em></div>
[<em>南阳</em>]
<div class='\"msg\"'><em>深圳</em><em>1年以内</em><em>本科</em></div>
[<em>深圳</em>]

2.过去一个标签内内容:

原文:https://blog.csdn.net/suibianshen2012/article/details/62040460?utm_source=copy

  1. # -*- coding:utf-8 -*-
  2. #python 2.7
  3. #XiaoDeng
  4. #http://tieba.baidu.com/p/2460150866
  5. #标签操作
  6.  
  7. from bs4 import BeautifulSoup
  8. import urllib.request
  9. import re
  10.  
  11. #如果是网址,可以用这个办法来读取网页
  12. #html_doc = "http://tieba.baidu.com/p/2460150866"
  13. #req = urllib.request.Request(html_doc)
  14. #webpage = urllib.request.urlopen(req)
  15. #html = webpage.read()
  16.  
  17. html="""
  18. <html><head><title>The Dormouse's story</title></head>
  19. <body>
  20. <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
  21. <p class="story">Once upon a time there were three little sisters; and their names were
  22. <a href="http://example.com/elsie" class="sister" id="xiaodeng"><!-- Elsie --></a>,
  23. <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
  24. <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
  25. <a href="http://example.com/lacie" class="sister" id="xiaodeng">Lacie</a>
  26. and they lived at the bottom of a well.</p>
  27. <p class="story">...</p>
  28. """
  29. soup = BeautifulSoup(html, 'html.parser') #文档对象
  30.  
  31. #查找a标签,只会查找出一个a标签
  32. #print(soup.a)#<a class="sister" href="http://example.com/elsie" id="xiaodeng"><!-- Elsie --></a>
  33.  
  34. for k in soup.find_all('a'):
  35. print(k)
  36. print(k['class'])#查a标签的class属性
  37. print(k['id'])#查a标签的id
  38. print(k['href'])#查a标签的href
  39. print(k.string)#查a标签的string
  40. #tag.get('calss'),也可以达到这个效果

  37-python中bs4获取的标签中如何提取子标签

23-python用BeautifulSoup用抓取a标签内所有数据的更多相关文章

  1. python3用BeautifulSoup用字典的方法抓取a标签内的数据

    # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 imp ...

  2. python3用BeautifulSoup抓取a标签

    # -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import Be ...

  3. 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇

    测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇   在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...

  4. (转)利用Beautiful Soup去抓取p标签下class=jstest的内容

    1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...

  5. SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享

    SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享 第一步建库和建表 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] G ...

  6. Hawk: 20分钟无编程抓取大众点评17万数据

    1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源.详细介绍可参考:http://www.cnblogs.com/buptzym/p/545419 ...

  7. SQL Server定时自动抓取耗时SQL并归档数据脚本分享

    原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享 第一步建库 USE [master] GO CREATE DATABA ...

  8. 利用wireshark抓取远程linux上的数据包

    原文发表在我的博客主页,转载请注明出处. 前言 因为出差,前后准备总结了一周多,所以博客有所搁置.出差真是累人的活计,不过确实可以学习到很多东西,跟着老板学习做人,学习交流的技巧.入正题~ wires ...

  9. 用PHP抓取百度贴吧邮箱数据

    注:本程序可能非常适合那些做百度贴吧营销的朋友. 去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发. 对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些 ...

随机推荐

  1. 使用POI导出Excel(二)-利用模板

    一.基本操作见: 使用POI导出Excel 二.本次功能需求 给了一个模板,里面有6个sheet页,每页里面都需要填充相应的数据.如图: 三.需求分析 1.分了6个sheet页,每页的数据都不一样,首 ...

  2. Python 使用PyMySql 库 连接MySql数据库时 查询中文遇到的乱码问题(实测可行) python 连接 MySql 中文乱码 pymysql库

    最近所写的代码中需要用到python去连接MySql数据库,因为是用PyQt5来构建的GUI,原本打算使用PyQt5中的数据库连接方法,后来虽然能够正确连接上发现还是不能提交修改内容,最后在qq交流群 ...

  3. Codeforces 1006C:Three Parts of the Array(前缀和+map)

    题目链接:http://codeforces.com/problemset/problem/1006/C (CSDN又改版了,复制粘贴来过来的题目没有排版了,好难看,以后就截图+题目链接了) 题目截图 ...

  4. 便捷的Jenkins jswidgets

    很多时候我们在构建完成之后需要查看构建的状态,类似github 中的build Status 插件安装 搜索插件 使用 目前好像只支持自由项目的构建 代码集成 <!DOCTYPE html> ...

  5. 随笔:关于 FastAdmin ueditor 插件 中的 rand mt_rand mt_getrandmax 问题

    随笔:关于 FastAdmin ueditor 插件 中的 rand mt_rand mt_getrandmax 问题 问题来源 一位小伙伴在使用 Ueditor 插件时出错,因为用的是 php7.1 ...

  6. 世界级的开源项目:TiDB 如何重新定义下一代关系型数据库

    著名的开源分布式缓存服务 Codis 的作者,PingCAP 联合创始人& CTO ,资深 infrastructure 工程师的黄东旭,擅长分布式存储系统的设计与实现,开源狂热分子的技术大神 ...

  7. CentOS 6.6下 BCM4312 802.11b/g无线网卡驱动安装

    1.目前www.broadcom.com网站上最新版本为hybrid-v35,但此版本与2.6.32不匹配,无法识别验证密码,搜索网上说是要求升级内核,后根据http://www.dadclab.co ...

  8. IE9 下面, XMLHttpRequest 是不支持跨域请求的解决方法

    在 IE9 下面, XMLHttpRequest 是不支持跨域请求的. IE10 的 XMLHttpRequest 支持跨域, 而 IE8, IE9 需要使用 XDomainRequest 来实现跨域 ...

  9. CentOS 6.5 下keepalived服务的配置

    CentOS 6.5 下keepalived服务的配置 参考网站: http://zhangxugg-163-com.iteye.com/blog/1665419 http://www.2cto.co ...

  10. 介绍一个开源的 C++ 开发框架 openFrameworks 。

    作为一个图形图像方向的研究生,我经常都在和 OpenGL .OpenCV 等多种 C++ 库打交道.这些库遵循着不同的规则和用法:另外,为了让自己的程序具有更多的交互能力,编写界面也是一个家常便饭的工 ...