Python爬虫常用模块，BeautifulSoup笔记

import urllib

import urllib.request as request

import re

from bs4 import *

#url = 'http://zh.house.qq.com/'

url = 'http://www.0756fang.com/'

html = request.urlopen(url).read().decode('utf-8')

soup = BeautifulSoup(html,"html.parser")

print(soup.head.meta['content'])#输出所得标签的‘’属性值

print(soup.span.string);print(soup.span.text)#两个效果一样，返回标签的text

#name属性是‘’的标签的<ResultSet>类，是一个由<Tag>组成的list

print(soup.find_all(attrs={'name':'keywords'}))

print(soup.find_all(class_='site_name'))#class属性是‘’的<Tag>的list,即<ResultSet>

print(soup.find_all(class_='site_name')[0])#这是一个<Tag>

print(soup.find(attrs={'name':'keywords'}))#name属性是‘’的标签的<Tag>类

print(soup.find('meta',attrs={'name':'keywords'}))#name属性是‘’的meta标签的<Tag>类

print(soup.find('meta',attrs={'name':'keywords'})['content'])#<Tag类>可直接查属性值

#配合re模块使用，可以忽略大小写

#如下面例子，可以找到name属性为keywords，KEYWORDS,KeyWORds等的meta标签

print(soup.find('meta',attrs={'name':re.compile('keywords',re.IGNORECASE)}))

'''-------------------------------------------------------------------------'''

'''----------------------------修改BeautifulSoup—----------------------------'''

'''-------------------------------------------------------------------------'''

soup.find(attrs={'name':'keywords'}).extract#调用这个方法，可以删除这一个标签

soup.title.name='ppp'#可以把Tag的名字<title>改成<ppp>

#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。

Tag1 = a.new_tag('li',class_='123')'''创造一个Tag'''

a.title.append（Tag1）#把Tag1添加为name是title的Tag的最后一个【子节点】，没有换行

      #.insert(0,Tag1)----这里用insert的话，第一个参数可以控制所添加【子节点】的先后位置

      #.insert_after(Tag1)---和insert_before一样，添加为Title的【兄弟节点】

soup.head.meta['content']='随便输入，可以添加（或更改）这个Tag的content属性（值）'

del soup.head.meta['content']#这个语法可以直接删除这个Tag的content属性

soup.li.clear#调用方法会清除所有li标签的text

soup.title.string='用这个方法可以修改title标签的内容'#慎用，只用于最子孙最小的节点，用于父节点会清空子节点

soup.div.append('放在div子节点位置的 最后append最后，是标签内容')

soup.div.insert(0,'放在div子节点位置的 最前insert【0】最前，是标签内容'')

　　这是我以前的BS4笔记，交流请联系 QQ 328123440

Python爬虫常用模块，BeautifulSoup笔记的更多相关文章

Python爬虫常用模块安装
安装:pip3 install requestspip3 install seleniumpip3 install bs4pip3 install pyquerypip3 install pymysq ...
Python 爬虫常用模块
1. fake_useragent #pip install fake_useragent requests 2.图展示 pip install pyecharts pip install pyech ...
python的常用模块之collections模块
python的常用模块之collections模块 python全栈开发,模块,collections 认识模块什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文 ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python库学习笔记——爬虫常用的BeautifulSoup的介绍
1. 开启Beautiful Soup 之旅在这里先分享官方文档链接,不过内容是有些多,也不够条理,在此本文章做一下整理方便大家参考. 官方文档 2. 创建 Beautiful Soup 对象首先 ...
路飞学城Python爬虫课第一章笔记
前言原创文章,转载引用务必注明链接.水平有限,如有疏漏,欢迎指正. 之前看阮一峰的博客文章,介绍到路飞学城爬虫课程限免,看了眼内容还不错,就兴冲冲报了名,99块钱满足以下条件会返还并送书送视频. 缴 ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
python 之常用模块
一认识模块二常用模块 (1)re模块 (2)collections模块一认识模块 (1)什么是模块 (2)模块的导入和使用 (1)模块是:一个模块就是一个包含 ...

随机推荐

你不一定能做对的JavaScript闭包面试题
由工作中演变而来的面试题这是一个我工作当中的遇到的一个问题,似乎很有趣,就当做了一道题去面试,发现几乎没人能全部答对并说出原因,遂拿出来聊一聊吧. 先看题目代码: function fun(n,o) ...
java对Ldap操作4
applicationContext.xml <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE ...
postgresql数据库的数据导出
一.pg_dump的用法:数据库的导入导出是最常用的功能之一,每种数据库都提供有这方面的工具,例如Oracle的exp/imp,Informix的dbexp/dbimp,MySQL的mysqldump ...
centos 6.5上部署jetty
和tomcat是一样的,在部署容器之前,我们首先得有java环境这里我们选择用rpm包的方式安装jdk 这里我们上传我之前下载好的jdk包然后按照该文章http://blog.csdn.net/x ...
Linux的定时任务
分两种:一次性的定时任务.周期性的定时任务. 一次性的定时任务,又称at定时任务,命令为atd ,这里d是deamon的首字母,守护的意思,指守护进程:其实很多程序都是以d结尾,如httpd.memc ...
javascript 函数参数
1.javascript函数参数的个数以及类型没有强制规定,调用时不必严格按照函数的参数或类型,函数的参数只是在调用函数的时候提供了便利,但不是必须的! 2.参数在javascript内部是用数组ar ...
jsp页面写入中文到mysql时出现了乱码(转)
今天自己在用jsp把中文写入mysql的时候出现乱码,从数据库中读取出来的时候也显示为“??”,感觉应该出现了编码转换过程中的字符信息丢失.然后在mysql中直接执行该命令,发现中文是正常的,所有认为 ...
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统（33）-数据验证共享
原文:构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(33)-数据验证共享注:本节阅读需要有MVC 自定义验证的基础,否则比较吃力一直以来表单的验证都是不可 ...
libcurl 使用的几个注意事项
注:libcurl 入门指南( the tutorial ): http://curl.haxx.se/libcurl/c/libcurl-tutorial.html 0. 为使用的curl url ...
生成N个不重复的随机数(转)
有25幅作品拿去投票,一次投票需要选16幅,单个作品一次投票只能选择一次.前面有个程序员捅了漏子,忘了把投票入库,有200个用户产生的投票序列为空.那么你会如何填补这个漏子? 当然向上级反映情况.但是 ...

Python爬虫常用模块，BeautifulSoup笔记

Python爬虫常用模块，BeautifulSoup笔记的更多相关文章

随机推荐

热门专题