bs4、selenium的使用

爬取新闻

# 1 爬取网页---requests

# 2 解析

	---xml格式，用了re匹配的

	---html，bs4，lxml。。。

    ---json：

    	-python ：内置的

    	-java ： fastjson---》漏洞

        -java：  谷歌  Gson

        -go ：内置 基于反射，效率不高

# pip3.8 install beautifulsoup4

# pip3.8 install lxml

import requests

from bs4 import BeautifulSoup

import pymysql

conn = pymysql.connect(

    user='root',

    password='123456',

    host='127.0.0.1',

    database='cars',

)

cursor = conn.cursor()

res = requests.get('https://www.autohome.com.cn/news/1/#liststart')

# print(res.text)

# soup = BeautifulSoup(res.text,'html.parser') # 1.解析的字符串 2.解析器(html.parser内置的)

soup = BeautifulSoup(res.text,'lxml')  # 1.解析的字符串 2.解析器 第三方 lxml

# find：找一个 find_all:找所有

ul_list = soup.find_all(name='ul',class_='article')

# print(len(ul_list))

for ul in ul_list:

    li_list = ul.find_all(name='li')

    # print(len(li_list))

    for li in li_list:

        h3 = li.find(name='h3')

        print(h3)

        if h3:

            title = h3.text

            url = 'https:' + li.find(name='a').attrs.get('href')

            desc = li.find(name='p').text

            img = li.find(name='img').attrs.get('src')

            print("""

            新闻标题：%s

            新闻图片：%s

            新闻地址；%s

            新闻摘要：%s

            """%(title,img,url,desc))

            # 图片保存到本地

            # 数据入库

            cursor.execute('insert into news (title,img,url,`desc`) values (%s,%s,%s,%s)',args=[title,img,url,desc])

            conn.commit()

bs4介绍遍历文档树

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story<span>xxx</span></b><b>hahaha</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

soup = BeautifulSoup(html_doc,'lxml')

# print(soup.prettify())

'''遍历文档树'''

# 遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个

'''1、用法 通过点的方式遍历'''

# a = soup.html.body.a

# a = soup.a

# print(a)

'''2、获取标签的名称'''

# a = soup.a.name

# print(a)

'''3、获取标签的属性'''

# a = soup.a.attrs  # {'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}

# print(a)

# a = soup.a.attrs.get('id')

# print(a)

# a = soup.a.attrs.get('href')

# print(a)

'''4 获取标签的内容----文本内容'''

# p = soup.p.text  # text会把当前标签的子子孙孙的文本内容都拿出来，拼到一起

# print(p)

# s1 = soup.p.string  # 当前标签有且只有自己(没有子标签)，把文本内容拿出来

# print(s1)

# s2 = soup.p.strings  # #generator 把子子孙孙的文本内容放到生成器中

# print(list(s2))  # ["The Dormouse's story", 'xxx', 'hahaha']

'''5 嵌套选择 点完后可以继续再点'''

# print(soup.head.title.text)

'''6 子节点、子孙节点'''

# print(soup.p.contents)  # p标签下所有子节点

# print(list(soup.p.children))  # 得到一个迭代器,包含p下所有直接子节点

# print(list(soup.p.descendants)) # p标签下所有子节点及文本内容

'''7 父节点、祖先节点'''

# print(soup.title.parent)  # 获取title标签的父节点

# print(list(soup.title.parents))  # 找到title标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...

'''8 兄弟节点'''

# print(soup.a.next_sibling)  # 下一个兄弟

# print(soup.a.previous_sibling)  # 上一个兄弟

# print(list(soup.a.next_siblings))  # 下面的兄弟们=>生成器对象

# print(list(soup.a.previous_siblings))  # 上面的兄弟们=>生成器对象

bs4搜索文档树

# find:找到最符合的第一个     find_all：找到所有

# 五种过滤器: 字符串、正则表达式、列表、True、方法

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b class ='baby'>The Dormouse's story<span>lqz</span></b><b>adfasdf<b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1" xx="xx">Elsie</a>

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3" name="zzz">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

soup = BeautifulSoup(html_doc,'lxml')

# 五种过滤器: 字符串、正则表达式、列表、True、方法

'''字符串 通过字符串查找'''

# a = soup.find(name='a')

# a = soup.find_all(name='a',class_='sister')

# a = soup.find_all(name='a',id='link1')

# a = soup.find(string='Elsie').parent

# a=soup.find(href='http://example.com/elsie')  # # 括号中可以写 name，id，class_，href，text，所有属性

# a = soup.find(xx='xx')

# a = soup.find(attrs={'class':'sister'})  # 可以通过attrs传属性

# a = soup.find(attrs={'name':'zzz'})  # 可以通过attrs传属性

# print(a)

'''正则表达式'''

# import re

# a = soup.find_all(class_=re.compile('^b'))

# print(a)

# a = soup.find_all(href=re.compile('^http'))

# print(a)

'''列表'''

# a = soup.find_all(name=['b','body','span'])

# print(a)

# a = soup.find_all(class_=['sister','title'])

# print(a)

'''True'''

# a = soup.find_all(href=True)

# print(a)

# a = soup.find_all(name='img',src=True)

# print(a)

'''方法'''

# 查询所有有class但是没有id的标签

"""

find 本质就是find_all find的参数就是find_all的参数，但是find_all比find多

recursive=True：是否递归查找，默认是True，如果写成false，只找第一层，limit=None

"""

# a = soup.find_all(name='html',recursive=False)

# print(a)

# 联合遍历文档树使用

# a = soup.html.p.find(name='b',recursive=False)

# print(a)

# limit=None 限制找几条

# a = soup.find_all(name='a',limit=1)

# print(a)

css选择器

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b class ='baby'>The Dormouse's story<span>lqz</span></b><b>adfasdf<b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1" xx="xx">Elsie</a>

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3" name="zzz">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

soup = BeautifulSoup(html_doc,'lxml')

"""

css选择器

div

.类名

#id号

div a  # div下的子子孙孙中得a

div>a  #div直接子节点

"""

# res = soup.select('.sister')

# res = soup.select('#link1')

# res = soup.p.find(name='b').select('span')

# print(res)

# 以后，基本所有的解析器都会支持两种解析：css，xpath,都可以去页面中复制

import requests

res = requests.get('http://it028.com/css-selectors.html')

res.encoding = res.apparent_encoding

# res.encoding = 'utf-8'

# print(res.text)

soup = BeautifulSoup(res.text,'lxml')

res = soup.select('#content > table > tbody > tr:nth-child(14) > td:nth-child(3)')

print(res)

selenium基本使用

# requests 发送请求，不能加载ajax 

# selenium：直接操作浏览器，不是直接发送http请求，而是用代码控制模拟人操作浏览器的行为，js会自动加载

# appnium ：直接操作手机

# 使用步骤（操作什么浏览器：1 谷歌（为例） 2 ie 3 Firefox）

	1 下载谷歌浏览器驱动（跟浏览器版本一致）

    	https://registry.npmmirror.com/binary.html?path=chromedriver/

        浏览器版本：114.0.5735.199

        驱动版本对应

        放到项目路径下

	2 代码实现

    	# pip3.8 install selenium

        from selenium import webdriver

        import time

        from selenium.webdriver.common.by import By

        bro = webdriver.Chrome(executable_path='./chromedriver.exe')

        bro.get('https://www.baidu.com')

        time.sleep(1)

        # 有id优先用id找

        input_name = bro.find_element(by=By.ID,value='kw')

        # 往标签中写内容

        input_name.send_keys('性感美女诱惑')

        button = bro.find_element(by=By.ID,value='su')

        button.click()

        time.sleep(3)

        bro.close()

模拟登录百度

from selenium import webdriver

import time

from selenium.webdriver.common.by import By

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://www.baidu.com')

bro.implicitly_wait(10)  #隐士等待---》找标签，如果找不到就先等，等10s，如果10s内，标签有了，直接往下执行，如果登录10s还没有，就报错

bro.maximize_window()

# 如果是a标签，可以根据a标签文字找

submit_login = bro.find_element(By.LINK_TEXT,'登录')

submit_login.click()

# 点击短信登录

sms_login = bro.find_element(By.ID,'TANGRAM__PSP_11__changeSmsCodeItem')

sms_login.click()

time.sleep(1)

username_login = bro.find_element(By.ID,'TANGRAM__PSP_11__changePwdCodeItem')

username_login.click()

time.sleep(1)

username = bro.find_element(By.ID,'TANGRAM__PSP_11__userName')

username.send_keys('1535114884@qq.com')

password = bro.find_element(By.ID,'TANGRAM__PSP_11__password')

password.send_keys('hahaha123')

login = bro.find_element(By.ID,'TANGRAM__PSP_11__submit')

time.sleep(1)

login.click()

time.sleep(3)

bro.close()

selenium其他用法

# 无头浏览器

# 无界面浏览器（一堆配置）

import time

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率

chrome_options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug

chrome_options.add_argument('--hide-scrollbars') #隐藏滚动条, 应对一些特殊页面

chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度

chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败

bro = webdriver.Chrome(executable_path='./chromedriver.exe',chrome_options=chrome_options)

bro.get('https://www.douyin.com/')

print(bro.page_source)  # 当前页面内容

time.sleep(3)

bro.close()

查找标签

from selenium import webdriver

from selenium.webdriver.common.by import By

bro = webdriver.Chrome(executable_path='./chromedriver.exe')  # 打开了浏览器

bro.get('https://www.baidu.com/')

bro.implicitly_wait(10)

# bs4 find和find_all 也支持css

# selenium find_element和 find_elements也支持css和xpath

# bro.find_element(by=By.ID)  # 根据id号找一个 id号唯一

# bro.find_element(by=By.NAME)  # 根据name属性找一个

# bro.find_element(by=By.TAG_NAME,value='div')  # 根据标签名找

# bro.find_element(by=By.LINK_TEXT)  # 根据a标签文字

# bro.find_element(by=By.PARTIAL_LINK_TEXT)  # 根据a标签文字模糊找

# bro.find_element(by=By.CLASS_NAME)  # 根据类名

# bro.find_element(by=By.CSS_SELECTOR)  # 根据css选择器找

# bro.find_element(by=By.XPATH)  # 根据xpath

bro.find_elements()  # 找所有

bro.close()

获取标签属性，文本，大小

'''

print(tag.get_attribute('src'))  # 用的最多

tag.text  # 文本内容

#获取标签ID，位置，名称，大小（了解）

print(tag.id)

print(tag.location)

print(tag.tag_name)

print(tag.size)

'''

from selenium import webdriver

from selenium.webdriver.common.by import By

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://www.chaojiying.com/apiuser/login/')

bro.implicitly_wait(10)

tag = bro.find_element(By.CSS_SELECTOR,'body > div.wrapper_danye > div > div.content_login > div.login_form > form > div > img')

print(tag.get_attribute('src'))  # 拿属性

print(tag.text)  # 拿文本

print(tag.id)  # 不是属性id，是selenium提供的id，没有用

print(tag.location)  # x，y的坐标  {'x': 648, 'y': 291}

print(tag.tag_name)  # 标签名字  img

print(tag.size)  # 大小  {'height': 50, 'width': 180}

bs4、selenium的使用的更多相关文章

selenium批量翻译
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
python3.6安装Scrapy
环境:win10(64位), Python3.6(64位) 1.安装pyhthon 这个就不多说了,对应版本就下载对应的依赖包 2.安装pywin32 在windows下,必须安装pywin32,安装 ...
96、python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）
在安装scrapy时遇到问题环境:win10(64位), Python3.6(64位) 安装scrapy: 1.安装wheel(安装后,便支持通过wheel文件安装软件) pip3 install ...
python version 3.6 required,which was not fount in the registry（python3.6安装scrapy）
在安装scrapy时遇到问题环境:win10(64位), Python3.6(64位) 安装scrapy: 1.安装wheel(安装后,便支持通过wheel文件安装软件) pip3 install ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
爬虫再探实战（三）———爬取动态加载页面——selenium
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...
python3.4+selenium爬58同城（一）
爬取http://bj.58.com/pbdn/0/pn2/中除转转.推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下这周学习了爬虫,但是遇到一些 ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
Python爬虫小白入门（五）PhatomJS+Selenium第二篇
一.前言前文介绍了PhatomJS 和Selenium 的用法,工具准备完毕,我们来看看如何使用它们来改造我们之前写的小爬虫. 我们的目的是模拟页面下拉到底部,然后页面会刷出新的内容,每次会加载10 ...

随机推荐

Linux性能监控（二）-top
top命令可以用来监控服务器CPU.内存的运行情况,是Linux一个经常使用到的命令. 基本用法第一行显示当前系统运行信息,系统当前时间是23:23:21,运行了315days,当前有2个用户登录 ...
axios 报登出跨域 withCredentials: false,
withCredentials: false, 默认值虽然是false,但是之前包装的时候设置成true了,所以最后再设置回来
C++实现一个线程安全的map
本文是使用ChatCPT生成的,最终的代码使用起来没问题.代码是通过两轮对话完善的,后面把对话合并后跑不出理想效果就没尝试了. 第一轮对话请求 c++11实现一个线程安全的map,使用方法与std: ...
opus编解码的特色和优点
概念原理 Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis ...
vue入门教程之-插槽
vue入门教程之-插槽欢迎关注博主公众号「java大师」, 专注于分享Java领域干货文章, 关注回复「资源」, 免费领取全网最热的Java架构师学习PDF, 转载请注明出处 https://www ...
Android 线性布局平分宽度item的隐藏问题
原文:Android 线性布局平分宽度item的隐藏问题 - Stars-One的杂货小窝一直只使用layout_weight来平分布局,但是如果隐藏了某个item,会导致其他item宽高有所变化 ...
TomCat 的 Jenkins 报错：反向代理设置有误
1.进入 Linux 系统的 TomCat 安装目录的 conf 目录 2.编辑 server.xml 3.找到 <Connector> 标签 4.这里的 redirectPort 的值才 ...
用phpStudy配置apache服务器
一:下载phpStudy 1进入官网https://www.xp.cn/download.html 选择稳定的2018版本 2执行下载好的文件,选择下载地址注意!这里的安装路径不能有中文 3亮两个绿 ...
03.Android崩溃Crash库之ExceptionHandler分析
目录总结 00.异常处理几个常用api 01.UncaughtExceptionHandler 02.Java线程处理异常分析 03.Android中线程处理异常分析 04.为何使用setDefaul ...
Linux快速入门(三)Linux文件管理
Linux文件操作 head head命令用于显示文件的前几行内容,可以通过-num参数展示文件前num行的内容. root@ubuntu:~# ls bb.txt cc.txt snap root@ ...

bs4、selenium的使用

爬取新闻

bs4介绍遍历文档树

bs4搜索文档树

css选择器

selenium基本使用

模拟登录百度

selenium其他用法

查找标签

获取标签属性，文本，大小

bs4、selenium的使用的更多相关文章

随机推荐

热门专题