使用BeautifulSoup爬取汽车之家新闻

1 先select到改数据上层的标签,取第一个[0],然后attrs获取单标签里面的内容,或者get_text获取成对标签内文本
2 find就是明确了标签之后,是唯一的,就可以使用find(标签名).get_text(),不需要加0

import requests

from bs4 import BeautifulSoup

def search(url):

    response = requests.get(url)

    response.encoding = 'gbk'

    text = response.text

    with open('a.html', 'wt', encoding='utf-8')as f:

        f.write(text)

    soup = BeautifulSoup(text, 'lxml')

    news = soup.find(id="auto-channel-lazyload-article").select('ul li a')

    # print(news)

    for new in news:

        '''

        1 先select到改数据上层的标签,取第一个[0],然后attrs获取单标签里面的内容,或者get_text获取成对标签内文本

        2 find就是明确了标签之后,是唯一的,就可以使用find(标签名).get_text(),不需要加0

        '''

        link = new.attrs['href']

        img = new.select('.article-pic img')[0].attrs['src']

        title=new.find('h3').get_text()

        sub_time=new.select('.fn-left')[0].get_text()

        num=new.select('.fn-right em')[0].get_text()

        browsing_num=new.find('p').get_text()

        print(link,img,title,sub_time,num,browsing_num)

        print(

            '''

            链接：http:%s

    图片：http:%s

    标题：%s

    发布时间：%s

    浏览数：%s

    介绍：%s

            '''%(link,img,title,sub_time,num,browsing_num)

        )

if __name__ == '__main__':

    url = 'https://www.autohome.com.cn/news'

    search(url)

使用BeautifulSoup爬取汽车之家新闻的更多相关文章

python3 爬取汽车之家所有车型数据操作步骤（更新版）
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
java爬虫入门--用jsoup爬取汽车之家的新闻
概述使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
Python 爬虫实例（15）爬取汽车之家（汽车授权经销商）
有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址. 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程. 一:爬虫的目标: 打开汽车之家的链接:https: ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
Python 爬取汽车之家口碑数据
本文仅供学习交流使用,如侵立删!联系方式见文末汽车之家口碑数据 2021.8.3 更新增加用户信息参数.认证车辆信息等 2021.3.24 更新更新最新数据接口 2020.12.25 更新添加 ...
爬取汽车之家新闻图片的python爬虫代码
import requestsfrom bs4 import BeautifulSouprespone=requests.get('https://www.autohome.com.cn/news/' ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

python3.6安装PyUserInput
python3.6安装PyUserInput https://www.cnblogs.com/yoyoketang/p/8043814.html
windows系统安装部署python3.5和python2.7双解释器并存
前提材料准备: 下载对应版本的安装包:下载地址:https://www.python.org/downloads/windows/ python3.8.x安装包下载: python2.7.x安装包下载 ...
数字孪生 VS 平行系统
数字孪生和平行系统作为新兴技术,在解决当今人工智能邻域面临的信息量大,干扰信息不确定因素多,与人的参与沟通更加紧密,人机互动更加重视,为了使人们有更好的体验人工智能带来的便利,急需推动信息物理社会的高 ...
【Unity|C#】基础篇(1)——基础入门
[学习资料] <C#图解教程>(第2~12章):https://www.cnblogs.com/moonache/p/7687551.html 电子书下载:https://pan.baid ...
webkit 技术内幕笔记二
浏览器历史 80年代末-90年代初:worldwideweb(nexus) -- Berners-Lee 1993: Mosaic浏览器,后来叫网景(Netscape)--Marc Andreesse ...
Java集合之Collections 剖析
Collections工具类位于 java.util 包下,是一个比较常用的工具类,关于这个工具类,主要介绍其在使用过程中遇到的大坑!!! [事故现场] 在实际项目开发过程中,在前人代码的基础上,对于 ...
Docker构建镜像过于缓慢解决-----Docker构建服务之部署和备份jekyll网站
参考原文链接:https://www.jianshu.com/p/e6b7e68f2ba7 来自<第一本Docker书>,我觉得很有趣,就记录一下准备国内ubuntu镜像每次构建Ubu ...
PAT (Basic Level) Practice （中文）1033 旧键盘打字 (20 分)
旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现.现在给出应该输入的一段文字.以及坏掉的那些键,打出的结果文字会是怎样? 输入格式: 输入在 2 行中分别给出坏掉的那些键.以及应该输入 ...
unity中ContentSizeFitter刷新不及时的问题
ContentSizeFitter,自适应宽高脚本要在下一帧的时候才会适应宽高.如果想立即生效,可以调用 LayoutRebuilder.ForceRebuildLayoutImmediate(rec ...
java - CAS及CAS底层原理
CAS是什么? CAS的全称为Compare-And-Swap它是一条CPU并发原语,也就是在CPU硬件层面上来说比较并且判断是否设置新值这段操作是原子性的,不会被其他线程所打断.在JAVA并发包ja ...

使用BeautifulSoup爬取汽车之家新闻

使用BeautifulSoup爬取汽车之家新闻的更多相关文章

随机推荐

热门专题