爬取凤凰网站财经类的新闻，函数时编程，可全部实现，由于内容量大，需要时间太长，服务器会禁止，为了防止，可以将time.sleep()设置的时间长点

import requests
from selenium import webdriver
import time
def grasp(urlT):
    driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe') #自动化测试程序工具本地所在地
    resAll = []         #用于存储单条数据
    rest = {}           #用于存储单个数据
    urls = []
    res=requests.get(urlT)
    for i in range(0,29):

        print(f'第{i+1}条新闻开始')
        print(res.json()['data'][i]['title'])
        try:
            print(res.json()['data'][i]['newsTime'])
        except:
            print('None')
        print(res.json()['data'][i]['source'])
        rest['title']=res.json()['data'][i]['title']
        try:
            rest['newsTime'] = res.json()['data'][i]['newsTime']
        except:
            rest['newsTime'] = 'None'
        rest['source'] = res.json()['data'][i]['source']
        url = res.json()['data'][i]['url']
        rest['url'] = res.json()['data'][i]['url']

        try:

            driver.get(url)
            time.sleep(4)
            contend = driver.find_element_by_class_name('text-3zQ3cZD4').text
            rest['contend'] = str(contend)
            print(f'第{i+1}条新闻结束')
            time.sleep(6)
        except:
            rest['contend'] = '嵌套'
            time.sleep(6)
            l = driver.find_elements_by_xpath("//p[@class='text-3YbAxaNR']")  #获取连接个数
            s = driver.find_elements_by_xpath("//p[@class='text-3YbAxaNR']/a") #获取当前页面所有链接
            for j in range(0,len(l)):
                ss = s[j].get_attribute('href')
                print(type(ss))
                try:
                    urls.append(str(str(ss).split()).replace('"','').replace("'","").replace('[','').replace(']','')) #将链接转化为可以存储的字符串
                    print(urls)
                except:
                    print(driver.find_element_by_class_name('topic-3bY8Hw-9').text) #输出标题
        resAll.append(rest)
        with open('./news.txt', 'a+', encoding='utf-8') as f:
                try:
                    f.write(''.join(resAll[i].values())+'\n')
                except:
                    print('写入失败')

    resAll.clear()
    print(urls)
    for k in range(0,len(urls)):
        try:
            driver.get(urls[k])
            # time.sleep(3)
            rest['title1'] = driver.find_element_by_class_name('topic-3bY8Hw-9').text
            rest['source1'] = driver.find_element_by_class_name('source-2pXi2vGI').text
            rest['newsTime1'] = driver.find_element_by_xpath('//p[@class="time-hm3v7ddj"]/span').text
            rest['contend1'] = driver.find_element_by_class_name('text-3zQ3cZD4').text
            resAll.append(rest)
            time.sleep(4)
            with open('./news.txt', 'a+', encoding='utf-8') as f:
                time.sleep(5)
                f.write(''.join(resAll[k].values()) + '\n')
        except:
            print('内容太多,服务器禁止')

url = "https://shankapi.ifeng.com/spring/finance/index/newInfoIndex/75219" #凤凰网财经的api
t = grasp(url)

爬取凤凰网站财经类的新闻，函数时编程，可全部实现，由于内容量大，需要时间太长，服务器会禁止，为了防止，可以将time.sleep()设置的时间长点的更多相关文章

python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据
有写规则需要自己定义判断. import requests from selenium import webdriver import time def grasp(urlT): driver = w ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...
用Python爬取斗鱼网站的一个小案例
思路解析: 1.我们需要明确爬取数据的目的:为了按热度查看主播的在线观看人数 2.浏览网页源代码,查看我们需要的数据的定位标签 3.在代码中发送一个http请求,获取到网页返回的html(需要注意的是 ...
webmagic爬取渲染网站
最近突然得知之后的工作有很多数据采集的任务,有朋友推荐webmagic这个项目,就上手玩了下.发现这个爬虫项目还是挺好用,爬取静态网站几乎不用自己写什么代码(当然是小型爬虫了~~|). 好了,废话少说 ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

随机推荐

java8（二）方法引用
方法引用让你可以重复使用现有的方法定义,并像 Lambda 一样进行传递. 方法引用可以被看作仅仅调用特定方法的 Lambda 的一种快捷写法. 事实上,方法引用就是让你根据已有的方法实现来创建 La ...
Codeforces 436D Pudding Monsters
题意简述开始有无限长的一段格子,有n个格子种有布丁怪兽,一开始连续的布丁怪兽算一个布丁怪兽. 每回合你可以将一个布丁怪兽向左或右移动,他会在碰到第一个布丁怪兽时停下,并与其合并. 有m个特殊格子,询 ...
Javasrcipt中从一个url或者从一个字符串中获取参数值得方法
从url中获取参数值是che程序开发过程中的常用需求,偶然得闲,便抽空研究了一下javasrcipt下,获取参数的办法(JAVA中也类似). 首先看url的规范: URL组成:protocol :// ...
CSV Data Set Config 详细使用说明
JMeter 5.1.1 CSV Data Set Config 场景一:线程组中设置:单线程执行1次如上图所示:变量名称为空时JMeter默认把new 1.txt的文件首行作为变量名再如:此时A ...
.NET中使用WebService，以及和一般处理程序、类库的区别
首先我们来看一下如何创建Web Service 首先在解决方案中新建项,选择ASP.NETWeb应用程序然后选择一个空的项目就可以,单击确定项目建完之后,在项目上右键-->添加-->新 ...
Mac安装Navicat的那些破事儿
本文目的如题,navicat 优点不再赘述.如有侵权,请联系我立即删除. 下载地址 Mac版 Navicat Premium 12 v12.0.23.0 官网下载地址: 英文64位 http://do ...
Sqlserver 游标的写法记录
---游标更新删除当前数据 ---1.声明游标 declare orderNum_03_cursor cursor scroll for select OrderId ,userId from big ...
Python自动化开发
阅读目录第一篇:python入门第二篇:字符编码.文件处理第三篇:函数第四篇:迭代器.生成器.三元表达式.列表生成式第五篇:模块.包.软件开发规范第六篇:日志模块第七篇:常用模块第八篇 ...
net core Webapi基础工程搭建（三）——在线接口文档Swagger
目录前言 Swagger NuGet引用第三方类库别急,还有没错,注释小结前言前后分离的好处,就是后端埋头做业务逻辑功能,不需要过多考虑用户体验,只专注于数据.性能开发,对于前端需要的数据 ...
如何将自己的代码发布到Maven中央仓库？
去年在公司做工作流相关业务时,当时使用flowable做引擎,中途涉及到一些业务上的需求,自己整理了一些代码,考虑到开源精神,当时就想着将于公司业务无关的代码抽离出来,放到Maven中央仓库中,以供别 ...

爬取凤凰网站财经类的新闻，函数时编程，可全部实现，由于内容量大，需要时间太长，服务器会禁止，为了防止，可以将time.sleep()设置的时间长点

爬取凤凰网站财经类的新闻，函数时编程，可全部实现，由于内容量大，需要时间太长，服务器会禁止，为了防止，可以将time.sleep()设置的时间长点的更多相关文章

随机推荐

热门专题