python学习_新闻联播文字版爬虫（V 1.0版）

python3的爬虫练习，爬取的是新闻联播文字版网站

#!/usr/bin/env python

# -*- coding: utf-8 -*-

'''

__author__ = 'wyf349'

__mtime__ = '2019/12/20'

'''

'''第一个版本，用来获取文件的链接和信息，并存储在txt文件中'''

#import 相关的库

import requests

from bs4 import BeautifulSoup

import io

import sys

import re

import os

import time

def getRespose(url):

    '''requests获取response文本'''

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}

    try:

        r = requests.get(url, headers=headers, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        print('链接异常：'+ url)

        return False

def getNowUrls(url,mode=1):

    '''解析列表文章的链接和文章名'''

    URL_all_set = set()

    URL_next_page_set = set()

    soup = BeautifulSoup(getRespose(url), 'html.parser')

    if mode == 1 :

        try:

            for line in soup.body.find(class_='xwlist').find_all(name = 'a'):

                url_point = line.attrs['href']

                #print(url_point)

                #print(URL_all)

                if url_point not in URL_all_set:

                    URL_all_set.add(url_point)

            return URL_all_set

        except:

            print('页面url获取失败,Urls_list')

            return False

    else:

        try:

            url_next = soup.body.find(class_='page now-page').next_sibling.next_sibling.attrs['href']

            if url_next not in URL_next_page_set:

                URL_next_page_set.add(url_next)

                return URL_next_page_set

            else:

                print('链接: ' + url_next + '已存在！')

                return False

        except:

            print('获取下一页地址失败,Url_next')

            return False

def gettext(url):

    try:

        demo = getRespose(url)

        soup_text = BeautifulSoup(demo, 'html.parser')

        Text_title = soup_text.head.title.string

        Text_text = soup_text.body.find(attrs={'class':'text_content'}).p.string

        return Text_title, Text_text

    except:

        print('新闻页面解析失败！')

        return False

def TextWriter(url, file_path=r'.\temp', file_name=r'新闻联播.txt'):

    file_all = file_path + '\\' + file_name

    if  gettext(url):

        Get_text_list = gettext(url)

    if not os.path.exists(file_path):  # os库判断路径是否存在

        os.mkdir(file_path)  # 不存在创建路径

    try:

        with open(file_all, r'a+', encoding="utf8") as f:

            f.write(Get_text_list[0] + '\n')

            f.write(str(Get_text_list[1]) + '\n')  # 此处写入失败的原因为该文本为list格式，需要转化为str

            f.flush()  # 将缓存写入

            f.close()

            print('文件写入成功')

    except:

        print('文本写入失败')

        return False

def main(url):

    URL_all = getNowUrls(url,1)

    URL_next_page = getNowUrls(url,2)

    for url_line in list(URL_all):

        TextWriter(url_line, file_path=r'.\temp', file_name=r'新闻联播.txt')

        URL_all.remove(url_line)

        # print('采集列表:',URL_all)

        # print('下一页:' , URL_next_page)

        if len(URL_all) == 0 and len(URL_next_page) == 1:

            Next_url = list(URL_next_page)[0]

            URL_next_page.remove(Next_url)

            time.sleep(1)

            main(Next_url)

if __name__ == '__main__':

    url = r'http://www.xwlb.top/xwlb.html'

    main(url)

python学习_新闻联播文字版爬虫（V 1.0版）的更多相关文章

python学习_新闻联播文字版爬虫（V 1.0.1版）
更新记录: 1.新增了headers头的随机获取: 2.新增了logging模块添加日志信息(学习用): #!/usr/bin/env python # -*- coding: utf-8 -*- ' ...
python学习_数据处理编程实例（二）
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年 ...
python学习_循环结构 and 类型判断
# 循环结构 ### 循环结构(while) - 格式 ```python while 表达式: 语句块 ``` > 执行流程:当程序执行到while语句时,首先判断表达式的真假.若表达式的值为 ...
Python 学习(1) 简单的小爬虫
最近抽空学了两天的Python,基础知识都看完了,正好想申请个联通日租卡,就花了2小时写了个小爬虫,爬一下联通日租卡的申请页面,看有没有好记一点的手机号~ 人工挑眼都挑花了. 用的IDE是PyCh ...
python学习_应用pickle模块封装和拆封数据对象
学习文件数据处理的时候了解到有pickle模块,查找官方文档学习了一些需要用到的pickle内容. 封装是一个将Python数据对象转化为字节流的过程,拆封是封装的逆操作,将字节文件或字节对象中的字节 ...
python学习笔记（14）--爬虫下载漫画图片修改版
说明: 1. 2017.3.12,周六从中午吃完包子12点多折腾了一下午加一个晚上,试了4个网站的爬虫,发现都不能下载!甚至前几天测试能下载的都不能用了! 2. 到晚上发现煎蛋网的可以用了,立即试了下 ...
python学习笔记（11）--爬虫下载漫画图片
说明: 1. 某本子网站爬虫,现在只实现了扒取一页,已经凌晨两点了,又饿又困,先睡觉,明天再写总结吧! 2. 我是明天,我来写总结了! 3. 这个网站的结构是这样的: 主页: 主页-第1页-漫画1封面 ...
Python学习_数据排序方法
Python对数据排序又两种方法: 1. 原地排序:采用sort()方法,按照指定的顺序排列数据后用排序后的数据替换原来的数据(原来的顺序丢失),如: >>> data1=[4,2, ...
Python学习_从文件读取数据和保存数据
运用Python中的内置函数open()与文件进行交互在HeadFirstPython网站中下载所有文件,解压后以chapter 3中的“sketch.txt”为例: 新建IDLE会话,首先导入os ...

随机推荐

Linux 防火墙设置常用指令
查看防火墙状态命令: service firewalld status systemctl status firewalld 结果: 其中: enabled:开机启动(开机不启动是disabled ...
Kafka如何实现每秒上百万的高并发写入
Kafka是高吞吐低延迟的高并发.高性能的消息中间件,在大数据领域有极为广泛的运用.配置良好的Kafka集群甚至可以做到每秒几十万.上百万的超高并发写入. 那么Kafka到底是如何做到这么高的吞吐量和 ...
【Java学习】类、对象、实例—类是对象的抽象，对象是类的实例
类.对象.实例的关系是什么,如果不能很好的理解什么是类什么是对象就无法讲清楚, 类:某种事物与另一种事物具有相似性,比如哈士奇和泰迪,我们发现他们有一些相似的特性和行为,在生物学上,他们都属于“狗”, ...
Neo4j Cypher语法（三）
目录 5 函数 5.1 谓词函数 5.2 标量函数 5.3 聚合函数 5.4 列表函数 5.5 数学函数 5.6 字符串函数 5.7 Udf与用户自定义函数 6 模式 6.1 索引 6.2 限制 7 ...
怎样理解Node对象接口
dom中的节点都继承自Node接口, 也就是说, 所有的节点都具有Node接口所规定的属性和方法, 比如下面这个 <a> 标签, 它也继承了Node的所有属性和方法: 可以认为Node接口 ...
poj 3320 复习一下尺取法
尺取法(two point)的思想不难,简单来说就是以下三步: 1.对r point在满足题意的情况下不断向右延伸 2.对l point前移一步 3. 回到1 two point 对连续区间的问题求 ...
B-Tree和 B+Tree的数据存储结构
B+树索引是B+树在数据库中的一种实现,是最常见也是数据库中使用最为频繁的一种索引.B+树中的B代表平衡(balance),而不是二叉(binary),因为B+树是从最早的平衡二叉树演化而来的.在讲B ...
[转载]Flex的文件规则
原文在:https://blog.csdn.net/hczhiyue/article/details/20483209 文章中给的一个定义很明白,对于初学者来说很有帮助: 什么是 FLEX?它是一个自 ...
php-fpm三种运行模式
php-fpm配置配置文件:php-fpm.conf 开启慢日志功能的: slowlog = /usr/local/var/log/php-fpm.log.slowrequest_slowlog_t ...
useradd 报Creating mailbox file: File exists
问题描述:增加一个用户时,报下面的错误:[root@master ~]# useradd hadoopuseradd: warning: the home directory already exis ...

python学习_新闻联播文字版爬虫（V 1.0版）

python学习_新闻联播文字版爬虫（V 1.0版）的更多相关文章

随机推荐

热门专题