python爬虫，爬取一系列新闻

这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941。

由于存在多次请求，所以稍微将请求封装如下

def tranfrom_dom_tree(url):

    '''

        将获取的html文本转化为dom树

    '''

    response = requests.get(url);

    response.encoding = "utf-8";

    return BeautifulSoup(response.text, "html.parser");

将具体新闻内容封装如下

class News(object):

    '''

        广商校园新闻数据模型

    '''

    def __init__(self, url):

        self._url = url;             #新闻网页地址

        self._dom_tree = tranfrom_dom_tree(url);

        self._show_infos = self._dom_tree.select(".show-info")[0].text.split();

        self._update_time = "";

        self._auditor = "";

        self._auothor = "";

        self._origin = "";

        for index, args in enumerate(self._show_infos):

            if args.startswith("发布时间"):

                self._update_time = args[5:] + " " + self._show_infos[index+1];

                continue;

            elif args.startswith("作者"):

                self._auothor = args[3:];

                continue;

            elif args.startswith("审核"):

                self._auditor = args[3:];

                continue;

            elif args.startswith("来源"):

                self._origin = args[3:];

                continue;

    @property

    def title(self):

        '''

            :return:  新闻标题

        '''

        return self._dom_tree.select(".show-title")[0].text;

    @property

    def auothor(self):

        '''

            :return:  新闻作者

        '''

        return self._auothor;

    @property

    def auditor(self):

        '''

            :return:  新闻审核

        '''

        return self._auditor;

    @property

    def origin(self):

        '''

            :return:  新闻发布单位

        '''

        return self._origin;

    @property

    def update_time(self):

        '''

            :return:  新闻最后更新时间

        '''

        return self._update_time;

    @update_time.setter

    def update_time(self, time):

        '''

            设置最后更新时间

            :param time:  时间

        '''

        self._update_time = time;

    @property

    def times(self):

        '''

            :return:  点击次数

        '''

        clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(self.news_id);

        response = requests.get(clickUrl);

        click = re.findall('(\d+)', response.text)[-1];

        return click;

    @property

    def news_id(self):

        '''

            :return:  新闻标识

        '''

        time = datetime.strptime(self._update_time, '%Y-%m-%d %H:%M:%S');

        time = time.strftime("%m%d");

        return re.match('http://news.gzcc.cn/html/.*/.*/(\d+).html', self._url).group(1);

    @property

    def summary(self):

        '''

            :return:  新闻摘要内容

        '''

        return self._summary;

    @summary.setter

    def summary(self, text):

        '''

            设置新闻摘要

            :param text:  新闻摘要

        '''

        self._summary = text;

    def to_dict(self):

        '''

            将此类实例转换为字典

            :return: 转换后的字典

        '''

        dict = {};

        dict["news_url"] = self._url;

        dict["news_id"] = self.news_id

        dict["news_title"] = self.title;

        dict["news_summary"] = self.summary;

        dict["news_update_time"] = self.update_time;

        dict["news_times"] = self.times;

        dict["news_auothor"] = self.auothor;

        dict["news_auditor"] = self.auditor;

        dict["news_origin"] = self.origin;

        return dict;

对新闻进行批操作代码如下

class GZCCNewsReptile(object):

    '''

        广州商学院校园新闻获取工具

    '''

    def __init__(self):

        self._news_type = "dict";

        self._root_url = "http://news.gzcc.cn/html/xiaoyuanxinwen/";

        self._url = self.page_url();

        self._dom_tree = tranfrom_dom_tree(self._url);

    def page_url(self, page=1):

        '''

            将指定页面解析数值解析对应url

            :param page:  指定的一个新页面

        '''

        if page == 1:

            self._now_page = "index";

        else:

            self._now_page = page;

        return self._root_url+str(self._now_page)+".html";

    @property

    def count(self):

        '''

            :return:  返回校园新闻总条数

        '''

        count = self._dom_tree.select(".a1")[0].text;

        return int(count[0:-1]);

    @property

    def page(self):

        '''

            :return:  获取校园新闻总页数

        '''

        page = int(self.count) / 10;

        int_page = int(page);

        if page > int_page:

            return ( int_page + 1);

        else:

            return int_page;

    def get_news_from_news_page_size(self, start_page, end_page):

        '''

            设置爬取页数范围,

            start_page 小于 1 抛出    异常

            start_page 大于 end_page 抛出 异常

            end_page 大于 总页数 抛出 异常

            :param start_page:  要爬取范围的开始页

            :param end_page:    结束爬取范围的页面(不包括该页面)

        '''

        if start_page < 1:

            raise IndexError("start_page不在指定范围内");

        if start_page > end_page:

            raise IndexError("start_page大于end_page");

        if end_page > self.page:

            raise IndexError("end_page不在指定范围内");

        news_list = [];

        times = (index for index in range(start_page, end_page));

        #  爬取指定范围数据

        for index in times:

            #  news_page_list = self.get_news_from_page_url(self.page_url(index));

            news_page_list = self.get_page_news(index);  #  较上句更利于封装

            news_list.append(news_page_list);

        news_list = sum(news_list, []);

        return news_list;

    def get_page_news(self, page):

        '''

            获取指定页数

            若指定的页数在可爬取页数的范围之外，则抛出运行异常异常

            :param pages:  指定的页数

            :return: 返回指定页的新闻列表

        '''

        if page < 1 or page > self.count:

            raise IndexError("page不在指定范围内");

        else:

            print("\r当前正在%d页" % page, end="");

            return self.get_news_from_page_url(self.page_url(page));

    def get_news_from_page_url(self, url):

        '''

            获取指定url的所有新闻列表

            :param pages:  指定的页面url

            :return:  news_page_list的列表

        '''

        dom_tree = tranfrom_dom_tree(url);

        news_ui = dom_tree.select(".news-list li a");

        news_page_list = [];

        for index in range(0, 10):

            try:

                a_tag = news_ui[index];

                href = a_tag.get("href");

                news = News(href);

                news.summary = a_tag.select(".news-list-description")[0].text;

                news_page_list.append(eval("news.to_"+self.news_type+"()"));

            except Exception:

                error_log = "此页面不正常: %s"%href;

                print("此页面不正常: %s"%href, end="");

                with open("./logger.txt", "a", encoding="utf-8") as file:

                    now_time = time.time();

                    file.write(error_log + " 错误时间:" + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(now_time)) );

        return news_page_list;

    @property

    def news_type(self):

        '''

            新闻默认类型设置

            :return: 返回默认类型

        '''

        return self._news_type;

    @news_type.setter

    def news_type(self, type="dict"):

        '''

            新闻可选类型

            :param type:  选择的类型

        '''

        if type == "dict":

            self._news_type = type;

        else :

            raise Exception("未能匹配该类型");

测试代码如下

    #  测试GZCCNewsReptil可用性

    start_page = 106

    # news_list = GZCCNewsReptile().get_news_from_news_page_size(start_page,start_page+10);

    news_list = GZCCNewsReptile().get_news_from_news_page_size(1,  256);

    pandas_date = pandas.DataFrame(news_list);

    print(news_list);

    # #csv

    pandas_date.to_csv(".\pandas_date.csv", encoding="utf-8_sig");

    # #sql

    # with sqlite3.connect("test.sqlite") as db:

    #     pandas_date.to_sql("test", db);

    #     date = pandas_date.read_sql_query('SELECT * FROM gzccnewsdb5', con=db)

    #     date[date["news_times"]>380];

python爬虫，爬取一系列新闻的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...

随机推荐

王燕 201771010126《面向对象程序设计（java）》第一周学习总结
王燕 201771010126<面向对象程序设计(java)>第一周学习总结王燕 201771010126<面向对象程序设计(java)>第一周学习总结第一部分:课程准备部 ...
HTML5_新标签
HTML5 是定义 HTML 标准的最新版本. 是一个新版本的 HTML 语言,具有新的元素,属性,行为, 是一个技术及,允许更多样化和强大的网站和应用程序优势: 跨平台: 通吃 MAC PC Li ...
Git 经常用到的命令
1.克隆master分支之外的分支: 首先克隆项目 1>Git clone git@192.168.0.201:frontend/mn.git 然后转换到克隆下来的文件夹 2>cd 文件名 ...
LeetCode 34 - 在排序数组中查找元素的第一个和最后一个位置 - [二分][lower_bound和upper_bound]
给定一个按照升序排列的整数数组 nums,和一个目标值 target.找出给定目标值在数组中的开始位置和结束位置. 你的算法时间复杂度必须是 O(log n) 级别. 如果数组中不存在目标值,返回 [ ...
freemarker知识点
一----------------------------freemarker 如果变量不存在或者未NULL时应给默认值,否则报错 ${username!} 默认值空字符串 ${usernam ...
Jquery获取输入框属性file，ajax传输后端，下载图片
Django web开发获取input属性file,可以用request.FILES.get(' ')直接获取到,然后正常拼接路径就可以下载, 但是今天我们来用异步获取file的值在传输后端下载. 1 ...
vuejs 70行代码实现便签功能
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Web开发——Photoshop（PSD格式截取）
Step1 将截取到的图片,存储为Web所用格式. Step2 在右上角选择存储格式为:PNG-24(PNG-8可能会出现白边).
关于HTTP协议学习（一）
一,目录结构 B/S 结构定义 URI (统一资源标志符) HTTP 协议 HTTP 请求报文 HTTP 响应报文 HTTP Methods HTTP Status Code 二,B/S,C/S 结构 ...
AD模块电压采集电路
之前一直没搞明白模拟电压转换电路,不知道应该怎么计算转换电压,最近一个项目中用到几处模拟电压的采集,硬件是由其他同事设计的,转换公式也是他给的,记录一下: 24V电压采集: 公式:Vout = Vin ...

python爬虫，爬取一系列新闻

python爬虫，爬取一系列新闻的更多相关文章

随机推荐

热门专题