PYTHON：新闻聚合

这个项目看了有段时间，因为一直没跑通，而且关于NNTP也不是特别理解。这里是转载code123的分析。

原文地址：http://www.code123.cc/1327.html

书中的第四个练习，新闻聚合。现在很少见的一类应用，至少我从来没有用过，又叫做Usenet。这个程序的主要功能是用来从指定的来源（这里是Usenet新闻组）收集信息，然后讲这些信息保存到指定的目的文件中（这里使用了两种形式：纯文本和html文件）。这个程序的用处有些类似于现在的博客订阅工具或者叫RSS订阅器。

先上代码，然后再来逐一分析：

from nntplib import NNTP

from time import strftime,time,localtime

from email import message_from_string

from urllib import urlopen

import textwrap

import re

day = 24*60*60

def wrap(string,max=70):

        '''

        '''

        return '\n'.join(textwrap.wrap(string)) + '\n'

class NewsAgent:

        '''

        '''

        def __init__(self):

                self.sources = []

                self.destinations = []

        def addSource(self,source):

                self.sources.append(source)

        def addDestination(self,dest):

                self.destinations.append(dest)

        def distribute(self):

                items = []

                for source in self.sources:

                        items.extend(source.getItems())

                for dest in self.destinations:

                        dest.receiveItems(items)

class NewsItem:

        def __init__(self,title,body):

                self.title = title

                self.body = body

class NNTPSource:

        def __init__(self,servername,group,window):

                self.servername = servername

                self.group = group

                self.window = window

        def getItems(self):

                start = localtime(time() - self.window*day)

                date = strftime('%y%m%d',start)

                hour = strftime('%H%M%S',start)

                server = NNTP(self.servername)

                ids = server.newnews(self.group,date,hour)[1]

                for id in ids:

                        lines = server.article(id)[3]

                        message = message_from_string('\n'.join(lines))

                        title = message['subject']

                        body = message.get_payload()

                        if message.is_multipart():

                                body = body[0]

                        yield NewsItem(title,body)

                server.quit()

class SimpleWebSource:

        def __init__(self,url,titlePattern,bodyPattern):

                self.url = url

                self.titlePattern = re.compile(titlePattern)

                self.bodyPattern = re.compile(bodyPattern)

        def getItems(self):

                text = urlopen(self.url).read()

                titles = self.titlePattern.findall(text)

                bodies = self.bodyPattern.findall(text)

                for title.body in zip(titles,bodies):

                        yield NewsItem(title,wrap(body))

class PlainDestination:

        def receiveItems(self,items):

                for item in items:

                        print item.title

                        print '-'*len(item.title)

                        print item.body

class HTMLDestination:

        def __init__(self,filename):

                self.filename = filename

        def receiveItems(self,items):

                out = open(self.filename,'w')

                print >> out,'''

                <html>

                <head>

                 <title>Today's News</title>

                </head>

                <body>

                <h1>Today's News</hi>

                '''

                print >> out, '<ul>'

                id = 0

                for item in items:

                        id += 1

                        print >> out, '<li><a href="#">%s</a></li>' % (id,item.title)

                print >> out, '</ul>'

                id = 0

                for item in items:

                        id += 1

                        print >> out, '<h2><a name="%i">%s</a></h2>' % (id,item.title)

                        print >> out, '<pre>%s</pre>' % item.body

                print >> out, '''

                </body>

                </html>

                '''

def runDefaultSetup():

        agent = NewsAgent()

        bbc_url = 'http://news.bbc.co.uk/text_only.stm'

        bbc_title = r'(?s)a href="[^"]*">\s*<b>\s*(.*?)\s*</b>'

        bbc_body = r'(?s)</a>\s*<br/>\s*(.*?)\s*<'

        bbc = SimpleWebSource(bbc_url, bbc_title, bbc_body)

        agent.addSource(bbc)

        clpa_server = 'news2.neva.ru'

        clpa_group = 'alt.sex.telephone'

        clpa_window = 1

        clpa = NNTPSource(clpa_server,clpa_group,clpa_window)

        agent.addSource(clpa)

        agent.addDestination(PlainDestination())

        agent.addDestination(HTMLDestination('news.html'))

        agent.distribute()

if __name__ == '__main__':

        runDefaultSetup()

这个程序，首先从整体上进行分析，重点部分在于NewsAgent，它的作用是存储新闻来源，存储目标地址，然后在分别调用来源服务器（NNTPSource以及SimpleWebSource）以及写新闻的类（PlainDestination和HTMLDestination）。所以从这里也看的出，NNTPSource是专门用来获取新闻服务器上的信息的，SimpleWebSource是获取一个url上的数据的。而PlainDestination和HTMLDestination的作用很明显，前者是用来输出获取到的内容到终端的，后者是写数据到html文件中的。

有了这些分析，然后在来看主程序中的内容，主程序就是来给NewsAgent添加信息源和输出目的地址的。

这确实是个简单的程序，不过这个程序可是用到了分层了。

PYTHON：新闻聚合的更多相关文章

Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
python基础教程总结15——4 新闻聚合
NNTP:网络新闻传输协议,Network News Transfer Protocol 目标: 从多种不同的来源收集新闻: 用户可以轻松添加新的新闻来源(甚至是新类型的新闻来源: 程序可以将编译好的 ...
python 实践--新闻聚合
采集新闻,体会到面向问题和面向对象的区别. 如果希望新闻来源多出,比如NNTP,Web.可以实现:Source,Destination,NewItem,NewAgent. Scoure处理来源, De ...
【开源】开发者新闻聚合APP 2.0.3发布（第二个稳定版本）
聚合了博客园新闻.infoq新闻.36kr新闻.oschina新闻.51cto新闻.csdn新闻: 争取做到随时刷随时有开发者的新闻! 目前还只支持安卓APP 但用的人多了,我会发布苹果版的APP 最 ...
【开源】开发者新闻聚合APP 1.0.3发布（第一个稳定版本，短期内不再发布新版本）
聚合了博客园新闻.infoq新闻.36kr新闻.oschina新闻.51cto新闻.csdn新闻: 争取做到随时刷随时有开发者的新闻! 目前还只支持安卓APP 最新版本的下载地址:https://gi ...
python 数据聚合与分组
前面讲完了字符处理,但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容. 通过数据的聚合与分组,我们能更容易的发现隐藏在数据中的规律. 数据分组数据的分组核心思想是:拆分-组织-合并首 ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
Python数据聚合和分组运算(2)-Data Aggregation
在上一篇博客里我们讲解了在python里运用pandas对数据进行分组,这篇博客将接着讲解对分组后的数据进行聚合. 1.python 中经过优化的groupy方法先读入本文要使用的数据集tips. ...

随机推荐

Unity 游戏框架搭建 (五) 简易消息机制
什么是消息机制? 23333333,让我先笑一会. 为什么用消息机制? 三个字,解!!!!耦!!!!合!!!!. 我的框架中的消息机制用例: 1.接收者 ``` using UnityEngine ...
Hadoop出现的错误及处理
1.local host is: (unknown); destination host is: "yun-ubuntu":8031; 原因:yun-ubuntu这个host 并不 ...
P1280 尼克的任务
题目描述尼克每天上班之前都连接上英特网,接收他的上司发来的邮件,这些邮件包含了尼克主管的部门当天要完成的全部任务,每个任务由一个开始时刻与一个持续时间构成. 尼克的一个工作日为N分钟,从第一分钟开始 ...
优雅的封装ajax，含跨域
之前写过一篇先定一个小目标,自己封装个ajax,是基于原生js的,也就是jquery中ajax的简化版本实现的思路.众所周知,jquery的ajax是项目中最常用的请求后台的方式,也算是封装的很完美 ...
Unity3D调用摄像头
代码启用摄像头 .using UnityEngine; .using System.Collections; . .public class WebCamManager : MonoBeh ...
【ALB学习笔记】基于.NET环境的高频RFID卡读写设备的基本操作案例
基于.NET环境的高频RFID卡读写设备的基本操作案例广东职业技术学院欧浩源 1.引言 RFID高频卡在我们的日常生活中随处可见,是物联网应用中不可或缺的一个重要部分,也是全国职业院校技能大赛& ...
中缀表达式变后缀表达式、后缀表达式（逆波兰）求值(python版本)
定义: 中缀表达式: 在通常的表达式中,二元运算符总是置于与之相关的两个运算对象之间,这种表示法也称为中缀表达式后缀表达式: 又叫逆波兰表达式 ,不包含括号,运算符放在两个运算对象的后面,所有的计算 ...
ASP.NET 平台下的MVC框架
这段时间在学习MVC框架,希望自己的一点心得能够帮助正在学习的同仁. 在阅读一些大牛的博客的时候看到一句话,感觉特别好,“你应该尝试MVC,是因为最终你会学到一些东西,它可以使你成为更好的Web开发人 ...
poj_1845: Sumdiv
题目链接先将A^B分解质因数,可以通过先分解A,再把对应的幂次*B.之后用下面这个式子求解就可以了 #include<vector> #include<iostream> u ...
快速了解cpu、核与线程
作为一个后台开发人员,我想有必要了解这些基础知识.如果本文有不严谨或者疏忽的地方,请指正. cpu与核心物理核物理核数量=cpu数(机子上装的cpu的数量)*每个cpu的核心数虚拟核所谓的4核 ...

PYTHON：新闻聚合

PYTHON：新闻聚合的更多相关文章

随机推荐

热门专题