按示例学python：使用python抓取网页正文

平时打开一个网页，除了文章的正文内容，通常会有一大堆的导航，广告和其他方面的信息。本博客的目的，在于说明如何从一个网页中提取出文章的正文内容，而过渡掉其他无关的的信息。

这里先看看 demo : http://2.tingxinwen.duapp.com/extract_context

本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。

约定：

本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。

有些新闻网页，可能新闻的文本内容比较短，但其中嵌入一个视频文件，因此，我会给予视频较高的权重；这同样适用于图片，这里有一个不足，应该是要根据图片显示的大小来决定权重的，但本文的方法未能实现这一点。

由于广告，导航这些非正文内容通常以超链接的方式出现，因此文本将给予超链接的文本权重为零。

这里假设正文的内容是连续的，中间不包含非正文的内容，因此实际上，提取正文内容，就是找出正文内容的开始和结束的位置。

步骤：

首先清除网页中CSS,Javascript,注释，Meta,Ins这些标签里面的内容，清除空白行。

计算每一个行的经过处理的数值（1）

计算上面得出的每行文本数的最大正子串的开始结束位置

其中第二步需要说明一下：

对于每一行，我们需要计算一个数值，这个数值的计算如下：

一个图片标签img，相当于出现长度为50字符的文本（给予的权重），x1,

一个视频标签embed，相当于出现长度为1000字符的文本, x2

一行内所有链接的标签 a 的文本长度 x3 ,

其他标签的文本长度 x4

每行的数值 = 50 * x1其出现次数 + 1000 * x2其出现次数 + x4 – 8

//说明， -8 因为我们要计算一个最大正子串，因此要减去一个正数，至于这个数应该多大，我想还是按经验来吧。

完整代码

#coding:utf-8

import re

def remove_js_css (content):

    """ remove the the javascript and the stylesheet and the comment content (<script>....</script> and <style>....</style> <!-- xxx -->) """

    r = re.compile(r'''<script.*?</script>''',re.I|re.M|re.S)

    s = r.sub ('',content)

    r = re.compile(r'''<style.*?</style>''',re.I|re.M|re.S)

    s = r.sub ('', s)

    r = re.compile(r'''<!--.*?-->''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<meta.*?>''', re.I|re.M|re.S)

    s = r.sub('',s)

    r = re.compile(r'''<ins.*?</ins>''', re.I|re.M|re.S)

    s = r.sub('',s)

    return s

def remove_empty_line (content):

    """remove multi space """

    r = re.compile(r'''^\s+$''', re.M|re.S)

    s = r.sub ('', content)

    r = re.compile(r'''\n+''',re.M|re.S)

    s = r.sub('\n',s)

    return s

def remove_any_tag (s):

    s = re.sub(r'''<[^>]+>''','',s)

    return s.strip()

def remove_any_tag_but_a (s):

    text = re.findall (r'''<a[^r][^>]*>(.*?)</a>''',s,re.I|re.S|re.S)

    text_b = remove_any_tag (s)

    return len(''.join(text)),len(text_b)

def remove_image (s,n=50):

    image = 'a' * n

    r = re.compile (r'''<img.*?>''',re.I|re.M|re.S)

    s = r.sub(image,s)

    return s

def remove_video (s,n=1000):

    video = 'a' * n

    r = re.compile (r'''<embed.*?>''',re.I|re.M|re.S)

    s = r.sub(video,s)

    return s

def sum_max (values):

    cur_max = values[0]

    glo_max = -999999

    left,right = 0,0

    for index,value in enumerate (values):

        cur_max += value

        if (cur_max > glo_max) :

            glo_max = cur_max

            right = index

        elif (cur_max < 0):

            cur_max = 0

    for i in range(right, -1, -1):

        glo_max -= values[i]

        if abs(glo_max < 0.00001):

            left = i

            break

    return left,right+1

def method_1 (content, k=1):

    if not content:

        return None,None,None,None

    tmp = content.split('\n')

    group_value = []

    for i in range(0,len(tmp),k):

        group = '\n'.join(tmp[i:i+k])

        group = remove_image (group)

        group = remove_video (group)

        text_a,text_b= remove_any_tag_but_a (group)

        temp = (text_b - text_a) - 8

        group_value.append (temp)

    left,right = sum_max (group_value)

    return left,right, len('\n'.join(tmp[:left])), len ('\n'.join(tmp[:right]))

def extract (content):

    content = remove_empty_line(remove_js_css(content))

    left,right,x,y = method_1 (content)

    return '\n'.join(content.split('\n')[left:right])

代码从最后一个函数开始调用。

按示例学python：使用python抓取网页正文的更多相关文章

python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法
Python抓取中文网页乱码 :Eclipse+pydev2.2+python2.7 :Apatana Studio3+ pydev2.2+python2.7 run时设置 run--&g ...
python使用urllib2抓取网页
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: u ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
《与小卡特一起学Python》Code3 抓取网页中的某个数据
import urllib2 file = urllib2.urlopen('http://common.cnblogs.com/script/jquery.js') message = file.r ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

Category 特性在 iOS 组件化中的应用与管控
背景 iOS Category功能简介 Category 是 Objective-C 2.0之后添加的语言特性. Category 就是对装饰模式的一种具体实现.它的主要作用是在不改变原有类的前提下, ...
Music in Car CF 746F
题目:http://codeforces.com/problemset/problem/746/F 先感叹一下题目之长! 一些测试样例在后面给出. 题目大意: Sasha 去工作的路上喜欢听歌,途中经 ...
JFinal 3.3 入门学习 -- Hello JFinal World.
资源准备 jar包下载:http://www.jfinal.com/download/?file=jfinal-3.3-all.zip 下载完成后需要用到的jar包: 将 jfinal-3.3-bin ...
在Windows上安装FFmpeg程序
原文地址:http://helloway.blog.51cto.com/7666282/1642247 FFmpeg是一套可以用来记录.转换数字音频.视频,并能将其转化为流的开源计算机程序.它提供了录 ...
冒泡排序（初级版）之C++实现
冒泡排序(初级版)之C++实现一.源代码:BubbleSortLow.cpp /*冒泡排序思想: 从第一个元素开始,对数组中两两相邻的元素比较,将值较小的元素放在前面,值较大的元素放在后面: 一轮比 ...
[Luogu4724][模板]三维凸包(增量构造法)
1.向量点积同二维,x1y1+x2y2+x3y3.向量叉积是行列式形式,(y1z2-z1y2,z1x2-x1z2,x1y2-y1x2). 2.增量构造法: 1)首先定义,一个平面由三个点唯一确定.一个 ...
快速搭建简单的LBS程序——地图服务
很多时候,我们的程序需要提供需要搭建基于位置的服务(LBS),本文这里简单的介绍一下其涉及的一些基本知识. 墨卡托投影地图本身是一个三维图像,但在电脑上展示时,往往需要将其转换为二维的平面图形,需要 ...
Xilinx Platform Usb Cable
Key Features High-performance FPGA configuration and PROM/CPLD programming Includes innovative FPGA- ...
Linux线程之线程线程组进程轻量级进程（LWP） -systemtap -mysql
http://blog.chinaunix.net/uid-24774106-id-3650136.html http://blog.itpub.net/15480802/viewspace-7627 ...
How to check Ubuntu version
Below you can find some tips on how to check Ubuntu version you are currently running. The first pla ...

按示例学python：使用python抓取网页正文

按示例学python：使用python抓取网页正文的更多相关文章

随机推荐

热门专题