CSDN文章抓取

在抓取网页的时候只想抓取主要的文本框，例如 csdn 中的主要文本框为下图红色框：

抓取的思想是，利用 bs4 查找所有的 div，用正则筛选出每个 div 里面的中文，找到中文字数最多的 div 就是属于正文的 div 了。定义一个抓取的头部抓取网页内容：

import requests

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',

    'Host': 'blog.csdn.net'}

session = requests.session()

def getHtmlByRequests(url):

    headers.update(

        dict(Referer=url, Accept="*/*", Connection="keep-alive"))

    htmlContent = session.get(url=url, headers=headers).content

    return htmlContent.decode("utf-8", "ignore")

识别每个 div 中文字的正则：

import re

# 统计中文字数

def countContent(string):

    pattern = re.compile(u'[\u1100-\uFFFD]+?')

    content = pattern.findall(string)

    return content

遍历每一个 div ，利用正则判断里面中文的字数长度，找到长度最长的 div ：

# 分析页面信息

def analyzeHtml(html):

    # 初始化网页

    soup = BeautifulSoup(html, "html.parser")

    part = soup.select('div')

    match = ""

    for paragraph in part:

        content = countContent(str(paragraph))

        if len(content) > len(match):

            match = str(paragraph)

    return match

得到主要的 div 后，提取里面的文字出来：

def main():

    url = "http://blog.csdn.net/"

    html = getHtmlByRequests(url)

    mainContent = analyzeHtml(html)

    soup = BeautifulSoup(mainContent, "html.parser")

    print(soup.select('div')[0].text)

完整的代码如下：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

import requests

import re

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',

    'Host': 'blog.csdn.net'}

session = requests.session()

def getHtmlByRequests(url):

    headers.update(

        dict(Referer=url, Accept="*/*", Connection="keep-alive"))

    htmlContent = session.get(url=url, headers=headers).content

    return htmlContent.decode("utf-8", "ignore")

# 统计中文字数

def countContent(string):

    pattern = re.compile(u'[\u1100-\uFFFD]+?')

    content = pattern.findall(string)

    return content

# 分析页面信息

def analyzeHtml(html):

    # 初始化网页

    soup = BeautifulSoup(html, "html.parser")

    part = soup.select('div')

    match = ""

    for paragraph in part:

        content = countContent(str(paragraph))

        if len(content) > len(match):

            match = str(paragraph)

    return match

def main():

    url = "http://blog.csdn.net/"

    html = getHtmlByRequests(url)

    mainContent = analyzeHtml(html)

    soup = BeautifulSoup(mainContent, "html.parser")

    print(soup.select('div')[0].text)

if __name__ == '__main__':

    main()

CSDN文章抓取的更多相关文章

python爬虫CSDN文章抓取
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/nealgavin/article/details/27230679 CSDN原则上不让非人浏览訪问. ...
抓取csdn上的各类别的文章（制作csdn app 二）
转载请表明出处:http://blog.csdn.net/lmj623565791/article/details/23532797 这篇博客接着上一篇(Android 使用Fragment,View ...
Python实现抓取CSDN博客首页文章列表
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn首页文章列表 http://blog.csdn.net/ 3.分析网站文章列表代码: 4.实现抓取代码: __a ...
Python实现抓取CSDN热门文章列表
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.分析网站代码: 4.实现代码: _ ...
使用python抓取CSDN关注人的全部公布的文章
# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文
我主要是用了两个方法来抽去正文内容,第一个方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼.第二个方法是后面标 ...
微信朋友圈转疯了（golang写小爬虫抓取朋友圈文章）
很多人在朋友圈里转发一些文章,标题都是什么转疯啦之类,虽然大多都也是广告啦,我觉得还蛮无聊的,但是的确是有一些文章是非常值得收藏的,比如老婆经常就会收藏一些养生和美容的文章在微信里看. 今天就突发奇想 ...

随机推荐

深入理解计算机系统（2.5）------C语言中的有符号数和无符号数以及扩展和截断数字
上一篇博客我们讲解了计算机中整数的表示,包括无符号编码和补码编码,以及它们之间的互相转换,个人觉得那是非常重要的知识要点.这篇博客我们将介绍C语言中的有符号数和无符号数以及扩展和截断数字. 1.C语言 ...
升级与修改Nginx
自从上次安装了Nginx后,学到了很多新的东西,比如http2.0... 而且还发现nginx还出了新版本,遂决定升级下,还是那个URL,下载最新版. ./configure --user=www - ...
MySQL集群（三）mysql-proxy搭建负载均衡与读写分离
前言前面学习了主从复制和主主复制,接下来给大家分享一下怎么去使用mysql-proxy这个插件去配置MySQL集群中的负载均衡以及读写分离. 注意:这里比较坑的就是mysql-proxy一直没有更新 ...
Cross the GreateWall方案
涉及Client端和Server端服务端:SS搭建注意:以Ubuntu环境为例 Step1:添加GPG Public key wget -O- http://shadowsocks.org/deb ...
[UIKit学习]05.关于plist
plist是一种iOS本地化轻量级存储方式创建plist 选择New File-> Resource->plist 加载plist //获得Plist文件的全路径 NSBundle *b ...
MySQL索引优化实例说明
下面分别创建三张表,并分别插入1W条简单的数据用来测试,详情如下: [1] test_a 有主键但无索引 CREATE TABLE `test_a` ( `id` int(10) unsign ...
STM32获取DHT11温度传感器数据
准备物件 STM32F103C8T6核心板 ST-LINK V2 DHT11 杜邦线若干连接线 STM32F103C8T6芯片管脚图管脚说明连接仿真器 STM32 ST-LINKV2 VCC V ...
Tomcat启动一闪而过
问题: 在下载tomcat7纯净版之后,配置完环境变量.运行startup.bat,一闪而过tomcat没有启动成功. 解决办法: 设置CLASSPATH.环境变量设置JAVA_HOME为java安装 ...
Python uwsgi 无法安装以及编译报错的处理方式
之前安装uwsgi的时候编译一步有出错,因为比较早,部分错误代码已经找不到了,网上找了部分错误信息, 现把解决方式共享出来. 环境:CentOS release 6.4 Python 2.7.3 ...
HDFS 分布式写入问题 AlreadyBeingCreatedException
进行追加文件时出现AlreadyBeingCreatedException错误堆栈信息大致如下: org.apache.hadoop.ipc.RemoteException(org.apache.h ...

CSDN文章抓取

CSDN文章抓取的更多相关文章

随机推荐

热门专题