python 爬虫爬取序列博客文章列表

python中写个爬虫真是太简单了



import urllib.request

from pyquery import PyQuery as PQ

# 根据URL获取内容并解码为UTF-8

def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    html = html.decode('UTF-8')

    return html

# 解析返回的html

def getArtical(html, results):

    doc = PQ(html)

    # data = doc('.searchAtcList .searchAtc_top a')

    data = doc('.atc_title a')

    for x in data.items():

        title = x.text()

        href = x.attr('href')

        if title.find('教你炒股票') >= 0:

            # 标题被截断的需要根据URL获取完整的标题

            if title.find('…') >= 0:

                title = getArticalDetail(x.attr('href'))

            r = '[' + title + '](' + href + ')'

            index = title[5 : title.index('：')]

            results.append((int(index),r))

# 获取文章标题

def getArticalDetail(url):

    html = getHtml(url)

    doc = PQ(html)

    data = doc('.articalTitle h2')

    title = data.text()

    return title

blog3 = 'http://blog.sina.com.cn/s/articlelist_1215172700_0_'

# http://blog.sina.com.cn/s/articlelist_1215172700_0_1.html

# http://blog.sina.com.cn/s/articlelist_1215172700_0_15.html

# blog = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page='

# blog2 = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page='

results = []

# 总共有23页

for i in range(1, 24):

    url = blog3 + str(i) + '.html'

    print(url)

    html = getHtml(url)

    getArtical(html, results)

# 排序后输出

results.sort()

for x in results:

    print(x[1])

python 爬虫爬取序列博客文章列表的更多相关文章

Python爬虫:爬取自己博客的主页的标题，链接，和发布时间
代码 # -*- coding: utf-8 -*- """ ------------------------------------------------- File ...
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

随机推荐

com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: No operations allowed after connection closed. 解决
ERROR - No operations allowed after connection closed. 2011-12-07 11:36:09 - ERROR - query failed or ...
【转】从源码来分析ListView
原文:http://yanmingming.sinaapp.com/?p=1251 原文其实不叫这个名字,本文对于原文有一定的修改,觉得这个名字比较适合本篇. 一.ListView 的工作原理 Ada ...
Go语言之进阶篇实现并发聊天功能
1.并发聊天服务器原理分析 2.并发聊天室功能: 广播消息.广播上线. 查询在线用户.修改用户名.用户主动退出.超时处理示例: package main import ( "fmt&qu ...
go语言之进阶篇单向channel特点
1.单向channel特点 package main //"fmt" func main() { //创建一个channel, 双向的 ch := make(chan int) / ...
Nuget挂了的解决方法(转)
今天用Nuget下一个程序包时,发现Nuget挂了:未能解析此远程名称:'nuget.org'.第一反应就是方校长抖威风了,挂个代理上 http://nuget.org 试了下,果然好好的. 用命令n ...
python将控制台输出保存至文件
很多时候在Linux系统下运行python程序时,控制台会输出一些有用的信息.为了方便保存这些信息,有时需要对这些信息进行保存.这里介绍几种将控制台输出保存到文件中的方式:1 重定向标准输出流重定向标 ...
构建配置 Enable multidex
官方文档配置方法数超过 64K 的应用随着 Android 平台的持续成长,Android 应用的大小也在增加.当您的应用及其引用的库达到特定大小时,您会遇到构建错误,指明您的应用已达到 Andr ...
NLP常用信息资源
ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文.http://www.aclweb.org/anthology-new/ LDC: The Linguist ...
【python3】集合set （转）
https://www.cnblogs.com/onepeace/p/4791578.html set原理 Python 还包含了一个数据类型—— set ( 集合 ) . 集合 ...
MySQL在线大表DDL操作（转）
http://www.cnblogs.com/janehoo/p/5382474.html 线大表DDL操作的方法: 1.主从架构轮询修改需要注意: a.主库会话级别的记录binglog的参数关闭 ...

python 爬虫 爬取序列博客文章列表

python 爬虫 爬取序列博客文章列表的更多相关文章

随机推荐

热门专题

python 爬虫爬取序列博客文章列表

python 爬虫爬取序列博客文章列表的更多相关文章