Python爬虫:爬取自己博客的主页的标题,链接,和发布时间
##代码
# -*- coding: utf-8 -*-
"""
-------------------------------------------------
File Name: getCnblogs
Description :
Author : 神秘藏宝室
date: 2017-09-21
-------------------------------------------------
Change Activity:
2017-09-21:
-------------------------------------------------
"""
import requests
from bs4 import BeautifulSoup
res = requests.get('http://www.cnblogs.com/Mysterious/')
res.encoding = ('utf-8')
soup = BeautifulSoup(res.text,'html.parser')
def getBlogWriteTime(url):
res = requests.get(url)
res.encoding = ('utf-8')
soup = BeautifulSoup(res.text,'html.parser')
return soup.select('#post-date')[0].text
#获取标题和链接
num = 1
for pt in soup.select('.postTitle2'):
print num,'\t',pt.text,'\t',pt['href'],'\t',getBlogWriteTime(pt['href'])
num = num + 1
##结果
1 Python爬虫:获取新浪网新闻 http://www.cnblogs.com/Mysterious/p/7538833.html 2017-09-18 00:10
2 运行jupyter notebook 出错 Error executing Jupyter command 'notebook' http://www.cnblogs.com/Mysterious/p/7538169.html 2017-09-17 22:10
3 安装和使用jupyter http://www.cnblogs.com/Mysterious/p/7533607.html 2017-09-17 00:25
4 windows下python调用c文件流程 http://www.cnblogs.com/Mysterious/p/7529228.html 2017-09-16 00:01
5 python Unable to find vcvarsall.bat 错误 http://www.cnblogs.com/Mysterious/p/7529142.html 2017-09-15 23:30
6 阿里云公网IP不能使用 http://www.cnblogs.com/Mysterious/p/7523618.html 2017-09-14 22:36
7 Python2 socket TCPServer 多线程并发 超时关闭 http://www.cnblogs.com/Mysterious/p/7523559.html 2017-09-14 22:27
8 Python2 socket 多线程并发 ThreadingTCPServer Demo http://www.cnblogs.com/Mysterious/p/7507314.html 2017-09-11 21:50
9 Python2 socket 多线程并发 TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507221.html 2017-09-11 21:28
10 Python socket TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507042.html 2017-09-11 20:59
Python爬虫:爬取自己博客的主页的标题,链接,和发布时间的更多相关文章
- python 爬虫 爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
- Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够 保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
- Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
- python爬虫爬取内容中,-xa0,-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
- python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
- Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表 操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据 封装接口函数,实现函数调用. 1.分析接口 打开Chrome浏览器,开启开发者工具(F1 ...
- 用Python爬虫爬取广州大学教务系统的成绩(内网访问)
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
- Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
随机推荐
- UML类图详解_泛化关系
泛化其实就是继承关系,还是比较简单的,那么我们就把之前有些问题的博客UML类图重新来实现一次. 依旧是这个图 下面我们来看一个例子 Account.h #include <cstdlib> ...
- 键值对集合 dict(字典)
xx= { ss, ss } 创建字典 len(ss) 返回字典到长度,len函数可以返回任何集合的长度,list.tuple.dict都是集合的一种 什么是dict 我们已经知道,list 和 tu ...
- is char signed or unsigned?
工作这么多年,一直认为char是有符号的,而事实上gcc和vs默认也是有符号,但是c规范里实际并没有指明char是有符号还是无符号,所以char比较特殊, char signed char unsig ...
- Introdution to Spring Mobile
1. In Eclipse, create a new Maven Project using the spring-mvc-jpa-archetype. 2. Add the spring-mobi ...
- 活动招募 HUAWEI HiAI公开课·北京站-如何在4小时把你的APP变身AI应用
人工智能和机器学习是全球关注的新趋势,也是当前最火爆.最流行的话题.当你拿手机用语音助手帮你点外卖,智能推荐帮你把周边美食一网打尽:当你拿起P20拍照时,它将自动识别场景进行最美优化,让你成为摄影大师 ...
- Spring Java-based容器配置(二)
组装Java-based的配置 使用@Import注解 跟在Spring XML文件里使用<import>元素加入模块化的配置相似,@Import注解同意你载入其它配置类中的@Bean定义 ...
- BitMap、Geo、HyperLogLog
前言 Reids 在 Web 应用的开发中使用非常广泛,几乎所有的后端技术都会有涉及到 Redis 的使用.Redis 种除了常见的字符串 String.字典 Hash.列表 List.集合 Set. ...
- mysql 顺序问题
unsigned 必须出在 not null 的前面,如果出现在这个后面就出错呢.
- Python Socket 网络编程 (服务器端编程)
服务器端主要做以下工作: 打开 socket 绑定到特定的地址以及端口上 监听连接 建立连接 接收/发送数据 上面已经介绍了如何创建 socket 了,下面一步是绑定. 绑定 socket 函数 bi ...
- 目标跟踪之klt---光流跟踪法
近来在研究跟踪,跟踪的方法其实有很多,如粒子滤波(pf).meanshift跟踪,以及KLT跟踪或叫Lucas光流法,这些方法各自有各自的有点,对于粒子滤波而言,它能够比较好的在全局搜索到最优解,但其 ...