python datetime模块strptime/strptime format常见格式命令_施罗德_新浪博客     python datetime模块strptime/strptime format常见格式命令    (2013-02-21 11:04:05)    转载▼    标签:    datetime    it        分类: python     python的datetime模块非常好使,就是时间格式与字符串格式转化(strptime/strftime函数)的时候老是…
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代码精简了一下,用在另外一个网站而已,而且爬别人的博客总有一种做贼心虚的感觉,怕被各位园友认为是偷窥狂魔.但是这份代码总归是我花了精力去写的,我也不想就此让它深藏在硬盘之中(电脑实在太老了,可能过两年硬盘坏了,这份代码就消失了),还是贴出来权当作抛砖引玉. 说起要爬新浪博客,总归是有一个原因吧.我的原…
python中multiprocessing.pool函数介绍_正在拉磨_新浪博客     python中multiprocessing.pool函数介绍    (2010-06-10 03:46:51)    转载▼    标签:    it    python    pool        分类: Python    摘自:http://hi.baidu.com/xjtukanif/blog/item/faaa06d31df7d1d8572c84fe.html     python自2.6开…
python中逐行读取文件的最佳方式_Drupal_新浪博客 python中逐行读取文件的最佳方式    (2010-08-18 15:59:28)    转载▼    标签:    python    逐行    读取    文件    最佳    方式    readline    it            利用迭代协议让for循环自动调用next从而前进到文件的下一行,而不是直接把文件读取到内存中,有三点原因:写法简单,运行速度快,节省内存.示例如下:    for line in op…
python—webshell_醉清风xf_新浪博客 python—webshell (2012-05-23 09:55:46) 转载▼…
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客.第三集讲爬取所有博客. 看了视频.也留下了代码. 爬虫第一步:查看网页源码: 第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/…
博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 爬第一页博文 #-*-coding:utf--*- import re #导入正则表达式模块 import urllib #导入urllib库 url= response = html = response.read() #print(html) #这里可以将爬取到的html输出到终端 pattern = re.compile('<a title=.*?href=(.*?…
Python 用下划线作为变量前缀和后缀指定特殊变量. _xxx      不能用'from module import *'导入 __xxx__ 系统定义名字 __xxx    类中的私有变量名 核心风格:避免用下划线作为变量名的开始. 因为下划线对解释器有特殊的意义,而且是内建标识符所使用的符号,我们建议程序员避免用下划线作为变量名的开始.一般来讲,变量名_xxx被看作是“私有 的”,在模块或类外不可以使用.当变量是私有的时候,用_xxx 来表示变量是很好的习惯.因为变量名__xxx__对P…
接上一篇,我们依据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就仅仅有一处不同(页码序号),我们仅仅要在上一篇的代码外面加一个循环,这样就能够爬取全部博客分页的博文.也就是全部博文了. # -*- coding : -utf-8 -*- import urllib import time url = [' ']*350 page = 1 link = 1 while page <=7://眼下共同拥有7页.3 con = urllib.urlopen('http://blog.si…
datetime模块常用的主要有下面这四个类:(要清楚import datetime : 导入的是datetime这个包,包里有各种类) 1. datetime.date   用于表示年月日构成的日期 2. datetime.time   用于表示时分秒微妙构成的一天24小时中的具体时间 3.  datetime.datetime   上面两个合在一起  既包含时间有包含日期 4.  datetime.timedelta   用来创建时间间隔对象,用于加减时间 一.首先着重写一下datetime…