python3自己主动爬笑话

学校的server能够上外网了，所以打算写一个自己主动爬取笑话并发到bbs的东西，从网上搜了一个笑话站点，感觉大部分还不太冷。html结构例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl0dGxldGh1bmRlcg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

能够看到，笑话的链接列表都在<div class="list_title">里面，用正則表達式能够把近期的几个笑话地址找出来，再进到一个笑话页面看下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl0dGxldGh1bmRlcg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

每一个笑话页面里面是有多个小笑话组成的。所有在<span id="text110">标签下，每一个小笑话又单独一个<p>包裹，这样很easy就能够把每一个单独笑话放到一个list中。因为我爬笑话的目的是每天白天一个小时发一个笑话。所以爬取20个是足够的了，每一个页面平均有5个小笑话，爬4个页面就OK啦。

这里有几个细节。这个笑话网有的链接是有中文的，比方：

<a href="/jokehtml/冷笑话/2014051200030765.htm" target="_blank">读书破万卷,搞笑如有神</a>

直接urllib.request.urlopen函数不能解析中文的URL。必需要urllib.parse先转码一下才干正确解析。另一个细节是每段的小笑话之间是有换行的，用正則表達式的“.”是不能匹配换行符的，需要改成“[\w\W]”才干匹配。好了，以下是代码：

import urllib.request

import urllib.parse

import re

rule_joke=re.compile('<span id=\"text110\">([\w\W]*?)</span>')

rule_url=re.compile('<a href=\"(.*?)\"target=\"_blank\" >')

mainUrl='http://www.jokeji.cn'

url='http://www.jokeji.cn/list.htm'

req=urllib.request.urlopen(url)

html=req.read().decode('gbk')

urls=rule_url.findall(html)

f=open('joke.txt','w')

for i in range(4):

	url2=urllib.parse.quote(urls[i])

	joke_url=mainUrl+url2

	req2=urllib.request.urlopen(joke_url)

	html2=req2.read().decode('gbk')

	joke=rule_joke.findall(html2)

	jokes=joke[0].split('<P>')

	for i in jokes:

		i=i.replace('</P>','')

		i=i.replace('<BR>','')

		i=i[2:]

		f.write(i)

f.close()

看下爬取的结果：

这样，每行是一个单独的笑话。方便其它程序使用。

转载请注明：转自http://blog.csdn.net/littlethunder/article/details/25693641

python3自己主动爬笑话的更多相关文章

Scrapy研究探索（六）——自己主动爬取网页之II（CrawlSpider）
原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315 一.目的. 在教程(二)(http://blog.csdn.net/u ...
python3使用requests爬取新浪热门微博
微博登录的实现代码来源:https://gist.github.com/mrluanma/3621775 相关环境使用的python3.4,发现配置好环境后可以直接使用pip easy_instal ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
python3+selenium3+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3.4+selenium爬58同城（一）
爬取http://bj.58.com/pbdn/0/pn2/中除转转.推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下这周学习了爬虫,但是遇到一些 ...
Python3.5：爬取网站上电影数据
首先我们导入几个pyhton3的库: from urllib import requestimport urllibfrom html.parser import HTMLParser 在Python ...

随机推荐

Win 32平台SDK中的文件操作
读取文件: HANDLE hFile ; // 声明文件操作内核对象句柄 hFile = CreateFile(, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL ...
记录一次统计首页MYSQL非常慢的解决过程
select resource_size_int from t_resource_info where release_status in (1,3) and res_type in (1,2,4,5 ...
更换介质：请把标有…… DVD 的盘片插入驱动器“/media/cdrom/”再按回车键“ 解决方法
https://blog.csdn.net/no7oor/article/details/12776815
洛谷——P1604 B进制星球
P1604 B进制星球题目背景进制题目,而且还是个计算器~~ 题目描述话说有一天,小Z乘坐宇宙飞船,飞到一个美丽的星球.因为历史的原因,科技在这个美丽的星球上并不很发达,星球上人们普遍采用B(2 ...
Annotation的语法和使用
http://blog.csdn.net/cdl2008sky/article/details/6265742 (1) .<context:component-scan base-package ...
luogu P1824 进击的奶牛
题目描述 Farmer John建造了一个有N(2<=N<=100,000)个隔间的牛棚,这些隔间分布在一条直线上,坐标是x1,...,xN (0<=xi<=1,000,000 ...
[POJ 1739] Tony's Tour
Link: POJ 1739 传送门 Solution: 这题除了一开始的预处理,基本上就是插头$dp$的模板题了由于插头$dp$求的是$Hamilton$回路,而此题有起点和终点的限制于是可以构 ...
[SHOI2009] 交通网络
简单最短路计数. #include<bits/stdc++.h> #define ll long long using namespace std; #define D double co ...
【计算几何】【二分答案】【最大流】bzoj1822 [JSOI2010]Frozen Nova 冷冻波
用三角形面积什么的算算点到直线的距离之类……其实相切的情况是可行的……剩下的就跟某SDOI2015一样了. #include<cstdio> #include<cmath> # ...
Spring IOC 中三种注入方式
项目错误知识点记录正文最近在项目的时候,用到Spring框架,Spring框架提供了一种IOC的自动注入功能,可以很轻松的帮助我们创建一个Bean,这样就省的我们四处写new Object()这样 ...

python3自己主动爬笑话

python3自己主动爬笑话的更多相关文章

随机推荐

热门专题