一个死去的网站shige.laiyo.com
2017年4月份的时候,研一下刚刚开始。
爬了这个网站,现在这个网站已经关闭了,这些爬虫代码也就没用了,面向特定网站爬虫本身就是没有意义的。
爬author
import requests
from pyquery import PyQuery as jq
import re
import json
ar = []
for i in range(1, 3132):
url = "http://shige.laiyo.com/zuozhe_%dA1.aspx" % i
print("requesting", url)
resp = requests.get(url)
print(resp.status_code, "response over")
if "网页发生错误" in resp.text:
print("没有", i, "这首诗")
continue
resp.encoding = "utf8"
html = jq(resp.text)
img = re.search("http://img.gushiwen.org/authorImg/.*?.jpg", resp.text)
if img:
img = img.group()
name = html(".left .title h1 span").text().strip()
name = name[:name.index("的")]
desc = html(".left .sons").eq(0).find(".cont").text().strip()
author = {"id": i, "img": img, "description": desc, 'name': name}
ar.append(author)
# print(json.dumps(author, indent=1, ensure_ascii=0))
# input()
json.dump(ar, open("author2.json", "w", encoding="utf8"), ensure_ascii=0, indent=1)
爬词牌
import requests
import re
from pyquery import PyQuery as pq
import json
url = "http://www.meili999.com/cipai/index.html"
url2 = "http://www.meili999.com/cipai/index_2.html"
urls = []
for url in (url, url2):
resp = requests.get(url)
resp.encoding = 'utf8'
html = pq(resp.text).find("#content .list")
resp = re.findall("http://www.meili999.com/cipai/\d+/", html.html())
urls += resp
data = []
for url in urls:
resp = requests.get(url)
resp.encoding = 'utf8'
html = pq(resp.text)
ci = dict()
ci['title'] = html(".pageTitle").text()
desc = html(".poem_comm p")
txt = ""
for p in desc:
txt += pq(p).text().strip() + "\n"
ci['description'] = txt
print(ci['title'])
data.append(ci)
json.dump(data, open("cipai.json", "w", encoding="utf8"), ensure_ascii=0, indent=1)
爬诗歌
from pprint import pprint
import requests
from pyquery import PyQuery as jq
import re
import json
def filt(s):
if not s: return None
s = re.sub("<br.*?>", "\n", s)
s = re.sub("&.*?;", "", s)
s = re.sub("<.*?>", "", s)
s = s.strip()
return s
def part(son):
partName = son.find(".cont p").eq(0).text()
return {partName: filt(jq(son).find(".cont").html())}
def mainPart(son):
cont = son(".cont")
source = son(".source")
title = cont("p").eq(0).text().strip()
preface = None
dynasty = source("a").eq(1).text()
author = source('a').eq(0).text()
poemContent = ""
for i in cont("#contson p"):
span = jq(i).find('span')
if span:
preface = filt(span.html())
else:
poemContent += filt(jq(i).html()) + "\n"
poemContent = poemContent.strip()
if not poemContent:
poemContent = filt(son("#contson").html())
return {'title': title,
'content': poemContent,
'preface': preface,
'dynasty': dynasty,
'author': author
}
def parseHtml(html):
sons = html(".sons")
d = mainPart(sons.eq(0))
related = []
for i in range(1, sons.size()):
if sons.eq(i).attr('id'):
related.append(int(sons.eq(i).attr('id')[4:]))
print(related[-1], '=====')
print(sons.eq(i))
input()
else:
d = {**d, **part(sons.eq(i))}
d = {**d, "related": related}
return d
ar = []
for i in range(1, 73225):
url = "http://shige.laiyo.com/view_%s.aspx" % i
print("requesting", url)
resp = requests.get(url)
print(resp.status_code, "response")
resp.encoding = "utf8"
if "网页发生错误" in resp.text:
print("没有", i, "这首诗")
continue
open("haha.html", 'w',encoding='utf8').write(resp.text)
html = jq(resp.text)
poem = {'id': i, **parseHtml(html)}
ar.append(poem)
pprint(poem)
input()
json.dump(ar, open("poem.json", "w", encoding='utf8'), ensure_ascii=0, indent=1)
爬类型
import requests
from pyquery import PyQuery as jq
import re
import json
ar = []
for i in range(1, 774):
href = "http://shige.laiyo.com/leixing_%dA%d.aspx"
url = href % (i, 1)
print("requesting", url)
resp = requests.get(url)
print("response over", resp.status_code)
resp.encoding = "utf8"
html = jq(resp.text)
category = html('.left .title h1 span').text()
poems = []
for j in range(1, 0xffffff):
url = href % (i, j)
print("requesting", url)
resp = requests.get(url)
print("response over", resp.status_code)
shige = re.findall("#shige\d+", resp.text)
if not shige:
break
for k in shige:
poems.append(int(re.search("\d+", k).group()))
d = {"name": category, "poems": poems}
ar.append(d)
json.dump(ar, open("type.json", "w", encoding="utf8"), indent=1, ensure_ascii=0)
一个死去的网站shige.laiyo.com的更多相关文章
- 如何一步一步用DDD设计一个电商网站(九)—— 小心陷入值对象持久化的坑
阅读目录 前言 场景1的思考 场景2的思考 避坑方式 实践 结语 一.前言 在上一篇中(如何一步一步用DDD设计一个电商网站(八)—— 会员价的集成),有一行注释的代码: public interfa ...
- 如何一步一步用DDD设计一个电商网站(八)—— 会员价的集成
阅读目录 前言 建模 实现 结语 一.前言 前面几篇已经实现了一个基本的购买+售价计算的过程,这次再让售价丰满一些,增加一个会员价的概念.会员价在现在的主流电商中,是一个不大常见的模式,其带来的问题是 ...
- 如何一步一步用DDD设计一个电商网站(十)—— 一个完整的购物车
阅读目录 前言 回顾 梳理 实现 结语 一.前言 之前的文章中已经涉及到了购买商品加入购物车,购物车内购物项的金额计算等功能.本篇准备把剩下的购物车的基本概念一次处理完. 二.回顾 在动手之前我对之 ...
- 如何一步一步用DDD设计一个电商网站(一)—— 先理解核心概念
一.前言 DDD(领域驱动设计)的一些介绍网上资料很多,这里就不继续描述了.自己使用领域驱动设计摸滚打爬也有2年多的时间,出于对知识的总结和分享,也是对自我理解的一个公开检验,介于博客园这个平 ...
- 如何一步一步用DDD设计一个电商网站(七)—— 实现售价上下文
阅读目录 前言 明确业务细节 建模 实现 结语 一.前言 上一篇我们已经确立的购买上下文和销售上下文的交互方式,传送门在此:http://www.cnblogs.com/Zachary-Fan/p/D ...
- 如何一步一步用DDD设计一个电商网站(六)—— 给购物车加点料,集成售价上下文
阅读目录 前言 如何在一个项目中实现多个上下文的业务 售价上下文与购买上下文的集成 结语 一.前言 前几篇已经实现了一个最简单的购买过程,这次开始往这个过程中增加一些东西.比如促销.会员价等,在我们的 ...
- 如何一步一步用DDD设计一个电商网站(五)—— 停下脚步,重新出发
阅读目录 前言 单元测试 纠正错误,重新出发 结语 一.前言 实际编码已经写了2篇了,在这过程中非常感谢有听到观点不同的声音,借着这个契机,今天这篇就把大家提出的建议一个个的过一遍,重新整理,重新出发 ...
- 如何一步一步用DDD设计一个电商网站(四)—— 把商品卖给用户
阅读目录 前言 怎么卖 领域服务的使用 回到现实 结语 一.前言 上篇中我们讲述了“把商品卖给用户”中的商品和用户的初步设计.现在把剩余的“卖”这个动作给做了.这里提醒一下,正常情况下,我们的每一步业 ...
- 如何一步一步用DDD设计一个电商网站(三)—— 初涉核心域
一.前言 结合我们本次系列的第一篇博文中提到的上下文映射图(传送门:如何一步一步用DDD设计一个电商网站(一)—— 先理解核心概念),得知我们这个电商网站的核心域就是销售子域.因为电子商务是以信息网络 ...
随机推荐
- hadoop集群默认配置和常用配置
http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html 获取默认配置 配置hadoop,主要是配置core-site.xml, ...
- Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十七)Elasticsearch-6.2.2集群安装,组件安装
1.集群安装es ES内部索引原理: <时间序列数据库的秘密(1)—— 介绍> <时间序列数据库的秘密 (2)——索引> <时间序列数据库的秘密(3)——加载和分布式计算 ...
- 前端开发必备 40款优秀CSS代码编写工具推荐
摘要:CSS工具可以简化工作流,可以提高CSS编写速度,是开发者和设计者所不可缺少的.本文列举了40种CSS工具,功能涉及CSS菜单.动画.3D图形.响应式页面.图层.按钮等界面元素的设计与制作,你定 ...
- PHP ECSHOP中 诡异的问题:expects parameter 1 to be double
使用Ecshop给客户做了一个商城系统,在测试时发现后台在更改订单的配送方式时出现了以下问题 "PHP Warning: number_format() expects parameter ...
- MFC中调用web api
使用COM组件来调用,需要catch com error. IXMLHTTPRequestPtr pIXMLHTTPRequest = NULL; BSTR bstrString = NULL; HR ...
- 解决webstom failed to change read-only files
我百思不得其解的是,为何我的文件不让我更改,变成了只读模式,后来我仔细回忆了一下,原来是因为我使用了root权限,来安装thinkjs之后,webstom没有root权限,所以我使用root,在终端敲 ...
- java 上传图片压缩
public static void uploadFile(MultipartFile multfile, String filePath) throws Exception { File targe ...
- memory拷贝与string拷贝的区别
1.memory拷贝,根据拷贝的字节个数,从src一个一个字节拷贝到dst,拷贝过程不管src的取值,也不管dst是否能容纳.2.因此,对于memory拷贝,src中NULL字符(取值为0的字符)后面 ...
- ZH奶酪:PHP 执行时间Fatal error: Maximum execution time of...
来源:http://stackoverflow.com/questions/5164930/fatal-error-maximum-execution-time-of-30-seconds-excee ...
- 更新image的方法
1. 修改container 1.1 执行 docker images 查看目前的所有images: REPOSITORY TAG IMAGE ID ...