1kkk】的更多相关文章

代码: # !usr/bin/python3.4 # -*- coding:utf-8 -*- import requests import os import time import re from lxml import etree import random def geturl(url,postdata): header = {'User-Agent': 'Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebK…
bs4确实没这个好用,bs4的树太复杂 lxml很好 定位非常好 详细解说在注释里面有了 #!/usr/bin/python3.4 # -*- coding: utf-8 -*- from lxml import etree import urllib.request # 目标网址的html可以看一下 url = "http://www.1kkk.com/manhua589/" # 解析网址 data = urllib.request.urlopen(url).read() # 解码…
正则表达式规则见:http://www.cnblogs.com/wishyouhappy/p/3756812.html,下面说明相关方法 String相关方法 概括: search() replace() match() split() 1. search(RegExp)  返回第一个与之匹配的子串的起始位置,找不到子串时返回-1 如果search的参数不是正则表达式,则会通过RegExp将其转化为正则表达式 search不支持全局检索g,因而即使加了也会忽略g eg: console.log(…
在作者学习的众多编程技能中,爬虫技能无疑是最让作者着迷的.与自己闭关造轮子不同,爬虫的感觉是与别人博弈,一个在不停的构建 反爬虫 规则,一个在不停的破译规则. 如何入门爬虫?零基础如何学爬虫技术?那前提肯定会是需要学习一门 简单易入门 的编程语言了,就作者而言, python 无疑是最合适的!到2014年7月为止,在美国顶尖大学里最受欢迎的计算机编程入门语言中,Python 是最受欢迎的语言.总的来说,在计算机排名前 10 的学校里,有 80% (也就是8 所学校)的学校使用 Python 作为…
为什么直接保存当前网页,而不是找到所有漫话链接,再有针对性的保存图片? 因为防盗链的原因,当直接保存漫话链接图片时,只能保存到防盗链的图片. #!/usr/bin/env python # _*_ coding: utf-8 _*_ # __author__ ='kong' from selenium import webdriver import os import time class GetCartoon(object): def __init__(self): self.startUrl…