1.首先urllib不能用了,需要引入的是urllib2,正则re. #coding=utf-8 # import urllib import urllib2 import re def getHtml(url): page = urllib2.urlopen(url) html = page.read() return html def getCountry(html): reg = r'<td>(.*?)</td>' #imgre = re.compile(reg)#编译会出错…
介绍   本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容.   为了知道POST方法所需要传递的HTTP请求头部和请求体,我们可以使用Fiddler来进行抓包,抓取上网过程中HTTP请求中的POST方法.为了验证Fiddler抓取到的POST请求,可以使用Postman进行测试验证.在Postman中完成测试后,我们就可以用Python的request.POST()方法来写我们的爬虫了.…
首部python爬虫的电子书2015.6pdf<web scraping with python> http://pan.baidu.com/s/1jGL625g 可直接下载 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvamVhcGVkdWNvbQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">…
环境:py3.4.4 32位 需要插件:selenium BeautifulSoup xlwt # coding = utf-8 from selenium import webdriverfrom bs4 import BeautifulSoupimport timeimport re #re模块提供正则表达式支持import xlwt url = 'http://v.qq.com/vplus/huilanyujia/videos'tudou = webdriver.Firefox()tudo…
本篇主要介绍使用selenium模拟点击下一页,更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import unittest from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import time class douyuSelenium(unittest.TestCase): #初始化方法 d…
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html页面代码分析得到猫眼电影的名称.主演.上映时间.评分.图片信息等: 保存至文件:通过文件的形式将结果保存,每一部电影一个结果一行json字符串: 开启循环及多线程:对页面内容进行遍历,开启多线程提高抓取效率 Step2:实际步骤+分析 1. 在pycharm中新建一个Python项目,新建一个文件s…
使用小括号的时候,还有很多特定用途的语法.下面列出了最常用的一些: 表4.常用分组语法 分类 代码/语法 说明 捕获 (exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>exp) { python:  (?P<name>exp) } 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) (?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号 零宽断言 (?=exp) 匹配exp前面的位置 (?<=exp) 匹配exp后面…
1. 正则表达式 正则表达式是可以匹配文本片段的模式. 1.1 通配符 正则表达式能够匹配对于一个的字符串,可以使用特殊字符创建这类模式.(图片来自cnblogs) 1.2 特殊字符的转义 由于在正则表达式中,有时需要将特殊字符作为普通字符处理,就需要用‘\’进行转义,例如‘python\\.org’就会匹配‘python.org’,那么为什么要用两个反斜杠呢,原因在于需要进行两层转义,首先是re模块表示正则表达式中需要转义一次,其次是python解释器即python的语法还要求再转义一次.也是…
转载:https://www.cnblogs.com/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请自行解决,最好是全局代理. 实现代码: # -*-coding:utf-8-*- # author : Corleone from bs4 import BeautifulSoup import lxml import Queue import requests import re,os,sys,r…
# coding:utf- from common.contest import * def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/Chrome/Application/chromedriver.exe' chome_options =…