python多线程爬取斗图啦网的表情数据 使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ''' 斗图啦多线程方式 ''' import requests,time,re,os from pyquery import PyQuery as jq from requests.exceptions import RequestException from urllib import reque…
6.21自我总结 一.爬取斗图网 1.摘要 使用xpath匹配规则查找对应信息文件 将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 url = 'http://www.doutula.com/' #伪装成成浏览器请求 #找到request200,200代表请求成功的里面的内容,按F12里面找 ''' Referer: http://www.doutula.com/ Referer为防跨域请求,我看了下图片都是这个所有也可以不加…
1.分析斗图网 斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页 可见,每一页的地址栏只有后面的page不同,代表页数:这样请求的地址就可以写了. 2.寻找表情包 然后就要找需要爬取的表情包链接了.我用的是chrome浏览器,F12进入开发者模式. 找到图片对应的img元素,发现每个Img元素的class都是相同的.data-original属性对应的地址,就是我们要下载的图片.alt属性就是图片的…
话不多说,上结果(只爬了10页内容) 上代码:(可直接运行)   用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests import urllib.request import urllib3 import os import re import time from lxml import etree def parse_page(url): headers =…
今日内容概要 如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl import workbook from bs4 import Beautifulsoup wb = workbook() sheet = wb.active count = 1 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5…
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688.htmlpy3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnblogs.com/UncleYong/p/6960044.htmlpy3+urllib+re,轻轻松松爬取双色球最近100期中奖号码:http://www.cnblogs.com/UncleYong/…
#!/bin/bash read -p "请输入要爬取的页面数(默认为10):" page_num page_num=${page_num:-} echo $page_num read -p "请输入要保存的目录名称(默认为img):" save_path_name save_path_name=${save_page_name:-"/opt/img"} [ ! -d $save_path_name ]&&mkdir $save_…
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保存的带扩展名的文件名x.jpg)方法下载图片 3.知识点 文件目录处理  函数封装调用 全局变量 4.代码 # -*- coding:utf8 -*- import os import re impo…
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保存的带扩展名的文件名x.jpg)方法下载图片 3.知识点 文件目录处理  函数封装调用 全局变量 4.代码 #coding:utf-8 import os import re import reque…
scrapy-爬取斗图代码   <一> 开局三连杀    1.创建run的文件  …