开发环境python2.7.9 os:win-xp exe打包工具pyinstaller 界面tkinter ============================================= 最近有个朋友让我写个小功能,采集当当网数据,生成淘宝数据包 需要采集出版社,作者,主图,价格 采集方式是搜索书名或者ISBN编号 废话不多说,老司机开始上路了 首先,分析当当网数据,这里祭出大杀器,firefox下fire-bug,查看网络数据不再话下 查看源码 <ul id="compon…
Python爬虫之定时抢购淘宝商品 import time from selenium import webdriver import datetime class Spider: def __init__(self, url): self.__base_url = url self.__headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck…
ECshop在导入淘宝数据包的时候出现数据乱码. 测试版本 ecshop2.73 利用淘宝助手导出一个数据包(.csv),不要一次全部商品导出,最好是将数据包控制在1M左右,因为ecshop对上传文件有限制. 1.用编辑器打开文件goods_batch.php,文件在admin文件夹下,找到 $data=file($_FILES['file']['tmp_name']); 并将此行注释掉.在下边加上 $data0=mb_convert_encoding(file_get_contents($_F…
一.前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录.一共是三篇博客,记录了我爬取淘宝网的经历.期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多,直接加载用户配置又很笨重,效率低下.所以这次尝试构造post请求表单,模拟登录. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案…
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下 代码如下 from selenium import webdriver from lxml import etree from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import datetime import calendar import logging from…
最近,小明为了达成小姐姐的愿望,在某宝买到心仪的宝贝,再加上又迷上了python,就通过python轻而易举地实现了(个人声明:对Java来说,这并不是背叛). 需求分析&前期准备 需求其实很简单,正常购物.那我们平常的购物流程如下所示: 开始之前,我们需要准备一下程序运行环境. 环境 系统:Windows/Mac OS Python版本:3.7.2 为了让程序模拟我们每一步操作,给大家介绍一个利器:Selenium Selenium测试同学应该会感觉特别亲切.它是一个自动化测试工具,通过它我们…
之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到.不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用. 总体而言,这是一次失败的尝试,不过倒是了解到使用sessi…
import requests import sys import random api = { 'number':[ 'https://acs.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/?data=%7B"itemNumId"%3A"%s"%7D&qq-pf-to=pcqq.group&name="zhgangsan"', 'https://acs.m.taobao.com…
1.chormedriver.exe驱动下载地址 https://npm.taobao.org/mirrors/chromedriver 2.跳转网页页面不稳定问题 添加智能等待时间 driver.implicitly_wait(10)…