用python爬虫，对12306网站进行模拟登陆

python爬虫之12306网站--火车票信息查询

python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 2.json文件存储当前从出发站到目的站的所有车次的详细信息 3.对json文件进行分析 4.分类查询车票(高铁.火车) 1.json文件:在12306页面选择"车票">"单程",打开"开发人员工具",然后输入出发地.目的地对json文件进…

python爬虫之12306网站--车站信息查询

python爬虫查询车站信息目录: 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 python爬虫查询全拼相同的车站目录: 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 1.找到车站信息的url 2.分析车站信息,发现每个车站信息以"@"分隔车站信息查询 #车站信息查询 import requests #1.获得url(存取车站信息的url)并读取,根据获得信息的特点去掉无用的信息并转换存储到列表中 url="https://kyfw…

【python爬虫】用requests库模拟登陆人人网

说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import requests #这例有个坑,这个登录地址不是直接看到的登录地址,这是人人网的反爬机制 url = "http://www.renren.com/PLogin.do" # url = "http://www.renren.com/SysHome.do" # 在此输入账号…

用python爬虫，对12306网站进行模拟登陆

from selenium import webdriver from time import sleep from PIL import Image from selenium.webdriver import ActionChains from Cjy import Chaojiying_Client bro = webdriver.Chrome(executable_path='chromedriver.exe') bro.get('https://kyfw.12306.cn/otn/lo…

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml import etree import cPickle import os # reload(sys) # sys.setdefaultencoding('utf-8') class Zhihu: def __init__(self,homeurl): self.homeurl = homeurl…

python爬虫之小说网站--下载小说(正则表达式)

python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html) 2.分析自己要得到的内容,首先分析url,发现只有后面的是变化的,先获得小说的没有相对路径,然后组合成新的url(每章小说的url) 3.获得每章小说的内容,进行美化处理代码如下: #小说爬虫 import requests import re url='https://www.k…

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi.com/xixian1/15/) 2.打开"网页源代码",分析自己想要获取数据的特点 3.运用正则表达式来对数据进行处理,获得自己想要的数据 #网站可能反爬虫,需要绕过,这里用浏览器的代理(python默认的用户代理是自己,需要改成浏览器的用户代理,这样就能绕过一些网站简单的反爬虫)…

【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）

转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html 摘要本文主要介绍了抓取网站,模拟登陆,抓取动态网页相关的逻辑,原理和如何实现.主要包括: 抓取网页,模拟登陆等背后的通用的逻辑和原理以提取songtaste网页中标题为例,详解如何抓取网站并提取网页内容以模拟登陆百度为例,详解如何模拟登陆网站以抓取网易博客帖子中的最近读者…

python+splinter实现12306网站刷票并自动购票流程

python+splinter实现12306网站刷票并自动购票流程通过python+splinter,实现在12306网站刷票并自动购票流程(无法自动识别验证码). 此类程序只是提高了12306网站的 <查询> 刷新频率(默认自动查询的刷新频率为5秒).对于学习splinter感觉还是不错的,但是想通过装个类似刷票程序成功购票的还是多花点钱升级升级硬件设备,提高提高网速吧. 程序写的有点乱,随时修改ing. #!/usr/bin/env python3# encoding: utf-8 …

[转载]python实现带验证码网站的自动登陆

原文地址:python实现带验证码网站的自动登陆作者:TERRY-V 早听说用python做网络爬虫非常方便,正好这几天单位也有这样的需求,需要登陆XX网站下载部分文档,于是自己亲身试验了一番,效果还不错. 本例所登录的某网站需要提供用户名,密码和验证码,在此使用了python的urllib2直接登录网站并处理网站的Cookie. Cookie的工作原理: Cookie由服务端生成,然后发送给浏览器,浏览器会将Cookie保存在某个目录下的文本文件中.在下次请求同一网站时,会发送…

Python爬虫笔记【一】模拟用户访问之设置请求头（1）

学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人一样访问网页.废话不多说开始伪装. 1.修改请求头这里要用到python的requests的模块,首相介绍一下http请求头,它就是你每次在访问网页时,向服务器传输的一组属性和配置信息.下面有七个字段被大多数浏览器用来初始化网络请求. 属性内容 Host https://www.google.com/ C…

Python爬虫某招聘网站的岗位信息

前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 故事又要从一个盆友说起昨晚有个盆友问我爬虫学的怎么样了? 正当我不明所以之际,盆友的微信语音通话接了进来友:“看你在学python,爬虫写的怎么样了呀,我想抓一下某招聘网站的数据,能帮我整一个吗,不行的话我也去看看” 我:“哦哦,你不是技术…

Python爬虫初学（三）—— 模拟登录知乎

模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过浏览器的开发者工具查看,我们通过不同方式登录时,网址是不一样的.邮箱登录的地址email_url = 'https://www.zhihu.com/login/email',手机登录网址是phone_url = 'http://www.zhihu.com/login/phone_num'. 1. 建…

python开发基础作业01：模拟登陆系统

随老男孩学习python mark 作业要求及提示:编写登录接口 ''' 练习程序:编写登录接口 1. 输入用户名和密码 2. 认证成功后显示欢迎信息 3. 输错三次后锁定输入三次后退出,下次同样用户名再登陆就显示用户已经被锁定,用户锁定信息可以保存在硬盘文件里面,跟硬盘文件进行交互不能用shell命令,只能用Python的自带的文件调用的接口(可以对文件增删改查),先学文件处理怎么弄 4.用户名和密码从文件里面读取,还有一个检查账户锁定的文件 ''' 作业知识点: 模拟登陆系统主要练习文件…

Python爬虫笔记【一】模拟用户访问之表单处理（3）

学习的课本为<python网络数据采集>,大部分代码来此此书. 大多数网页表单都是由一些HTML 字段.一个提交按钮.一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成.虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容.这些都为抓取数据的阻碍所以放在了前面.废话不多说开搞. 1.HTTP基本接入认证在发明cookie 之前,处理网站登录最常用的方法就是用HTTP 基本接入认证(HTTP basicaccess authenticati…

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）

学习的课本为<python网络数据采集>,大部分代码来此此书. 做完请求头的处理,cookie的值也是区分用户和机器的一个方式.所以也要处理一下cookie,需要用requests模块,废话不多说开搞. 1.一般情况下python修改cookie 首先获得cookie import requests params = {'username': 'Ryan', 'password': 'password'} #设一个字典,输入用户名和密码,这个跟host请求差不多 r = requests.po…

利用Python爬虫刷新某网站访问量

前言:前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章,当时还觉得蛮有意思的,就保存了一下,但是当我昨天准备复现的时候居然发现文章404了.所以本篇文章仅供学习交流,严禁用于商业用途很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!QQ群:101677771 当我在写文章的同时,代码依…

python爬虫【实战篇】模拟登录人人网

requests 提供了一个叫做session类,来实现客户端和服务端的会话保持使用方法 1.实例化一个session对象 2.让session发送get或者post请求 session = requests.session() session.get(url,headers) 下面就用人人网来实战一下 # coding=utf-8 import requests session = requests.session() # 登录的表单url post_url = "http://www.re…

Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次（7）

在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题.发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题,经过测试发现用同一个cookie打开上次的验证码网页是相同的.登入就是向后台服务器提交一个表单,那么我们就可以将cookie绑定(使验证码的post请求与验证码的请求时间戳相同,来解决验证码同步)然后以提交表单的方式来登入,所以下面来介绍这个方法(当然这个方法也没有解决).原因有点崩溃.先上代码,问…

Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）

验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板. 一,对图片进行处理利用上一篇代码对图片进行降噪处理,得到较为清晰地图片. 这里需要你在需要登入的网站中提取大量的验证码图片,在获取图片时,查看网站的登入框是否在iframe标签中,已经图片是否有需要点击输入框才会出现,若是如此,可以用selenium中driver来跳转iframe标签,用点击事件来显示验证码,然后再获取src属性进行下载. 二,生成t…

Python爬虫: "追新番"网站资源链接爬取

“追新番”网站追新番网站提供最新的日剧和日影下载地址,更新比较快. 个人比较喜欢看日剧,因此想着通过爬取该网站,做一个资源地图可以查看网站到底有哪些日剧,并且随时可以下载. 资源地图爬取的资源地图如下: 在linux系统上通过 ls | grep keywords 可以轻松找到想要的资源(windows直接搜索就行啦) 爬取脚本开发 1. 确定爬取策略进入多个日剧,可以查看到每个剧的网址都是如下形式: 可以看出,每个日剧网页都对应一个编号. 因此我们可以通过遍历编号来爬取. 2. 获取日…

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml 1.3安装wheel: cmd >> pip install wheel 1.4 安装xlwt: cmd >> pip install xlwt 1.5 安装pymongo: cmd >> pip install pymongo 完整代码 import requests…

Python爬虫笔记【一】模拟用户访问之webdriver用户登入——第三次（8）

经过post方法之后,因为有动态的value值所以再此回到用webdriver的解决上,但是在下载图片上会打开新打开一个链接,导致与网页图片不同即验证码同步问题,没办法只能想了一个笨法子,网页截图,唉!因为只是验证码问题所以只上获取验证码的代码了,其他的在第六节都有把下载的代码换一下就行. from PIL import Image from selenium import webdriver import time from selenium.webdriver.common.keys imp…

Python爬虫笔记【一】模拟用户访问之验证码清理（4）

清理图片,对图片进行二值化,去边框,去干扰线,去点 from PIL import Image from pytesseract import * from fnmatch import fnmatch from queue import Queue import matplotlib.pyplot as plt import cv2 import time import os def clear_border(img,img_name): '''去除边框 ''' h, w = img.shap…

python爬虫1——获取网站源代码(豆瓣图书top250信息)

# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf-8') class Spider(object): def __init__(self): print('开始爬取豆瓣图书top250的内容......') # 传入url,返回网页源代码 def getSourceCode(self, url): html = requests.get(url)…

python爬虫爬小说网站涉及到(js加密,CSS加密)

我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一般就是找到他加密的js 使用execjs模块来执行js代码即可怎么找可以参考我之前对于知乎的爬取链接点我 2.对于css加密常见的css加密就是加css样式中的before或者after来插入内容所有呢我们一般使用 from request-html import html 然后利用字符串的…

Python 爬虫五进阶案例-web微信登陆与消息发送

首先回顾下网页微信登陆的一般流程 1.打开浏览器输入网址 2.使用手机微信扫码登陆 3.进入用户界面 1.打开浏览器输入网址首先打开浏览器输入web微信网址,并进行监控: https://wx.qq.com/ 可以发现网页中包含了一个新的url,而这个url就是二维码的来源. https://login.weixin.qq.com/qrcode/wbfd1Z-a0g== 可以猜测一下获取url的一般网址就是https://login.weixin.qq.com/qrcode,而wbfd1Z-a…

利用WebClient实现对Http协议的Post和Get对网站进行模拟登陆和浏览

我们在一些场合经常需要模拟浏览器进行一些操作,比如模拟投票,或者模拟点击,或者Web游戏外挂.而C#中封装好的WebClient可以在某些要求不算搞的场景实现Http的Post和Get.具体请见代码: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Net; namespace TestCNM { public class WebClientExt…

（转）用python实现抓取网页、模拟登陆

涉及一系列内容,部分已在前面转载,仍转自crifan: http://www.crifan.com/how_to_use_some_language_python_csharp_to_implement_crawl_website_extract_dynamic_webpage_content_emulate_login_website/comment-page-1/ . . . . .…

爬虫（cookie）——renren模拟登陆

工具:python3 步骤: 1)使用cookiejar.CookieJar()构建一个CookieJar()构建一个对象,用来保存cookie的值 2)使用HTTPCookieProcessor()构建一个处理器对象,用来处理cookie 3)使用build_opener构建自定义opener 4))使用opener的addheaders参数添加请求头参数 5)构造url和data 6)使用Request()构造请求 7)使用opener.open()发送请求 8)读取响应信息 import…

【用python爬虫，对12306网站进行模拟登陆】的更多相关文章