最近学了点关于python的网络爬虫的知识,简单记录一下,这里主要用到了requests库和BeautifulSoup库

Requests is an elegant and simple HTTP library for Python, built for human beings.

Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.

以上是两个库的介绍,链接是文档信息

1、示例页面

这里我利用东北大学的图书馆的登陆页面来实现我们的爬虫功能(ps:没错,博主是东北大学的学生..所以我有账号密码),没有账号密码也没有关系,原理都是差不多的,之所以找这个页面,是因为这个页面没有验证码,能够简单一些,而且像学校的这种页面一般比较简单,方便操作

2、简单分析

首先我用的账户和密码登陆进了东北大学图书馆,我使用的是chrome浏览器,打开开发者模式,我们来看看我们提交了哪些信息。

登陆进去后,按下F12打开开发者模式,在Network选项卡下面,我们找到这个文件,他的request方法是post,应该就是我们要找的文件了,拉到最下面看到Form Data,红色框出就是我们登陆时提交的信息了,一共五个部分,画红线的地方是账号和密码。搞清楚了post的信息后,我们就可以写代码来自动提交信息了。

登陆部分搞清楚了,接下就要分析要抓取的信息了,现在我要抓取我的

  • 外借
  • 借阅历史列表
  • 预约请求

要抓取这三个数据,如上图所示,我当前外借1本书,借阅过65本书,预约请求为0,现在的目的是将这些数据抓取出来,我们按下F12来查看网页的源代码,分析我们应该抓取哪一部分。

如上图所示,一步步找到了数据所在的标签,我发现数据都在id=history这个标签下,所以可以先找到这个标签,然后再找tr标签,然后就能找到td标签里的数据了。

3、实现的功能

  • 自动登陆
  • 抓取页面上的一些信息,并在控制台输出

    4、代码部分

    4.1、post数据的部分

    首先贴上这部分的代码

def getHTMLText(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}
        mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'}
        re = requests.post(url, data=mydata, headers=kv)
        re.raise_for_status()
        re.encoding = re.apparent_encoding
        return re.text
    except:
        print("异常")
        return""

代码如上,我们来分析一下

  • kv是为了模拟浏览器而定义的字典,因为有些网站如果识别出是爬虫的话,会拒绝访问,所以这里可以修改headers的信息来模拟浏览器登陆。
  • mydata里面存的就是要post的信息,其中账号和密码我用***代替了。
  • requests.post()就是向指定的url 提交数据,关于requests在网上都能搜的到,就不赘述了。
  • re.raise_for_status()这个的含义是如果访问失败的话,就会丢出异常。
  • re.encoding = re.apparent_encoding修改编码,保证中文能被正确的解析。
  • 这里采用try except的结构,为了程序的健壮性考虑,让程序在错误的时候不至于崩溃。
  • 最后返回我们新的页面的text。

    4.2、抓取数据部分

    首先贴上代码

def fillBookList(booklist, html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find(id='history').descendants:
        if isinstance(tr, bs4.element.Tag):
            temp = tr.find_all('td')
            if len(temp)>0:
                booklist.append(temp[1].string.strip())
                booklist.append(temp[3].string.strip())
                booklist.append(temp[5].string.strip())
                break
  • 参数分别是我们要填充的列表和目标页面
  • 创建一个BeautifulSoup的对象
  • 在整个页面中查找id=history的标签,然后遍历其所有子孙标签
  • 在遍历的过程中,标签的子标签可能是字符串类型,我们要过滤掉这些,所以用了isinstance(tr, bs4.element.Tag)

    isinstance 的用法:
    语法:
    isinstance(object, classinfo)
    其中,object 是变量,classinfo 是类型(tuple,dict,int,float,list,bool等) 和 class类若参数 object 是 classinfo 类的实例,或者 object 是 classinfo 类的子类的一个实例, 返回 True。 若 object 不是一个给定类型的的对象, 则返回结果总是False。若 classinfo 不是一种数据类型或者由数据类型构成的元组,将引发一个 TypeError 异常。

  • 在标签中寻找所有td标签,观察源代码发现,第一个td标签列表就是我们要的,所以一旦找到我们要的信息以后,就停止查找,并就信息存在booklist里面

    4.3、打印信息

    贴上代码

def printUnivList(booklist):
    print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预约请求"))
    print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2])

这部分很简单就不说了

4.4、主函数

贴上代码

def main():
    html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info")
    booklist = []
    fillBookList(booklist, html)
    printUnivList(booklist)

5、测试


成功的在控制台打印出了我们要的信息!

6、完整的代码

import requests
from bs4 import  BeautifulSoup
import  bs4
def getHTMLText(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}
        mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'}
        re = requests.post(url, data=mydata, headers=kv)
        re.raise_for_status()
        re.encoding = re.apparent_encoding
        return re.text
    except:
        print("异常")
        return""
def fillBookList(booklist, html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find(id='history').descendants:
        if isinstance(tr, bs4.element.Tag):
            temp = tr.find_all('td')
            if len(temp)>0:
                booklist.append(temp[1].string.strip())
                booklist.append(temp[3].string.strip())
                booklist.append(temp[5].string.strip())
                break
def printUnivList(booklist):
    print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预约请求"))
    print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2]))
def main():
    html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info")
    booklist = []
    fillBookList(booklist, html)
    printUnivList(booklist)
main()

python简单post信息的更多相关文章

  1. python 简单的信息管理系统

    #!/usr/bin/python #coding=utf-8 import io import os import time FileRead = io.open('callingcard','r' ...

  2. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  3. Python简单爬虫入门三

    我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二 前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...

  4. Python简单爬虫入门二

    接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们Bea ...

  5. GJM : Python简单爬虫入门(二) [转载]

    感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

  6. Selenium + PhantomJS + python 简单实现爬虫的功能

    Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...

  7. python 简单图像识别--验证码

    python  简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

  8. python简单的监控脚本-利用socket、psutil阻止远程主机运行特定程序

    python简单的监控脚本-利用socket.psutil阻止远程主机运行特定程序 psutil是一个跨平台的库(http://code.google.com/p/psutil/),能够轻松的实现获取 ...

  9. Python 简单入门指北(二)

    Python 简单入门指北(二) 2 函数 2.1 函数是一等公民 一等公民指的是 Python 的函数能够动态创建,能赋值给别的变量,能作为参传给函数,也能作为函数的返回值.总而言之,函数和普通变量 ...

随机推荐

  1. 随机获取一个集合(List, Set)中的元素,随机获取一个Map中的key或value

    利用Java提供的Random类.从List或Set中随机取出一个元素,从Map中随机获取一个key或value. 因为Set没有提供get(int index)方法,仅仅能先获取一个随机数后.利用一 ...

  2. PL SQL Developer client 连接server

    安装完Oracle,PLSQL之后,在server中打开监听. 计算机右键-管理-服务和应用程序-服务-打开以Oracle开头的服务,特别是监听,这个最重要.详细如图所看到的. (1)配置监听的位置 ...

  3. jstl 标签 循环 序号

     大家好: 今天搜了一天.最终找到它了,尽管不是我想要的,可是为了我辛苦的一天.我也要记录下: <c:forEach items="${signBusList}" var ...

  4. 在ubuntu中安装与配置zsh与oh-my-zsh

    先补充点东西 1.ubuntu中默认安装了那些shell jiang@Linux:~$ cat /etc/shells # /etc/shells: valid login shells/bin/sh ...

  5. 国外物联网平台初探(五) ——Exosite Murano

    定位 Murano是一个基于云的IoT软件平台,提供安全.可扩展的基础设施,支持端到端的生态系统,帮助客户安全.可扩展地开发.部署和管理应用.服务以及联网产品. 功能 Murano平台简化了整个IoT ...

  6. php中全局变量global和超全局变量$GLOBALS

    php中全局变量global和超全局变量$GLOBALS 1.global Global的作用是定义全局变量,但是这个全局变量不是应用于整个网站,而是应用于当前页面,包括include或require ...

  7. 院校-美国:麻省理工学院(MIT)

    ylbtech-院校-美国:麻省理工学院(MIT) 麻省理工学院(Massachusetts Institute of Technology),简称麻省理工(MIT),坐落于美国马萨诸塞州波士顿都市区 ...

  8. [HTML&CSS] 条件注释判断浏览器

    <!--[if !IE]><!--> 除IE外都可识别 <!--<![endif]--><!--[if IE]> 所有的IE可识别 <![e ...

  9. Java攻城狮之基础练习题------经典例题

    (一)键盘录入1----7,分别于控制台输出对应的周一,周二,周三,周四,周五,周六,周天. (二)设置一个数组,求出数组中对应的最大值以及索引. (三)在控制台输出9x9乘法口诀表. (四)使用冒泡 ...

  10. POJ 1200 Hash

    我的hash从来没写对过........ (白学了快一年OI --原来连个hash都没写对过) 但是 但是 今天是一个值得纪念的日子. 看看标题 我竟然在写hash的题解. (好了好了 废话少说) 题 ...