python_大学排名爬取

逻辑思路是什么？

　　1. 获取页面

　　2. 处理页面，提取信息

　　3. 格式输出

先走面向过程编程：

　　1. 要定义3个函数，对应以上三个过程

　　2. 在__main__函数中传入参数，并执行以上三个过程

#!/usr/bin/python3

import bs4

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    '''获取页面'''

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

def fillUnivList(ulist, html):

    '''处理页面'''

    soup = BeautifulSoup(html, "html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr, bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

    '''格式输出页面'''

    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名", "学校名称", "总分", chr(12288)))

    for i in range(num):

        u = ulist[i]

        print(tplt.format(u[0], u[1], u[2], chr(12288)))

if __name__ == '__main__':

    uinfo = []

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    html = getHTMLText(url)

    fillUnivList(uinfo, html)

    printUnivList(uinfo, 20)                #  输出20个大学排名

如何走向面向对象？

　　1. 输入： url ？+ 想要获得几条信息？

　　2. 输出：格式化信息

　　3. 对于获取页面和处理页面为私有方法，不应该暴露

#!/usr/bin/python3

import requests

import bs4

from bs4 import BeautifulSoup

class SchoolMessage(object):

    '''爬取大学排名'''

    def __init__(self, url, number):

        self.url = url

        self.number = number

    def __get_html(self):

        '''获得页面'''

        try:

            r = requests.get(self.url,timeout=30)

            r.raise_for_status()

            r.encoding = r.apparent_encoding

            return r.text

        except:

            return '1'

    def __get_message(self):

        '''获得信息'''

        info = []

        html = self.__get_html()

        if html is not '1':

            soup = BeautifulSoup(html, 'html.parser')

            for i in soup.find('tbody').children:

                if isinstance(i, bs4.element.Tag):

                    tds = i('td')

                    info.append([tds[0].string, tds[1].string, tds[2].string])

            return info

        else:

            return '1'

    def get_message(self):

        '''格式化输出信息'''

        info = self.__get_message()

        if info is not '1':

            temp = "{0:^10}\t{1:{3}^10}\t{2:^10}"

            print(temp.format("排名", "学校名称", "总分", chr(12288)))

            for i in range(self.number):

                u = info[i]

                print(temp.format(u[0], u[1], u[2], chr(12288)))

        else:

            print('爬取失败')

if __name__ == '__main__':

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    school_1 = SchoolMessage(url, 10)

    school_1.get_message()

所需要的环境：

　　python 3.5

　　requests 库

　　beautifulsoup 库

python_大学排名爬取的更多相关文章

python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
Python爬虫练习：爬取800多所大学学校排名、星级等
前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,"双一流"大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的 ...
使用正则表达式和urllib模块爬取最好大学排名信息
题目使用urllib模块编程实现爬取网站的大学排名. (网址:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html) (1)获取网站页面,分析代 ...
python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)
import requests import re url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html' for n in range ...
python爬虫-上期所持仓排名数据爬取
摘要:笔记记录爬取上期所持仓数据的过程,本次爬取使用的工具是python,使用的IDE是pycharm 一.查看网页属性,分析数据结构在浏览器中打开上期所网页,按F12或者选择表格文字-右键-审查元 ...
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
用Python实现一个爬取XX大学电费通知的小脚本
内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...

随机推荐

Sqlserver如何递归查询层级数据将父级字段和本级某个字段合并？如何自定义用户函数并调用？
开门见山,首先说下遇到的问题:前期系统地区字典表中,每个省市县只存了本级名称,没存完整的字段.如:肥西县隶属安徽省合肥市,表中就存了一个肥西县.现有需求需要将完整字段显示,由于系统已在线上运营,无法做 ...
C#Winform 自定义透明按钮和单窗体模块化实现
技术看点 WinForm自定义控件的使用 WinForm单窗体应用如何模块化需求及效果又来一波 C# GDI自定义控件show .这个控件已经使用几年了,最近找出来重构一下.原来是没有边框的,那么 ...
NUnit实战，第一个测试类,测试事件触发是否是并行的
以前测试都是新建一个控制台测试的方式来进行,感觉版本管理啥的非常麻烦.也是非常原始的办法.后来想以前有写过测试单元,不过好久没弄了.Nuget了NUnit后写了正式的第一个测试类. 测试用例: 测试事 ...
TensorFlow实现knn（k近邻）算法
首先先介绍一下knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类. 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于 ...
警惕phpstudy等开发神器使用默认配置可能带来的危险
0x00 前言其实这个点早在之前,我就已经想到了,当时也觉得没啥就记在了我的印象笔记里. 而今天重新把这个点拿出来讲,主要是因为今天早上在温习nmap的时候,一不小心利用这个点,拿下了一位同事的电脑 ...
常见的DBCP连接池配置
项目中使用mybatis出现一个问题,项目刚启动时,查询项目列表是ok的,过上一段时间之后,再次查询项目列表,查询失败,初步判断是因为mysql的连接问题,最后查阅资料,发现是连接池中的连接失效,导致 ...
web服务器，应用程序服务器，http服务器的区别
WEB服务器.应用程序服务器.HTTP服务器有何区别?IIS.Apache.Tomcat.Weblogic.WebSphere都各属于哪种服务器? 这个概念很重要. Web服务器的基本功能就是提供We ...
Python面试题解答
1. 一个谜题 >>> t = (1, 2, [30, 40]) >>> t[2] += [50, 60] 到底会发生下面 4 种情况中的哪一种? a. t变成(1 ...
JAVA实用案例之文件导出（JasperReport踩坑实录）
写在最前面想想来新公司也快五个月了,恍惚一瞬间. 翻了翻博客,因为太忙,也有将近五个多月没认真总结过了. 正好趁着今天老婆出门团建的机会,记录下最近这段时间遇到的大坑-JasperReport. 六 ...
一步一步创建ASP.NET MVC5程序[Repository+Autofac+Automapper+SqlSugar](三)
前言上一篇<一步一步创建ASP.NET MVC5程序[Repository+Autofac+Automapper+SqlSugar](二)>我们通过如下操作: 创建实体及工具类创建Re ...

python_大学排名爬取

python_大学排名爬取的更多相关文章

随机推荐

热门专题