python爬取中国大学排名

教程来自：【Python网络爬虫与信息提取】.MOOC. 北京理工大学

目标：爬取最好大学网前50名大学

代码如下：

import requests

from bs4 import BeautifulSoup

import bs4

def getHTMLText(url):

    try:

        r = requests.get(url,timeout = 30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        print("产生异常")

        return ""

def fillUnivList(ulist,html):

    soup = BeautifulSoup(html,'html.parser')

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist,num):

    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名","学校名称","总分",chr(12288)))

    for i in range(num):

        u = ulist[i]

        print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():

    uinfo = []

    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'

    html = getHTMLText(url)

    fillUnivList(uinfo,html)

    printUnivList(uinfo,50) #20所大学

if __name__ == '__main__':

    main()

教程里用的代码里没有最后两行，在pycharm里出不来结果，加上以后显示正常。需要注意if __name__ == '__main__': f后面有空格，下划线也是连着的两条。

输出结果为：

排名    	　　　学校名称　　　	    总分

    1     	　　　清华大学　　　	   94.6

    2     	　　　北京大学　　　	   76.5

    3     	　　　浙江大学　　　	   72.9

    4     	　　上海交通大学　　	   72.1

    5     	　　　复旦大学　　　	   65.6

    6     	　中国科学技术大学　	   60.9

    7     	　　华中科技大学　　	   58.9

    7     	　　　南京大学　　　	   58.9

    9     	　　　中山大学　　　	   58.2

    10    	　哈尔滨工业大学　　	   56.7

    11    	　北京航空航天大学　	   56.3

    12    	　　　武汉大学　　　	   56.2

    13    	　　　同济大学　　　	   55.7

    14    	　　西安交通大学　　	   55.0

    15    	　　　四川大学　　　	   54.4

    16    	　　北京理工大学　　	   54.0

    17    	　　　东南大学　　　	   53.6

    18    	　　　南开大学　　　	   52.8

    19    	　　　天津大学　　　	   52.3

    20    	　　华南理工大学　　	   52.0

    21    	　　　中南大学　　　	   50.3

    22    	　　北京师范大学　　	   49.7

    23    	　　　山东大学　　　	   49.1

    23    	　　　厦门大学　　　	   49.1

    25    	　　　吉林大学　　　	   48.9

    26    	　　大连理工大学　　	   48.6

    27    	　　电子科技大学　　	   48.4

    28    	　　　湖南大学　　　	   48.1

    29    	　　　苏州大学　　　	   47.3

    30    	　　西北工业大学　　	   46.7

    31    	　　中国人民大学　　	   46.1

    32    	　　华东师范大学　　	   46.0

    33    	　南京航空航天大学　	   44.8

    34    	　对外经济贸易大学　	   44.7

    35    	　　南方科技大学　　	   44.6

    36    	　　华东理工大学　　	   44.5

    37    	　　　重庆大学　　　	   44.4

    38    	　　南京理工大学　　	   44.3

    39    	　　北京科技大学　　	   43.9

    40    	　　　东北大学　　　	   43.7

    41    	　　　上海大学　　　	   43.4

    42    	　　北京邮电大学　　	   42.9

    42    	　　上海财经大学　　	   42.9

    42    	　　中国农业大学　　	   42.9

    45    	　　武汉理工大学　　	   42.8

    46    	　　北京交通大学　　	   42.6

    46    	　　华中师范大学　　	   42.6

    48    	　西安电子科技大学　	   42.1

    49    	　　中央财经大学　　	   41.8

    50    	　　北京化工大学　　	   41.7

python爬取中国大学排名的更多相关文章

python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
使用正则表达式和urllib模块爬取最好大学排名信息
题目使用urllib模块编程实现爬取网站的大学排名. (网址:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html) (1)获取网站页面,分析代 ...
python爬取中国天气网站数据并对其进行数据可视化
网址:http://www.weather.com.cn/textFC/hb.shtml 解析:BeautifulSoup4 爬取所有城市的最低天气对爬取的数据进行可视化处理按温度对城市进行排 ...
Python爬取中国票房网所有电影片名和演员名字，爬取齐鲁网大陆所有电视剧名称
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...
python爬取中国知网部分论文信息
爬取指定主题的论文,并以相关度排序. #!/usr/bin/python3 # -*- coding: utf-8 -*- import requests import linecache impor ...
python爬取淘宝排名
import timeimport jsonimport requestsimport xlrdimport randomimport os from xlutils.copy import copy ...
Python爬取中国知网文献、参考文献、引证文献
前两天老师派了个活,让下载知网上根据高级搜索得到的来源文献的参考文献及引证文献数据,网上找了一些相关博客,感觉都不太合适,因此特此记录,希望对需要的人有帮助. 切入正题,先说这次需求,高级搜索,根据中 ...

随机推荐

CPU网卡亲和绑定
#!/bin/bash # # Copyright (c) , Intel Corporation # # Redistribution and use in source and binary fo ...
Android APP性能及专项测试（个人整理）
移动测试. Android测试 .APP测试 Android篇 1. 性能测试 Android性能测试分为两类:1.一类为rom版本(系统)的性能测试2.一类为应用app的性能测试 Android ...
记 MySQL优化 20条
1. 为查询缓存优化你的查询大多数的MySQL服务器都开启了查询缓存.这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的.当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一 ...
50-Python2和3字符编码的区别
目录 Python2和3字符编码的区别 python2 python3 Python2和3字符编码的区别区别点 python2 python3 print 是一个语法结构是一个函数,print(' ...
http面试问题集锦
1.http的请求报文和响应报文? http请求报文:请求行(请求方法+url).请求头,请求体 http响应报文:状态行(http版本+状态码).响应头.响应体 2.常用的http请求类型? 请 ...
java多线程之间的通信
目的如何让两个线程依次执行? 那如何让两个线程按照指定方式有序交叉运行呢? 四个线程 A B C D,其中 D 要等到 A B C 全执行完毕后才执行,而且 A B C 是同步运行的三个运动员各 ...
Flask css 无法实时更新
css代码改完了,但是查看网页源代码css的内容还是很久之前的,根本没有更新解决方法: 1.浏览器缓存.使用ctrl+F5刷新一下页面 2. 3. from datetime import time ...
（27）ASP.NET Core .NET标准REST库Refit
1.简介 Refit是一个受到Square的Retrofit库(Java)启发的自动类型安全REST库.通过HttpClient网络请求(POST,GET,PUT,DELETE等封装)把REST AP ...
前端解决跨域问题的终极武器——Nginx反向代理
提到代理,分为:正向代理和反向代理. 正向代理:就是你访问不了Google,但是国外有个VPN可以访问Google,你访问VPN后叫它访问Google,然后把数据传给你. 正向代理隐藏了真实的客户端. ...
new Date在IE下面兼容问题
昨天碰到一个bug,用art-template模板进行渲染时候,周视图任务展示失败,都是暂无任务,我以为是模板兼容问题,但最开始我用的时候记得就是IE8的兼容性问题,引入es5-shim.min.js ...

python爬取中国大学排名

python爬取中国大学排名的更多相关文章

随机推荐

热门专题