python网络爬虫-中国大学排名定向爬虫

爬虫定向爬取中国大学排名信息

#!/usr/bin/python3

import requests

from bs4 import BeautifulSoup

import bs4 

#从网络上获取大学排名网页内容

def get_HTML_text(url):

    try:

        r=requests.get(url,    timeout=)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return '该网页请求连接失败'

#提取指定网页内容信息到合适的数据结构(二维列表存储信息)

def fill_university_list(list_info,html):

    count=

    soup=BeautifulSoup(html,'html.parser')

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag): #过滤body标签的子标签的字符串类型（非Tag类型）

            count+=

            tds=tr('td')

            list_info.append([tds[].string,tds[].string,tds[].string,tds[].string,tds[].string])

    return count

#利用数据结构展示并输出结果

def print_university_list(list_info,num):

    tplt='{0:^5}{1:{5}^20}{2:^17}{3:^5}{4:^18}'

    print(tplt.format('学校排名','学校名称','评分','所属类型','所在地域',chr()))

    for i in range(num):

        u=list_info[i]

        print(tplt.format(u[],u[],u[],u[],u[],chr()))

if __name__=="__main__":

    list_info=[]

    url='http://www.gaokaopai.com/paihang-otype-2.html?f=1&ly=bd&city=&cate=&batch_type='

    html=get_HTML_text(url)

    num=fill_university_list(list_info,html)

    print_university_list(list_info,num)

python网络爬虫-中国大学排名定向爬虫的更多相关文章

Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
python （2）xpath与定向爬虫
内容来自:极客学院,教学视频: 写在前面: 提取Item 选择器介绍我们有很多方法从网站中提取数据.Scrapy 使用一种叫做 XPath selectors的机制,它基于 XPath表达式. 这是 ...
Python 爬虫-获得大学排名
2017-07-29 23:20:24 主要技术路线:requests+bs4+格式化输出 import requests from bs4 import BeautifulSoup url = 'h ...

随机推荐

SpringCloud学习系列之二 ----- 服务消费者(Feign)和负载均衡(Ribbon)使用详解
前言本篇主要介绍的是SpringCloud中的服务消费者(Feign)和负载均衡(Ribbon)功能的实现以及使用Feign结合Ribbon实现负载均衡. SpringCloud Feign Fei ...
java_stream流
Stream流的个人理解整体来看,流式思想类似于工厂车间的“生产流水线”,通过一些列操作来获取我们需要的产品在Java 8中,得益于Lambda所带来的函数式编程,引入了一个全新的Stream概念 ...
js 原型，原型链，原型链继承浅析
对于网上的关于原型,原型链和原型链继承的晦涩语言说明就不累赘了,复制粘贴过来再解释一遍怕自己也整蒙了,本人最怕空气突然安静,四目对视,大眼对小眼,一脸懵逼. 我们先看下面
Visual Studio Code快速删除空行及几个常用快捷键总结
在使用notepad++工具的时候,很多情况下我们会遇到批量替换空行的操作,之前的操作方法是快捷键Crtl+h调出窗口选择替换栏,在查找目标栏中输入\r\n\r\n,替换为栏中输入\r\n并选择全部 ...
3星|《绩效使能：超越OKR》：较全较新资料汇编，华为实施经验少
全书是关于绩效管理与OKR的比较新比较全的资料汇编.从泰勒的科学管理说起,一直到现代的KPI.最近的OKR.梳理了工业革命以来重要的绩效管理思想的具体方法.适应情况,详细讲OKR的来龙去脉.适应情况. ...
视频直播 object 标签属性详解
最近在做视频直播这一块的,html5的video不能实现此功能,在网上查找了资料,觉得很有用. 一.介绍: 我们要在网页中正常显示flash内容,那么页面中必须要有指定flash路径的标签.也就是OB ...
福利：1H1G2M云服务器限时15元/月,买2送1，一年加6个月只要180元
平时看文章做测试只能用虚拟机的有福了,现在腾迅做活动,1H1G2M的服务器一个月只需要15元,买2送1,最多可以送6个月. 这个比之前1H1G1M10元一月的要好一些购买地址
web服务器之nginx和apache的区别
① apache属于重量级的服务器,nginx属于轻量级的服务器; 区别在于对一些功能的支持,比如: pathinfo,php模块方面 ② nginx抗高并发能力强. 由于nginx采用的是异步非阻 ...
解决flutter的image_cropper组件引入报错问题
在使用flutter的图片裁剪组件image_cropper,github:https://github.com/hnvn/flutter_image_cropper 根据它的要求,安卓需要在文件[A ...
配置Java文件
下载jdk https://www.oracle.com ----------------------------------------------------------------------- ...

python网络爬虫-中国大学排名定向爬虫

python网络爬虫-中国大学排名定向爬虫的更多相关文章

随机推荐

热门专题