python之中国大学爬虫

 #!/usr/bin/env python3

 #-*- coding:utf-8 -*-

 ############################

 #File Name: zuihaodaxuepaiming.py

 #Author: frank

 #Mail: frank0903@aliyun.com

 #Created Time:2018-05-15 21:45:55

 ############################

 import requests

 from bs4 import BeautifulSoup

 #1. 获取html页面的内容

 def getHTMLText(url):

     try:

         r = requests.get(url)

         r.raise_for_status()

         #r.encoding = r.apparent_encoding

         r.encoding = 'utf-8'

         return r.text

     except:

         print("爬取异常")

         return ""

 #2. 从html页面内容中爬取大学排名信息, (排名，学校名称，总分)

 def getUnivInfo(uLst, html):

     soup = BeautifulSoup(html, "lxml")

     #获取排名中的大学的数量

     print(len(soup.tbody.find_all("tr", recursive=False)))

     #列出tbody的子节点

     #for tag in soup.tbody.find_all('tr', recursive=False):

     #    #print("name:{},type:{}".format(tag.name, type(tag)))

     #    print(tag.td.string)

     for tr in soup.tbody.find_all('tr', recursive=False,limit=1):

         tds = tr('td')

         #print(tr.prettify())

         #print(tds)

         #print(tds[0].string,tds[1].string, tds[3].string)

         uLst.append([tds[0].string,tds[1].string, tds[3].string])

 #3. 显示排名信息

 #def printUnivInfo(uLst, num):

 #    print("{0:^10}\t{1:{3}^10}\t{2:^10}".format("排名","学校名称","总分",chr(12288)))

 #    for uni in uLst[0:num]:

 #        print("{0:^10}\t{1:{3}^10}\t{2:^10}".format(uni[0],uni[1],uni[2],chr(12288)))

 def printUnivInfo(uLst, num):

     ptstr = "{0:^10}\t{1:{3}^10}\t{2:^10}"

     print(ptstr.format("排名","学校名称","总分",chr(12288)))

     for uni in uLst[0:num]:

         print(ptstr.format(uni[0],uni[1],uni[2],chr(12288))) #中文字符的空格填充 chr(12288)

 def main():

     url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"

     uLst = []

     html = getHTMLText(url)

     #print(html)

     print("getHTMLText")

     getUnivInfo(uLst, html)

     print("getUnivInfo")

     printUnivInfo(uLst, 10)

 main()

该实例主要是针对 requests 和 BeautifulSoup的应用。

python之中国大学爬虫的更多相关文章

Python之爬虫-中国大学排名
Python之爬虫-中国大学排名 #!/usr/bin/env python # coding: utf-8 import bs4 import requests from bs4 import Be ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
python网络爬虫-中国大学排名定向爬虫
爬虫定向爬取中国大学排名信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup import bs4 #从网络上获取大学 ...
Python 中国大学排名定向爬虫
代码来自于中国大学Mooc北京理工大学Pythont教学团队:https://www.icourse163.org/learn/BIT-1001870001#/learn/content?type=d ...
【python】下载中国大学MOOC的视频
[python]下载中国大学MOOC的视频脚本目标: 输入课程id和cookie下载整个课程的视频文件,方便复习时候看网站的反爬机制分析: 分析数据包的目的:找到获取m3u8文件的路径 1. 从第 ...
中国大学MOOC课程信息爬取与数据存储
版权声明:本文为博主原创文章,转载请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js ...
关于python的中国历年城市天气信息爬取
一.主题式网络爬虫设计方案(15分)1.主题式网络爬虫名称关于python的中国城市天气网爬取 2.主题式网络爬虫爬取的内容与数据特征分析爬取中国天气网各个城市每年各个月份的天气数据, 包括最高城 ...
中国大学MOOC课程信息之数据分析可视化一
版权声明:本文为博主原创文章,转载请注明出处:https://blog.csdn.net/sc2079/article/details/82263391 9月2日更:中国大学MOOC课程信息之数据分 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

随机推荐

python笔记12-python多线程之事件（Event)
前言小伙伴a,b,c围着吃火锅,当菜上齐了,请客的主人说:开吃!,于是小伙伴一起动筷子,这种场景如何实现 Event(事件) Event(事件):事件处理的机制:全局定义了一个内置标志Flag,如果 ...
轻量级web服务器lighttpd的编译及配置（for x86-linux）
转自:http://blog.163.com/ljf_gzhu/blog/static/131553440201211522317367/ 备注: PC Linux:Ubuntu-10.10 Linu ...
Unity3D 手游开发中所有特殊的文件夹
这里列举出手游开发中用到了所有特殊文件夹. 1.Editor Editor文件夹可以在根目录下,也可以在子目录里,只要名子叫Editor就可以.比如目录:/xxx/xxx/Editor 和 /Edi ...
Nao 类人机器人，Aldebaran Robotics公司
Nao 类人机器人,Aldebaran Robotics 公司,被SOFTBANK 收购,阿里巴巴.富士康参股. https://www.aldebaran.com/en 一家法国的公司. htt ...
JAVA常见算法题(二十九)
package com.forezp.util; import java.util.Scanner; /** * 判断输入的5个字符串的最大长度,并输出 * * * @author Administr ...
动态jdk启动项目
昨天遇到,服务器安装jdk1.7,但是springboot项目用jdk1.8编译的,所以需要指定jdk版本启动: nohup /root/jdk1.8.0_11/bin/java -jar /root ...
List of regional organizations by population
https://baike.baidu.com/item/国际组织/261053?fr=aladdin 经济文化类组织(非政府组织) 创行狮子会全球青年领导力联盟乐施会政治类组织欧洲联盟(欧 ...
scrapy中ROBOTSTXT_OBEY = True的相关说明
在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句: # Obey robots.txt rules ROBOTSTXT_OBEY = True 观察代码可以发现,默认为 ...
页面优化——js异步载入
同步载入在介绍js异步载入之前.我们先来看看什么是js同步载入.我们平时最常使用的就是这样的同步载入形式: <script src="http://XXX.com/script.js ...
appium-desktop使用
Appium移动测试中有个很重新的组件Appium-Server,它主要用来监听我们的移动设备(真机或模拟器),然后将不同编程语言编写的 appium 测试脚本进行解析,然后,驱动移动设备来运行测试. ...

python之中国大学爬虫

python之中国大学爬虫的更多相关文章

随机推荐

热门专题