python爬虫模板 - 最好大学网
import requests
from bs4 import BeautifulSoup
import bs4 def get_html_text(url):
try:
#kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "crawl error" def fill_info(ulist, html):
soup = BeautifulSoup(html, 'html.parser')
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr.find_all('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string]) def print_info(ulist, num):
for i in range(num):
u = ulist[i]
uu = ""
uu += u[0] + "\t\t\t\t"
uu += u[1] + "\t\t\t\t"
uu += u[2]
print(uu) if __name__ == "__main__":
uinfo = []
url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html"
html = get_html_text(url)
fill_info(uinfo, html)
print_info(uinfo, 104)
1 清华大学 北京
2 北京大学 北京
3 浙江大学 浙江
4 上海交通大学 上海
5 复旦大学 上海
6 中国科学技术大学 安徽
7 华中科技大学 湖北
7 南京大学 江苏
9 中山大学 广东
10 哈尔滨工业大学 黑龙江
11 北京航空航天大学 北京
12 武汉大学 湖北
13 同济大学 上海
14 西安交通大学 陕西
15 四川大学 四川
16 北京理工大学 北京
17 东南大学 江苏
18 南开大学 天津
19 天津大学 天津
20 华南理工大学 广东
21 中南大学 湖南
22 北京师范大学 北京
23 山东大学 山东
23 厦门大学 福建
25 吉林大学 吉林
26 大连理工大学 辽宁
27 电子科技大学 四川
28 湖南大学 湖南
29 苏州大学 江苏
30 西北工业大学 陕西
31 中国人民大学 北京
32 华东师范大学 上海
33 南京航空航天大学 江苏
34 对外经济贸易大学 北京
35 南方科技大学 广东
36 华东理工大学 上海
37 重庆大学 重庆
38 南京理工大学 江苏
39 北京科技大学 北京
40 东北大学 辽宁
41 上海大学 上海
42 北京邮电大学 北京
42 上海财经大学 上海
42 中国农业大学 北京
45 武汉理工大学 湖北
46 北京交通大学 北京
46 华中师范大学 湖北
48 西安电子科技大学 陕西
49 中央财经大学 北京
50 北京化工大学 北京
51 暨南大学 广东
52 东华大学 上海
52 兰州大学 甘肃
52 中南财经政法大学 湖北
55 宁波诺丁汉大学 浙江
56 哈尔滨工程大学 黑龙江
56 华北电力大学 北京
58 深圳大学 广东
59 江南大学 江苏
59 南京师范大学 江苏
61 北京工业大学 北京
62 福州大学 福建
63 北京外国语大学 北京
63 北京语言大学 北京
63 中国地质大学(武汉) 湖北
66 西南交通大学 四川
67 华中农业大学 湖北
67 中国海洋大学 山东
69 南京农业大学 江苏
70 上海外国语大学 上海
71 中国矿业大学 江苏
72 中国地质大学(北京) 北京
73 东北财经大学 辽宁
73 西南财经大学 四川
73 西南大学 重庆
76 东北师范大学 吉林
76 南京邮电大学 江苏
76 中国政法大学 北京
79 河海大学 江苏
80 南京信息工程大学 江苏
81 西北农林科技大学 陕西
82 中国石油大学(华东) 山东
83 合肥工业大学 安徽
84 陕西师范大学 陕西
85 华南师范大学 广东
85 江苏大学 江苏
87 南京工业大学 江苏
87 中国石油大学(北京) 北京
89 西北大学 陕西
89 浙江工业大学 浙江
91 北京林业大学 北京
91 湖南师范大学 湖南
91 浙江师范大学 浙江
94 首都师范大学 北京
95 汕头大学 广东
96 中国传媒大学 北京
97 杭州电子科技大学 浙江
98 扬州大学 江苏
99 安徽大学 安徽
100 华侨大学 福建
101 宁波大学 浙江
101 首都经济贸易大学 北京
101 西交利物浦大学 江苏
104 燕山大学 河北 Process finished with exit code 0
输出
python爬虫模板 - 最好大学网的更多相关文章
- Python爬虫爬取全书网小说,程序源码+程序详细分析
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
- python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
- Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
- Python 爬虫 爬校花网!!
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了 校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢 你懂得... 1.第一步,需要下载 ...
- Python爬虫 爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
- Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站 想要下载图片,只要知道图片的地址 ...
- Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
- 项目: python爬虫 福利 煎蛋网妹子图
嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了 一下 ...
- python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
随机推荐
- Spark推荐系统实践
推荐系统是根据用户的行为.兴趣等特征,将用户感兴趣的信息.产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别: 根据目标用户的不同,可划分 ...
- Go 的定时任务模块 Cron 使用
前言 新项目是Golang作为开发语言, 遇到了些新的坑, 也学到了新的知识, 收获颇丰 本章介绍在Go中使用Cron定时任务模块来实现逻辑 正文 在项目中, 我们往往需要定时执行一些逻辑, 举个例子 ...
- Harbor镜像删除回收?只看这篇
最近,公司的技术平台,运维的破事儿颇多.Jira无法访问,ES堆内存不足,Jenkins频繁不工作..等等等,让我这个刚入门的小兵抓心脑肝,夜不能寐,关键时刻方恨经验薄弱呀!!一波未平,一波又起,这不 ...
- 剑指offer 树的基本操作:四种遍历方式
前序遍历 递归版 编程思想 即借助系统栈,效率较低.二叉树的前序遍历规则:1. 访问根结点: 2. 遍历左子树: 3. 遍历右子树 编程实现 //树的定义 struct TreeNode { int ...
- git的使用命令总结
git一般方法git init 本地目录生成仓库git clone +项目url地址 克隆远程仓库git status 查看状态git pull 拉取 拉取的代码在用户家目录下git push 上传g ...
- Java调用Linux命令执行
调用方式 Java调用linux命令执行的方式有两种,一种是直接调用linux命令,一种是将linux命令写到.sh脚本中,然后调用脚本执行. 详细说明 直接调用:使用java中lang包下面的Run ...
- 性能测试工具locust简单应用
简介 Locust是一种易于使用的分布式用户负载测试工具.可用于对网站(或系统)负载测试,并依据响应数据计算出系统支持的并发用户数. 安装及调试(以下操作在windows环境下进行) Locust基于 ...
- Linux下利用ifconfig命令查看和操纵网络接口
为了说明这个问题,首先我们需要解释一下在Linux系统下"网络接口"的含义.通俗来讲,Linux中的所谓网络接口就是指本机的网卡,它相当于计算机的一台负责对网络进行收发数据的外设. ...
- 零基础怎么学Python编程,新手常犯哪些错误?
Python是人工智能时代最佳的编程语言,入门简单.功能强大,深获初学者的喜爱. 很多零基础学习Python开发的人都会忽视一些小细节,进而导致整个程序出现错误.下面就给大家介绍一下Python开发者 ...
- ajax异步实现文件分片上传
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...