有些时候我们想知道网页中包含哪些具体的信息,比如如下的这个网页,

http://www.icourse163.org/university/view/all.htm

我们只想知道自己的学校是否在这个列表中,总共又有多少学校在里面。

但是一眼看过去,看不到结果,所以,让我们把这个里面的大学列表文字的方式列出来,因为只有一页,就不用爬虫了,直接右键得到源码,或者Ctrl+u,将文本保存为 ”university_resource.txt“,放到D盘目录下。

好了,接下来,上代码:

from xpinyin import Pinyin

def get_university_list(path):
with open(path, 'r') as source_file:
file_in_lines = source_file.readlines() university_list = [] for line in file_in_lines:
if "alt" in line:
if '大学生' in line:
continue
if '大学' in line or '学院' in line:
university = line.split('"')[-2]
university_list.append(university) return university_list, len(university_list) path = "D:\\university_resource.txt" university_list, numbers = get_university_list(path) pinyin_transformer = Pinyin() # 将大学排名按照拼音的字母顺序来排序,用到xpinyin模块
university_list_order = sorted(university_list, key=lambda x: pinyin_transformer.get_pinyin(x, '')) print('总共有{}所大学开设了公开课。大学列表(按照拼音排序)如下:'.format(numbers), '\n')
for serial_number, university in enumerate(university_list_order):
print('{}. {}'.format(serial_number + 1, university))

输出:

总共有376所大学开设了公开课。大学列表(按照拼音排序)如下:

1. 安徽农业大学

2. 安阳工学院

3. 保定学院

4. 北部湾大学

5. 北方工业大学

6. 北方民族大学

7. 北京大学

8. 北京第二外国语学院

9. 北京服装学院

10. 北京工业大学

11. 北京航空航天大学

12. 北京化工大学

13. 北京建筑大学

14. 北京交通大学

15. 北京科技大学

16. 北京联合大学

17. 北京理工大学

18. 北京林业大学

19. 北京师范大学

20. 北京体育大学

21. 北京外国语大学

22. 北京现代音乐研修学院

23. 北京协和医学院

24. 北京信息科技大学

25. 北京邮电大学

26. 北京语言大学

27. 北京中医药大学

28. 北京中医药大学东方学院

29. 滨州医学院

30. 渤海大学

31. 长安大学

32. 长春师范大学

33. 长春中医药大学

34. 长江大学

35. 长沙理工大学

36. 长沙师范学院

37. 长沙学院

38. 常熟理工学院

39. 常州大学

40. 常州工学院

41. 成都大学

42. 成都工业学院

43. 成都理工大学

44. 成都体育学院

45. 成都信息工程大学

46. 成都中医药大学

47. 大连大学

48. 大连工业大学

49. 大连海事大学

50. 大连海洋大学

51. 大连理工大学

52. 电子科技大学

53. 第四军医大学

54. 东北财经大学

55. 东北大学

56. 东北林业大学

57. 东北农业大学

58. 东北师范大学

59. 东华大学

60. 东南大学

61. 对外经济贸易大学

62. 复旦大学

63. 福建江夏学院

64. 福建农林大学

65. 福建师范大学

66. 福建医科大学

67. 福建中医药大学

68. 福州大学

69. 福州外语外贸学院

70. 广东工业大学

71. 广东技术师范大学

72. 广东外语外贸大学

73. 广西大学

74. 广西民族大学

75. 广西医科大学

76. 广州大学

77. 广州美术学院

78. 广州体育学院

79. 广州中医药大学

80. 桂林电子科技大学

81. 桂林理工大学

82. 桂林旅游学院

83. 贵州理工学院

84. 国防科技大学

85. 国家开放大学

86. 国际关系学院

87. 哈尔滨工程大学

88. 哈尔滨工业大学

89. 哈尔滨师范大学

90. 哈尔滨医科大学

91. 海南师范大学

92. 杭州电子科技大学

93. 杭州师范大学

94. 河北工业大学

95. 河北经贸大学

96. 河北科技大学

97. 河北师范大学

98. 合肥工业大学

99. 合肥师范学院

100. 河海大学

101. 黑龙江大学

102. 黑龙江信息技术职业学院

103. 河南城建学院

104. 河南大学

105. 河南科技大学

106. 河南科技学院

107. 河南理工大学

108. 河南农业大学

109. 河南师范大学

110. 河南师范大学新联学院

111. 河南中医药大学

112. 衡阳师范学院

113. 河西学院

114. 华北电力大学

115. 华北电力大学(保定)

116. 华东交通大学

117. 华东理工大学

118. 华东师范大学

119. 华东政法大学

120. 淮阴工学院

121. 淮阴师范学院

122. 华南理工大学

123. 华南师范大学

124. 黄河科技学院

125. 黄淮学院

126. 华侨大学

127. 华中科技大学

128. 华中农业大学

129. 华中师范大学

130. 湖北大学

131. 湖北经济学院

132. 湖北汽车工业学院

133. 湖北文理学院

134. 呼伦贝尔学院

135. 湖南大学

136. 湖南第一师范学院

137. 湖南工业大学

138. 湖南科技学院

139. 湖南理工学院

140. 湖南农业大学

141. 湖南师范大学

142. 江南大学

143. 江苏大学

144. 江苏第二师范学院

145. 江苏海洋大学

146. 江苏警官学院

147. 江苏开放大学

148. 江苏科技大学

149. 江苏科技大学苏州理工学院

150. 江苏理工学院

151. 江苏师范大学

152. 江苏师范大学科文学院

153. 江西财经大学

154. 江西科技学院

155. 江西理工大学

156. 江西师范大学

157. 吉林大学

158. 吉林体育学院

159. 集美大学

160. 暨南大学

161. 景德镇陶瓷大学

162. 金陵科技学院

163. 锦州医科大学

164. 九江学院

165. 开封大学

166. 昆明理工大学

167. 兰州大学

168. 兰州交通大学

169. 辽宁科技学院

170. 辽宁中医药大学

171. 岭南师范学院

172. 陇东学院

173. 洛阳理工学院

174. 洛阳师范学院

175. 闽江学院

176. 闽南理工学院

177. 闽南师范大学

178. 南昌大学

179. 南昌工程学院

180. 南昌工学院

181. 南昌航空大学

182. 南方医科大学

183. 南华大学

184. 南京财经大学

185. 南京财经大学红山学院

186. 南京大学

187. 南京大学金陵学院

188. 南京工程学院

189. 南京工业大学

190. 南京航空航天大学

191. 南京理工大学

192. 南京理工大学泰州科技学院

193. 南京理工大学紫金学院

194. 南京林业大学

195. 南京农业大学

196. 南京森林警察学院

197. 南京审计大学

198. 南京审计大学金审学院

199. 南京师范大学

200. 南京师范大学泰州学院

201. 南京师范大学中北学院

202. 南京特殊教育师范学院

203. 南京体育学院

204. 南京晓庄学院

205. 南京信息工程大学

206. 南京信息工程大学滨江学院

207. 南京医科大学

208. 南京艺术学院

209. 南京邮电大学

210. 南京中医药大学

211. 南开大学

212. 南宁师范大学

213. 南通大学

214. 南通理工学院

215. 内蒙古大学

216. 内蒙古民族大学

217. 宁波大学

218. 宁波工程学院

219. 宁夏大学

220. 平顶山学院

221. 青岛大学

222. 青岛科技大学

223. 青海大学

224. 三江学院

225. 厦门大学

226. 山东财经大学

227. 山东畜牧兽医职业学院

228. 山东大学

229. 山东工商学院

230. 山东水利职业学院

231. 山东体育学院

232. 山东中医药大学

233. 上海财经大学

234. 上海大学

235. 上海对外经贸大学

236. 上海工程技术大学

237. 上海海事大学

238. 上海海洋大学

239. 上海交通大学

240. 上海立信会计金融学院

241. 上海师范大学

242. 上海体育学院

243. 上海外国语大学

244. 上海戏剧学院

245. 上海应用技术大学

246. 汕头大学

247. 山西大学

248. 陕西科技大学

249. 山西农业大学

250. 陕西师范大学

251. 山西师范大学

252. 山西医科大学

253. 沈阳工业大学

254. 沈阳师范大学

255. 深圳大学

256. 首都经济贸易大学

257. 首都师范大学

258. 首都体育学院

259. 四川大学

260. 四川美术学院

261. 四川师范大学

262. 四川音乐学院

263. 宿迁学院

264. 苏州大学

265. 苏州大学文正学院

266. 苏州科技大学

267. 苏州科技大学天平学院

268. 太原工业学院

269. 太原理工大学

270. 泰州学院

271. 天津财经大学

272. 天津大学

273. 天津商业大学

274. 天津师范大学

275. 天津体育学院运动与文化艺术学院

276. 天津医科大学

277. 通化师范学院

278. 同济大学

279. 外交学院

280. 温州大学

281. 温州医科大学

282. 武昌工学院

283. 武昌理工学院

284. 武汉大学

285. 武汉科技大学

286. 武汉理工大学

287. 武汉体育学院

288. 武夷学院

289. 西安电子科技大学

290. 西安工程大学

291. 西安工业大学

292. 湘潭大学

293. 西安航空学院

294. 西安建筑科技大学

295. 西安交通大学

296. 西安科技大学

297. 西安理工大学

298. 西安外国语大学

299. 西安邮电大学

300. 西北大学

301. 西北工业大学

302. 西北农林科技大学

303. 西藏民族大学

304. 西华大学

305. 西华师范大学

306. 西南财经大学

307. 西南大学

308. 西南交通大学

309. 西南石油大学

310. 西南政法大学

311. 邢台学院

312. 新疆财经大学

313. 新余学院

314. 徐州工程学院

315. 徐州医科大学

316. 延安大学

317. 盐城工学院

318. 盐城师范学院

319. 扬州大学

320. 云南财经大学

321. 云南大学

322. 云南师范大学

323. 豫章师范学院

324. 浙江财经大学

325. 浙江传媒学院

326. 浙江大学

327. 浙江大学城市学院

328. 浙江工商大学

329. 浙江工业大学

330. 浙江科技学院

331. 浙江理工大学

332. 浙江农林大学

333. 浙江师范大学

334. 浙江万里学院

335. 浙江音乐学院

336. 浙江中医药大学

337. 郑州大学

338. 郑州工程技术学院

339. 郑州轻工业大学

340. 中北大学

341. 中国传媒大学

342. 中国地质大学(北京)

343. 中国地质大学(武汉)

344. 中国海洋大学

345. 中国计量大学

346. 中国科学技术大学

347. 中国科学院大学

348. 中国矿业大学

349. 中国矿业大学徐海学院

350. 中国矿业大学(北京)

351. 中国农业大学

352. 中国人民大学

353. 中国人民解放军陆军工程大学

354. 中国人民警察大学

355. 中国社会科学院大学

356. 中国石油大学(北京)

357. 中国石油大学(华东)

358. 中国刑事警察学院

359. 中国药科大学

360. 中国医科大学

361. 中国音乐学院

362. 中国政法大学

363. 中南财经政法大学

364. 中南大学

365. 中南林业科技大学

366. 中南民族大学

367. 重庆大学

368. 重庆工商大学

369. 重庆交通大学

370. 中山大学

371. 中央财经大学

372. 中央美术学院

373. 中央民族大学

374. 中央音乐学院

375. 中原工学院

376. 周口师范学院

Process finished with exit code 0

这里面有你的大学吗?如果扩展,还可以统计哪些是985,哪些是211学校…

简单的中国MOOC大学列表提取 - Python的更多相关文章

  1. python爬虫抓取中国最好大学排名1 清华大学 北京 94.0 100.0 97.70% 清华大学 2 北京大学

    import requests from bs4 import BeautifulSoup import bs4.element r=requests.get("http://www.zui ...

  2. 列表(list) ----python

    Python 列表(List) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型 ...

  3. 中国科学技术大学统一身份认证系统CAS

    CAS | Apereohttps://www.apereo.org/projects/cas 中国科学技术大学统一身份认证系统https://passport.ustc.edu.cn/login?s ...

  4. iRSF快速简单易用的实现列表、排序、过滤功能

    IRSF 是由javascript编写,iRSF快速简单易用的实现列表.排序.过滤功能(该三种操作以下简称为 RSF ). iRSF由三个类组成. iRSFSource 数据源 iRSFFilter ...

  5. 量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python)(转)

    量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python) 原文地址:http://blog.csdn.net/u012234115/article/details/728300 ...

  6. 列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介

    列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建 字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...

  7. python 列表List - python基础入门(13)

    列表是python开发过程中最常用的数据类型之一,列表俗称:list ,特点如下: 1.列表由一个或者多个数据构成,数据的类型可以不相同也可以相同: 2.列表中的数据需要写在[]中括号内部,数据与数据 ...

  8. Python爬虫实战:2017中国最好大学排名

    抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...

  9. python爬虫学习(二):定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018",并把结果写进txt文件

    在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...

随机推荐

  1. ICML 2019论文录取Top100:谷歌霸榜

    [导读]人工智能顶级会议ICML 2019发布了今年论文录取结果.提交的3424篇论文中,录取了774篇,录取率为22.6%,较去年有所降低.从录取论文数量来看,谷歌成为今年最大赢家,紧随其后的是MI ...

  2. ClickHouse学习系列之二【用户权限管理】

    背景 最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统.在安装完之后首先做的应该如何设置用户密码以及权限控制.因为 ...

  3. 类加载机制之ClassLoader

    1,类加载 每个编写的”.java”拓展名类文件都存储着需要执行的程序逻辑,这些”.java”文件经过Java编译器编译成拓展名为”.class”的文件,”.class”文件中保存着Java代码经转换 ...

  4. Java 垃圾回收机制方法,判断对象存活算法

    垃圾回收机制: 不定时去堆内存中清理不可达对象.不可达的对象并不会马上就会直接回收, 垃圾收集器在一个Java程序中的执行是自动的,不能强制执行,即使程序员能明确地判断出有一块内存已经无用了,是应该回 ...

  5. spring boot 源码赏析之事件监听

    使用spring Boot已经快1年多了,期间一直想点开springboot源码查看,但由于种种原因一直未能如愿(主要是人类的惰性...),今天就拿springboot 的监听事件祭刀. spring ...

  6. IEnumerable和IQueryable在使用时的区别

    最近在调研数据库查询时因使用IEnumerable进行Linq to entity的操作,造成数据库访问缓慢.此文讲述的便是IEnumerable和IQueryable的区别. 微软对IEnumera ...

  7. 分布式爬虫scrapy-redis

    第一步 下载scrapy模块: pip install scrapy-redis 第二步 创建项目 在终端/cmd进入创建项目的目录: cd 路径: scrapy startproject douba ...

  8. 【Java技术系列】爱情36技之记忆永存

    1.  关注“一猿小讲”的伙伴们都清楚,Java 那小子带着心爱的 Python 菇凉,去了一趟浪漫的土耳其,然后一起又去了东京和巴黎,接着 Python 菇凉自己又去了云南的大理. 就在昨天,Pyt ...

  9. JMeter中聚合报告的各项参数详解

    下面我们来共同学习这些参数的作用: 1.Lable:Label:每个 JMeter 的 element(例如 HTTP Request)都有一个 Name 属性,这里显示的就是 Name 属性的值: ...

  10. Light of future-凡事预则立

    目录 1.冲刺的时间计划安排 2.针对上一次作业同学.助教提出的问题的回答 3.针对前几次作业的不足的地方进行思考和总结 4.需要改进的团队分工 5.团队的代码规范 6.Github仓库链接 归属班级 ...