python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)
- import requests
- import re
- url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html'
- for n in range(1, 2):
- new_url = url.format(n)
- html_1 = requests.get(new_url)
- html_1.encoding = 'gb2312'
- detil_list = re.findall('<a href="(.*?)" class="ulink">', html_1.text)
- for m in detil_list:
- b_url = 'http://www.ygdy8.net' + m
- html_2 = requests.get(b_url)
- html_2.encoding = 'gb2312'
- ftp = re.findall('<a href="(.*?)">.*?</a></td>', html_2.text)
- with open('tddy.txt', 'a', encoding='utf-8') as f:
- f.write(ftp[0] + '\n')
大学排名练习
- import bs4
- import requests
- from bs4 import BeautifulSoup
- def get_html_text(url):
- try:
- r = requests.get(url, timeout=20)
- r.raise_for_status()
- r.encoding = r.apparent_encoding
- return r.text
- except:
- return " "
- def fill_univ_list(ulist, html):
- soup = BeautifulSoup(html, "html.parser")
- for tr in soup.find('tbody').children:
- if isinstance(tr, bs4.element.Tag): # 判断类型
- tds = tr('td')
- ulist.append([tds[0].string, tds[1].string, tds[3].string])
- def print_univ_list(ulist, num):
- tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
- print(tplt.format("排名", "学校名称", "总分", chr(12288)))
- for i in range(num):
- u = ulist[i]
- print(tplt.format(u[0], u[1], u[2], chr(12288)))
- def main():
- uinfo = []
- url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'
- html = get_html_text(url)
- fill_univ_list(uinfo, html)
- print_univ_list(uinfo, 20)
- main()
淘宝商品比价:
- import requests
- import re
- def get_html_text(url):
- try:
- r = requests.get(url, timeout=30)
- r.raise_for_status()
- r.encoding = 'utf-8'
- return r.text
- except:
- return ""
- def parse_page(ilt, html):
- try:
- plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
- tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)
- for i in range(len(plt)):
- price = eval(plt[i].split(':')[1])
- title = eval(tlt[i].split(':')[1])
- ilt.append([price, title])
- except:
- print("")
- def print_goods_list(ilt):
- tplt = "{:4}\t{:8}\t{:16}"
- print(tplt.format("序号", "价格", "商品名称"))
- count = 0
- for g in ilt:
- count = count + 1
- print(tplt.format(count, g[0], g[1]))
- def main():
- goods = '减肥餐'
- depth = 2
- start_url = 'http://s.taobao.com/search?q=' + goods
- info_list = []
- for i in range(depth):
- try:
- url = start_url + '&s=' + str(44*i)
- html = get_html_text(url)
- parse_page(info_list, html)
- except:
- continue
- print_goods_list(info_list)
股票数据:
- import re
- import traceback
- import requests
- import sys
- from bs4 import BeautifulSoup
- def get_html_text(url, code='utf-8'):
- headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
- try:
- r = requests.get(url, timeout=20, headers=headers)
- r.raise_for_status()
- r.encoding = code
- return r.text
- except:
- return ""
- def get_stock_list(lst, stock_url):
- html = get_html_text(stock_url, 'GB2312')
- soup = BeautifulSoup(html, 'html.parser')
- a = soup.find_all('a')
- for i in a:
- stock_code = re.findall(r'[s][hz]\d{6}', str(i))
- if len(stock_code) != 0:
- lst.append(stock_code)
- def get_stock_info(lst, stock_url, fpath):
- count = 0
- for stock in lst:
- url = stock_url + stock[0] + '.html'
- print(url)
- html = get_html_text(url)
- try:
- if html == "":
- continue
- info_dict = {}
- soup = BeautifulSoup(html, 'html.parser')
- stock_info = soup.find('div', attrs={'class': 'stock-bets'})
- info_dict.update({'股票名称': stock_info.text.split()[0]})
- key_list = stock_info.find_all('dt')
- value_list = stock_info.find_all('dd')
- for i in range(len(key_list)):
- key = key_list[i].text
- info_dict[key] = value_list[i].text
- with open(fpath, 'a', encoding='utf-8') as f:
- f.write(str(info_dict) + '\n')
- count = count + 1
- print("\r当前进度: {:.2f}%".format(count*100/len(lst), end=""))
- except:
- traceback.print_exc(file=sys.stdout)
- count = count + 1
- print("\r当前进度: {:.2f}%".format(count * 100 / len(lst), end=""))
- continue
- def main():
- stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
- stock_info_url = 'http://gupiao.baidu.com/stock/'
- output_file = 'D:/BaiduStockInfo.txt'
- slist = []
- get_stock_list(slist, stock_list_url)
- get_stock_info(slist, stock_info_url, output_file)
python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)的更多相关文章
- Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
- 14.python案例:爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...
- python利用requests和threading模块,实现多线程爬取电影天堂最新电影信息。
利用爬到的数据,基于Django搭建的一个最新电影信息网站: n1celll.xyz (用的花生壳动态域名解析,服务器在自己的电脑上,纯属自娱自乐哈.) 今天想利用所学知识来爬取电影天堂所有最新电影 ...
- Python爬取电影天堂指定电视剧或者电影
1.分析搜索请求 一位高人曾经说过,想爬取数据,要先分析网站 今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...
- scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
- requests+BeautifulSoup | 爬取电影天堂全站电影资源
import requests import urllib.request as ur from bs4 import BeautifulSoup import csv import threadin ...
- requests+lxml+xpath爬取电影天堂
1.导入相应的包 import requests from lxml import etree 2.原始ur url="https://www.dytt8.net/html/gndy/dyz ...
- 爬虫之爬取电影天堂(request)
#需要通过代码打开https://www.dytt8.net/网站,拿到网站内容 from urllib.request import urlopen #拿到urlopen import re con ...
- java批量爬取电影资源
摘要 网上有很多个人站来分享电影资源,其实有时候我们自己也想做这个一个电影站来分享资源.但是这个时候就有一个问题,电影的资源应该从哪里来呢?难道要自己一条条手动去从网络上获取,这样无疑是缓慢而又效率低 ...
随机推荐
- Android系统源代码——所需工具
一.概述 众所周知,Android移动操作系统是Google花费了很大的财力.物力及人力的前提下,推广到世界各个角落,以开放源代码的方式(当然也不是完全开放所有),使其在世界范围内迅速漫延开来,到目前 ...
- Linux环境下的make和makefile详解
无论是在Linux还是在Unix环境中,make都是一个非常重要的编译命令.不管是自己进行项目开发还是安装应用软件,我们都经常要用到make或make install.利用make工具,我们可以将大型 ...
- cpu_test
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
- iOS开发-代码片段(Code Snippets)提高开发效率
简介 在 XCode4 引入了一个新特性,那就是“代码片段(Code Snippets)”.对于一些经常用到的代码,抽象成模板放到 Code Snippets 中,使用的时候就只需要键入快捷键就可以了 ...
- 笔记本装ubuntu发热量大该如何缓解?
win7下的双卡技术是optimus, 驱动完善,不会让两个显卡同时满负荷工作, linux下由于驱动软件闭源, xorg的开源驱动没有做这个显卡电源管理, 目前的N卡较好解决方案就是bumblebe ...
- Linux命令-用户管理命令:useradd,passwd,who,w
who 查看登录用户 w 查看登录用户详细信息
- C# BeginInvoke和EndInvoke方法
转载自:BeginInvoke和EndInvoke方法 IDE:Visual Studio 2008 本系列教程主要包括如下内容:1. BeginInvoke和EndInvoke方法 2. Threa ...
- mysql innodb的重要组件
innodb包涵如下几个组件 一.innodb_buffer_pool: 1 它主要用来缓存数据与索引(准确的讲由于innodb中的表是由聚集索引组织的,所以数据只不是过主键这个索引的叶子结点). 二 ...
- 如何利用webmin在Linux主机中添加网站
Linux系统因其高效稳定而受到广大用户的推崇与青睐,然后其管理的复杂性也使很多用户望而却步,动弹不得.为了降低 Linux系统的管理难度,更有效方便的使用该系统,我司所有Linux主机或VPS系统均 ...
- javascript递归、循环、迭代、遍历和枚举概念
javascript递归.循环.迭代.遍历和枚举概念 〓递归(recursion)在数学与计算机科学中,是指在函数的定义中使用函数自身的方法.递归一词还较常用于描述以自相似方法重复事物的过程.例如,当 ...