python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)

 import requests

 import re

 url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html'

 for n in range(1, 2):

     new_url = url.format(n)

     html_1 = requests.get(new_url)

     html_1.encoding = 'gb2312'

     detil_list = re.findall('<a href="(.*?)" class="ulink">', html_1.text)

     for m in detil_list:

         b_url = 'http://www.ygdy8.net' + m

         html_2 = requests.get(b_url)

         html_2.encoding = 'gb2312'

         ftp = re.findall('<a href="(.*?)">.*?</a></td>', html_2.text)

         with open('tddy.txt', 'a', encoding='utf-8') as f:

             f.write(ftp[0] + '\n')

大学排名练习

 import bs4

 import requests

 from bs4 import BeautifulSoup

 def get_html_text(url):

     try:

         r = requests.get(url, timeout=20)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         return r.text

     except:

         return " "

 def fill_univ_list(ulist, html):

     soup = BeautifulSoup(html, "html.parser")

     for tr in soup.find('tbody').children:

         if isinstance(tr, bs4.element.Tag):   # 判断类型

             tds = tr('td')

             ulist.append([tds[0].string, tds[1].string, tds[3].string])

 def print_univ_list(ulist, num):

     tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

     print(tplt.format("排名", "学校名称", "总分", chr(12288)))

     for i in range(num):

         u = ulist[i]

         print(tplt.format(u[0], u[1], u[2], chr(12288)))

 def main():

     uinfo = []

     url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'

     html = get_html_text(url)

     fill_univ_list(uinfo, html)

     print_univ_list(uinfo, 20)

 main()

淘宝商品比价:

 import requests

 import re

 def get_html_text(url):

     try:

         r = requests.get(url, timeout=30)

         r.raise_for_status()

         r.encoding = 'utf-8'

         return r.text

     except:

         return ""

 def parse_page(ilt, html):

     try:

         plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

         tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)

         for i in range(len(plt)):

             price = eval(plt[i].split(':')[1])

             title = eval(tlt[i].split(':')[1])

             ilt.append([price, title])

     except:

         print("")

 def print_goods_list(ilt):

     tplt = "{:4}\t{:8}\t{:16}"

     print(tplt.format("序号", "价格", "商品名称"))

     count = 0

     for g in ilt:

         count = count + 1

         print(tplt.format(count, g[0], g[1]))

 def main():

     goods = '减肥餐'

     depth = 2

     start_url = 'http://s.taobao.com/search?q=' + goods

     info_list = []

     for i in range(depth):

         try:

             url = start_url + '&s=' + str(44*i)

             html = get_html_text(url)

             parse_page(info_list, html)

         except:

             continue

     print_goods_list(info_list)

股票数据:

 import re

 import traceback

 import requests

 import sys

 from bs4 import BeautifulSoup

 def get_html_text(url, code='utf-8'):

     headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

     try:

         r = requests.get(url, timeout=20, headers=headers)

         r.raise_for_status()

         r.encoding = code

         return r.text

     except:

         return ""

 def get_stock_list(lst, stock_url):

     html = get_html_text(stock_url, 'GB2312')

     soup = BeautifulSoup(html, 'html.parser')

     a = soup.find_all('a')

     for i in a:

         stock_code = re.findall(r'[s][hz]\d{6}', str(i))

         if len(stock_code) != 0:

             lst.append(stock_code)

 def get_stock_info(lst, stock_url, fpath):

     count = 0

     for stock in lst:

         url = stock_url + stock[0] + '.html'

         print(url)

         html = get_html_text(url)

         try:

             if html == "":

                 continue

             info_dict = {}

             soup = BeautifulSoup(html, 'html.parser')

             stock_info = soup.find('div', attrs={'class': 'stock-bets'})

             info_dict.update({'股票名称': stock_info.text.split()[0]})

             key_list = stock_info.find_all('dt')

             value_list = stock_info.find_all('dd')

             for i in range(len(key_list)):

                 key = key_list[i].text

                 info_dict[key] = value_list[i].text

             with open(fpath, 'a', encoding='utf-8') as f:

                 f.write(str(info_dict) + '\n')

                 count = count + 1

                 print("\r当前进度: {:.2f}%".format(count*100/len(lst), end=""))

         except:

             traceback.print_exc(file=sys.stdout)

             count = count + 1

             print("\r当前进度: {:.2f}%".format(count * 100 / len(lst), end=""))

             continue

 def main():

     stock_list_url = 'http://quote.eastmoney.com/stocklist.html'

     stock_info_url = 'http://gupiao.baidu.com/stock/'

     output_file = 'D:/BaiduStockInfo.txt'

     slist = []

     get_stock_list(slist, stock_list_url)

     get_stock_info(slist, stock_info_url, output_file)

python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)的更多相关文章

Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
14.python案例：爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...
python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。
利用爬到的数据,基于Django搭建的一个最新电影信息网站: n1celll.xyz (用的花生壳动态域名解析,服务器在自己的电脑上,纯属自娱自乐哈.) 今天想利用所学知识来爬取电影天堂所有最新电影 ...
Python爬取电影天堂指定电视剧或者电影
1.分析搜索请求一位高人曾经说过,想爬取数据,要先分析网站今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...
scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
requests+BeautifulSoup | 爬取电影天堂全站电影资源
import requests import urllib.request as ur from bs4 import BeautifulSoup import csv import threadin ...
requests+lxml+xpath爬取电影天堂
1.导入相应的包 import requests from lxml import etree 2.原始ur url="https://www.dytt8.net/html/gndy/dyz ...
爬虫之爬取电影天堂（request）
#需要通过代码打开https://www.dytt8.net/网站,拿到网站内容 from urllib.request import urlopen #拿到urlopen import re con ...
java批量爬取电影资源
摘要网上有很多个人站来分享电影资源,其实有时候我们自己也想做这个一个电影站来分享资源.但是这个时候就有一个问题,电影的资源应该从哪里来呢?难道要自己一条条手动去从网络上获取,这样无疑是缓慢而又效率低 ...

随机推荐

OFBiz：component-load.xml
component-load.xml定义了OFBiz的组件载入位置,默认的是通过目录来设置: <component-loader xmlns:xsi="http://www.w3.or ...
摘：通过ICursor对Table进行操作（添加、修改、删除）
通过ICursor对Table进行操作(添加.修改.删除) 连接上数据表的目的就是对其进行包括浏览.添加.修改.删除等基本操作. 浏览功能,之前文章中一提到,就是将Itable转换为DataTable ...
Lintcode---克隆二叉树
深度复制一个二叉树. 给定一个二叉树,返回一个他的克隆品 . 您在真实的面试中是否遇到过这个题? Yes 样例给定一个二叉树: 1 / \ 2 3 / \ 4 5 返回其相同结构相同数值的克隆二叉 ...
我写的websocket推送例子，每隔5秒服务器向客户端浏览器发送消息(node.js和浏览器)
node.js服务端先要安装ws模块的支持 npm install ws 服务端(server.js) var gws; var WebSocketServer = require('ws').Se ...
Node.js + Express + Ubuntu
1 . 怎么在ubuntu中,background的方式启动express. 网站www /home/host/express/web/bin# nohup node www 2. Node.js的 ...
大数据量下MySQL插入方法的性能比较
不管是日常业务数据处理中,还是数据库的导入导出,都可能遇到需要处理大量数据的插入.插入的方式和数据库引擎都会对插入速度造成影响,这篇文章旨在从理论和实践上对各种方法进行分析和比较,方便以后应用中插入方 ...
Android - 资源(resource)转换为String
资源(resource)转换为String 本文地址: http://blog.csdn.net/caroline_wendy Android建议资源的动态绑定, 即把string写入资源内, 然后运 ...
atitit.为什么笔记本跟个手机不能组装而pc可以
atitit.为什么笔记本跟个手机不能组装而pc可以 1. 标准程度差 1 2. 为什么标准程度差 1 3. 第一个答案是「能」.第二个答案是「麻烦」. 2 4. 为什么手机不能自定义组装 3 1. ...
【Android】14.1 内部文件存储和读取
分类:C#.Android.VS2015: 创建日期:2016-02-27 一.简介内部存储(Internal storage)是指将应用程序建立的私有文件保存在内部存储器(移动经销商卖的那种容量较 ...
nginx rewrite目录对换
/123/xxx----->xxx?id=123 [root@web01 default]# pwd /app/www/default [root@web01 └── sss └── index ...

python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)

python3----练习题(爬取电影天堂资源,大学排名,淘宝商品比价)的更多相关文章

随机推荐

热门专题