记一次简单爬虫(豆瓣/dytt)

刹那灯火明 2024-10-15 04:34:10 原文

磕磕绊绊学python一个月，这次到正则表达式终于能写点有趣的东西，在此作个记录：

—————————————————————————————————————————————————

1.爬取豆瓣电影榜前250名单

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

相关代码：

 from urllib.request import urlopen

 import re

 # import ssl  # 若有数字签名问题可用

 # ssl._create_default_https_context = ssl._create_unverified_context

 # 写正则规则

 obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?导演:(?P<daoyan>.*?)&nbsp;.*?'

                  r'主演:(?P<zhuyan>.*?)<br>\n                            (?P<shijian>.*?)&nbsp;/&nbsp;(?P<diqu>.*?)&nbsp;'

                  r'/&nbsp;(?P<leixing>.*?)\n.*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>.*?<span>'

                  r'(?P<renshu>.*?)评价</span>.*?<span class="inq">(?P<jianping>.*?)</span>',re.S)  # re.S 干掉换行

 # 转码 获取内容

 def getContent(url):

     content = urlopen(url).read().decode("utf-8")

     return content

 # 匹配页面内容 返回一个迭代器

 def parseContent(content):

     iiter = obj.finditer(content)

     for el in iiter:

         yield {

             "name":el.group("name"),

             "daoyan":el.group("daoyan"),

             "zhuyan":el.group("zhuyan"),

             "shijian":el.group("shijian"),

             "diqu":el.group("diqu"),

             "leixing":el.group("leixing"),

             "fen":el.group("fen"),

             "renshu":el.group("renshu"),

             "jianping":el.group("jianping")

         }

 for i in range(10):

     url = "https://movie.douban.com/top250?start=%s&filter=" % (i*25)  # 循环页面10

     print(url)

     g = parseContent(getContent(url))  # 匹配获取的内容返回给g

     f = open("douban_movie.txt",mode="a",encoding="utf-8")

     for el in g:

         f.write(str(el)+"\n")  # 写入到txt 注意加上换行

     # f.write("==============================================")  # 测试分页

     f.close()

2.爬取某站最新电影和下载地址

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)]

成品效果：

相关代码：

 from urllib.request import urlopen

 import json

 import re

 # 获取主页面内容

 url = "https://www.dytt8.net/"

 content = urlopen(url).read().decode("gbk")

 # print(content)

 # 正则

 obj = re.compile(r'.*?最新电影下载</a>]<a href=\'(?P<url1>.*?)\'>', re.S)

 obj1 = re.compile(r'.*?<div id="Zoom">.*?<br />◎片　　名(?P<name>.*?)<br />.*?bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)

 def get_content(content):

     res = obj.finditer(content)

     f = open('movie_dytt.json', mode='w', encoding='utf-8')

     for el in res:

         res = el.group("url1")

         res = url + res  # 拼接子页面网址

         content1 = urlopen(res).read().decode("gbk")  # 获取子页面内容

         lst = obj1.findall(content1)  # 匹配obj1返回一个列表

         # print(lst)  # 元组

         name = lst[0][0]

         download = lst[0][1]

         s = json.dumps({"name":name,"download":download},ensure_ascii=False)

         f.write(s+"\n")

     f.flush()

     f.close()

 get_content(content)  # 调用函数 执行

记一次简单爬虫(豆瓣/dytt)的更多相关文章

放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python 简单爬虫（beatifulsoup)
---恢复内容开始--- python爬虫学习从0开始第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或 ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
简单爬虫，突破IP访问限制和复杂验证码，小总结
简单爬虫,突破复杂验证码和IP访问限制文章地址:http://www.cnblogs.com/likeli/p/4730709.html 好吧,看题目就知道我是要写一个爬虫,这个爬虫的目标网站有 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

随机推荐

win8 下 intellij idea 13 中文输入覆盖的问题
网上的解决方案好啰嗦,精简下如下: 设置环境变量 64位:IDEA_JDK_64 32位:IDEA_JDK 设置的value必须是JDK1.6(IDEA自带1.7版本有问题),和平时设置的JAVA_H ...
java.lang.IllegalStateException: BeanFactory not initialized or already closed - call 'refresh' before accessing beans via the ApplicationContext
spring的项目中有时候会报错:java.lang.IllegalStateException: BeanFactory not initialized or already closed - ca ...
JVM内存参数（ -Xms -Xmx -Xmn -Xss 直接内存）
JVM调优总结 -Xms -Xmx -Xmn -Xss jvm 内存在不同的情况下如何增大及 PermGen space 相关 JVM日志和参数的理解 JVM崩溃Log日志分析 -Xms 为jvm ...
Jmeter Cannot load JDBC driver class 'com.mysql.jdbc.Driver'问题解决方案
1.下载 mysql-connector-java-5.1.44-bin.jar,哪个版本都可以,按自己的mysql版本来 2.将jar包放到jmeter安装路径下的 apache-jmeter-3. ...
iOS-UIView一些坐标和位置方法封装
新建基于UIView扩展类 UIView+wkjFrame,此类是为了方便获取一些基于UIView类UI控件的坐标和位置的简化,直接引用即可 UIView+wkjFrame.h - (CGPoint) ...
深度了解git工具
今天给大家介绍一个深度了解git的学习视频,视频讲的挺好的,可以听听. 深度了解git学习视频
Linux CentOS7系统探索
这两天,突发奇想,想着用着微软家的windows系统很多年了,也想尝试一下其他的操作系统.很快的就想到了Linux操作系统,它不是面向用户的,而是面向服务器的,在服务器端的市场中占了很大的市场份额,备 ...
（转）MySQL优化笔记（八）--锁机制超详细解析（锁分类、事务并发、引擎并发控制）
当一个系统访问量上来的时候,不只是数据库性能瓶颈问题了,数据库数据安全也会浮现,这时候合理使用数据库锁机制就显得异常重要了. 原文:http://www.jianshu.com/p/163c96983 ...
四、CLR执行程序集中代码和IL代码简介
三.加载公共语言运行时中介绍了在安装了.Net Framework中加载公共语言运行时,公共语言运行时加载程序集的过程.以及通过vs stdio设置源码编译的目标平台的过程. 本问主要介绍公共语言加载 ...
【转】如何选择Html.RenderPartial和Html.RenderAction
Html.RenderPartial与Html.RenderAction这两个方法都是用来在界面上嵌入用户控件的. Html.RenderPartial是直接将用户控件嵌入到界面上: <%Htm ...