python爬虫两个影院的实例

主要两个的python代码如下：

import requests

from bs4 import BeautifulSoup

url = 'https://www.17k.com/'

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}

response =  requests.get(url,headers = headers)

content = response.content.decode('utf-8')

soup = BeautifulSoup(content, 'html.parser')

listA = soup.find_all(name='ul',attrs={"class":"Top1"})

a=

movie_list=[]

for each in listA:

    all1=each.find("li").a.get("href").strip()

    all2=each.find("li").a.text.strip("[]")

    movie_list.append([" 电影名： ",all2,"电影链接： ",all1])

with open("17kmovie.txt","w+",encoding="utf-8") as f:

    for i in range(len(movie_list)):

        f.write(str(movie_list[i]))

        f.write("\n")

    f.close()

import requests

from bs4 import BeautifulSoup

def get_movie():

    url = 'https://movie.douban.com/top250'  #请求地址

    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息

    movie_list=[]

    for i in range(,):

        url = 'https://movie.douban.com/top250?start='+str(i*)

        response=requests.get(url,headers=headers)

        soup=BeautifulSoup(response.text,"html.parser")

        div_list = soup.find_all('div', class_='info')

        for each in div_list:

            title = each.find('div', class_="hd").span.text.strip()

            title2 = each.find('div', class_="hd").a.get("href").strip()

            info = each.find('div', class_='bd').p.text.strip()

            info = info.replace('\\n', '').replace('\\xa0', '')

            info = ' '.join(info.split())

            star = each.find('span', class_='rating_num').text.strip()

            people = each.find('div', class_='star').contents[].text.strip()

            movie_list.append(["电影名： ",title, "电影链接  ",title2,info, star, people])

    return movie_list

movie=[]

movie=get_movie()

with open("Top_movie_250.txt","w+",encoding="utf-8") as f:

    for i in range(len(movie)):

        f.write(str(movie[i]))

        f.write("\n")

    f.close()

实验结果如下：

将其写到文件中：

用到的都是之前学到的知识点。

（发现的文体是。有的时候例如span语句，存在没有改属性的情况。进而获得text会出现属性失败的错误。最后自己发现通过测试解决的）

python爬虫两个影院的实例的更多相关文章

Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
python爬虫之深度爬取实例
写了一个之前没完成的项目,代码优化不够,速度有点慢,应该也有错误的地方,望大佬看了之后能给点建议......... 这是开始的url,先看一下它的网页结构:http://www.cymodel.net ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫编程常见问题解决方法
Python爬虫编程常见问题解决方法: 1.通用的解决方案: [按住Ctrl键不送松],同时用鼠标点击[方法名],查看文档 2.TypeError: POST data should be bytes ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫教程-16-破解js加密实例（有道在线翻译）
python爬虫教程-16-破解js加密实例(有道在线翻译) 在爬虫爬取网站的时候,经常遇到一些反爬虫技术,比如: 加cookie,身份验证UserAgent 图形验证,还有很难破解的滑动验证 js签 ...

随机推荐

从零搭建Spring Cloud Gateway网关（二）—— 打印请求响应日志
作为网关,日志记录是必不可少的功能,可以在网关出增加requestId来查询整个请求链的调用执行情况等等. 打印请求日志打印请求日志最重要的就是打印请求参数这些东西,不过RequestBody通常情 ...
go例子(二) 使用go语言实现数独游戏
例子托管于github example.go package main import ( "./sudoku" ) func main() { //var smap ...
css hover 动画 transition:background-color 0.2s,color 0.2s; 外层套内层，正常是里外层鼠标上来外层有hover，如果就想到里层hover触发外层hover，要用外层position 定义绝对定位，内层的hover跳出外层的div，这样视觉上就是两个单独的div，进行内外层联动。
css hover 动画 transition:background-color 0.2s,color 0.2s; 外层套内层,正常是里外层鼠标上来外层有hover,如果就想到里层hover触发 ...
一段很简单的PHP代码，用于手机拨号
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
超实用的Flask入门基础教程，新手必备！
Flask入门基础教程 Flask简介 Flask是一个轻量级的可定制框架,使用Python语言编写,较其他同类型框架更为灵活.轻便.安全且容易上手.它可以很好地结合MVC模式进行开发,开发人员分工合 ...
shell脚本基础-四种启动方式
1.当前路径启动 ./test.sh 2.绝对路径启动 pwd /data/beijing 'pwd'/test.sh 3.指定解释器执行 sh test.sh bash test.sh 4.shel ...
javaWeb_Css
CSS HTML页面实在太丑了,怎么破?! 第1章 CSS简介 CSS全称为“层叠样式表 (Cascading Style Sheets)”,它主要是用于定义HTML元素(或内容)在浏览器内的显示样式 ...
CentOS7设置环境变量
目录一.环境变量的概念 1.环境变量的含义 2.环境变量的分类 3.Linux环境变量二.常用的环境变量 1.查看环境变量 2.常用的环境变量三.设置环境量 1.系统环境变量 2.用户环境变量 ...
Cisco 综合配置（四）
MSTP+HSRP 模式为实现路由的备用.冗余: VLAN10,20 流量在CO-SW1上为active状态,在CO-SW2 上为standby状态, VLAN30,40 流量在CO-SW1上为st ...
滑动窗口-Substring Search Problem
2018-07-18 11:19:19 一.Minimum Window Substring 问题描述: 问题求解: public String minWindow(String s, String ...

python爬虫两个影院的实例

python爬虫两个影院的实例的更多相关文章

随机推荐

热门专题