绪论

首先写这个文章的时候仅仅花了2个晚上(我是菜鸟所以很慢),自己之前略懂selenium,但是不是很懂csv,这次相当于练手了。

第一章 环境介绍

具体实验环境
系统 Windows10教育版 1709版本
python  3.6.3 
Selenium  3.12.0
bs4  0.0.1
csv  1.0

第二章 过程

这里是一份利用Selenium写成的爬取猫眼电影top100的代码,具体没有什么好讲的,以下我会提几个需要注意的地方。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import csv def get_html(url):
browser.get(url)
return browser.page_source
def content_print(pagesource):
soup = BeautifulSoup(pagesource,"html.parser")
films = soup.find_all("dd")
film_list= []
for film in films:
name =film.find("a")
haha =name["title"]
#print(haha) stars =film.find("p",class_ = "star")
#print(stars.text) date = film.find("p",class_ = "releasetime").string score_1 = film.find("i",class_ = "integer")
score_2 = film.find("i",class_ = "fraction")
score = score_1.text + score_2.text
#print(score)
film_list.append([haha,date,score])
print(film_list)
if __name__ == '__main__':
browser = webdriver.Chrome()
for i in range(0,10):
houzhui = str(10 * i) initial_url = "http://maoyan.com/board/4?offset=" + houzhui
html = get_html(initial_url)
content_print(html)
browser.close()

文件头的部分,“from selenium import webdriver
from selenium.webdriver.common.keys import Keys”这里已经引入了Selenium但是下一句又引入了里面的一些库,这里是为了在效率方面使得整个工程变得变得更加效率,实际上如果不加上下一句,是不能运行的。
    整个代码的结构是先创建一个browser实例,然后遍历10个页面去获取HTML代码,然后把得到的HTML代码返回到content_print中来做进一步的分析,打印以及写入到csv中。最后关闭整个browser。这个过程必须在结构上先验证无误,然后在写具体的代码。
    content_print(pagesource)这里是代码的核心部分。这里的“films = soup.find_all("dd")”dd是每个页面中每一个电影信息所在的地方,我们把他放入到“film_list= []”中,然后分别用“.find”函数以及class选择器来提取我们想要的内容,最后通过“film_list.append([haha,date,score])”放入到这个list中,这里基本及时把10页的电影信息写入到了一个list。

以上是这段代码的具体功能。

接下来我在写入csv的时候写了一段代码,这是对一个页面得到的信息进行写入的代码:

import pandas as pd

infos = [['霸王别姬', '上映时间:1993-01-01(中国香港)', '9.6'], ['肖申克的救赎', '上映时间:1994-10-14(美国)', '9.5'], ['罗马假日', '上映时间:1953-09-02(美国)', '9.1'], ['这个杀手不太冷', '上映时间:1994-09-14(法国)', '9.5'], ['教父', '上映时间:1972-03-24(美国)', '9.3'], ['泰坦尼克号', '上映时间:1998-04-03', '9.5'], ['龙猫', '上映时间:1988-04-16(日本)', '9.2'], ['唐伯虎点秋香', '上映时间:1993-07-01(中国香港)', '9.2'], ['魂断蓝桥', '上映时间:1940-05-17(美国)', '9.2'], ['千与千寻', '上映时间:2001-07-20(日本)', '9.3']]

list = []
for x in range(0,10):
for y in range(0,3):
#print(infos[x][y])
list.append(infos[x][y])
names = []
for name in range(0,30,3):
names.append(list[name])
#print(names) dates = []
for date in range(1,30,3):
dates.append(list[date])
#print(dates) grades = []
for grade in range(2,30,3):
grades.append(list[grade])
#print(grades) dateframe = pd.DataFrame({'Movies':names,'Dates':dates,'Scores':grades})
#输出顺序是怎样的?为什么不是按照我设置的顺序?
dateframe.to_csv('C:/Users/zhengyong/Desktop\/study/csv.csv',index=False,sep=',',encoding = "gbk")前写入的list放入infos,然后新建一个“list = []”,然后利用两个for把list里的list的信息写到一个list里,然后再分别把信息取出来,然后再利用“pd.DataFrame”写到csv中。
前写入的list放入infos,然后新建一个“list = []”,然后利用两个for把list里的list的信息写到一个list里,然后再分别把信息取出来,然后再利用“pd.DataFrame”写到csv中。

这里我引入了pandas进行写入操作。
    先把我们之前写入的list放入infos,然后新建一个“list = []”,然后利用两个for把list里的list的信息写到一个list里,然后再分别把信息取出来,然后再利用“pd.DataFrame”写到csv中。

代码总体而言是比较傻瓜式的,最重要的问题是会在重复写入的时候覆盖之前写入的文件,所以接下来我会做一个新的页面功能(这段代码里的具体参数实在太多,我没找到可以使他不覆盖的方法)。

以下就是改进版本:

import pandas as pd
import csv infos = [['霸王别姬', '上映时间:1993-01-01(中国香港)', '9.6'], ['肖申克的救赎', '上映时间:1994-10-14(美国)', '9.5'], ['罗马假日', '上映时间:1953-09-02(美国)', '9.1'], ['这个杀手不太冷', '上映时间:1994-09-14(法国)', '9.5'], ['教父', '上映时间:1972-03-24(美国)', '9.3'], ['泰坦尼克号', '上映时间:1998-04-03', '9.5'], ['龙猫', '上映时间:1988-04-16(日本)', '9.2'], ['唐伯虎点秋香', '上映时间:1993-07-01(中国香港)', '9.2'], ['魂断蓝桥', '上映时间:1940-05-17(美国)', '9.2'], ['千与千寻', '上映时间:2001-07-20(日本)', '9.3']] list = []
for x in range(0,10):
for y in range(0,3):
#print(infos[x][y])
list.append(infos[x][y])
#print(list) names = []
for n in range(0,30,3):
for i in range(n,n+3):
#print(list[i])
names.append(list[i])
print(names) # csv 写入
#names = ['marry', 26]
# 打开文件,追加a
out = open('C:/Users/zhengyong/Desktop/study/Stu_csv.csv', 'a', newline='') # 设定写入模式
csv_write = csv.writer(out, dialect='excel')
# 写入具体内容
csv_write.writerow(names)
print( str(n/3) + "times to write in the Excel!")
names = []

其中有一段代码我得具体说说,

names = []   #新建一个names[]
for n in range(0,30,3):
for i in range(n,n+3):
#print(list[i]) #每三个一组,把30个遍历完
names.append(list[i]) 添加到names
print(names)

这段代码实际上是把一个list分成了好多个(10)新的list,名字为names,然后再去写入,再继续下一组。。。

第三章 最终成品

'''这个版本能够爬出拥有10页的电影信息的具体信息,
并将这些信息写在Excel中。整个过程是批量化的,输入参数无需干预。''' from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import csv def get_html(url):
browser.get(url)
return browser.page_source
def content_print(pagesource):
soup = BeautifulSoup(pagesource,"html.parser")
films = soup.find_all("dd")
infos= []
for film in films:
name =film.find("a")
haha =name["title"]
#print(haha) stars =film.find("p",class_ = "star")
#print(stars.text) date = film.find("p",class_ = "releasetime").string score_1 = film.find("i",class_ = "integer")
score_2 = film.find("i",class_ = "fraction")
score = score_1.text + score_2.text
#print(score)
infos.append([haha,date,score])
print(infos) list = []
for x in range(0, 10):
for y in range(0, 3):
# print(infos[x][y])
list.append(infos[x][y])
# print(list) names = []
for n in range(0, 30, 3):
for i in range(n, n + 3):
# print(list[i])
names.append(list[i])
print(names) # csv 写入
#names = ['marry', 26] # 打开文件,追加a
out = open('C:/Users/zhengyong/Desktop/study/csv.csv', 'a', newline='') # 设定写入模式
csv_write = csv.writer(out, dialect='excel')
# 写入具体内容
csv_write.writerow(names)
print(str(n / 3) + "times to write in the Excel!")
names = [] if __name__ == '__main__':
browser = webdriver.Chrome()
for i in range(0,10):
houzhui = str(10 * i)
initial_url = "http://maoyan.com/board/4?offset=" + houzhui
html = get_html(initial_url)
content_print(html)
browser.close()

Selenium爬取电影网页写成csv文件的更多相关文章

  1. 使用htmlparse爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  2. 使用htmlparser爬虫技术爬取电影网页的全部下载链接

    昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...

  3. Python:将爬取的网页数据写入Excel文件中

    Python:将爬取的网页数据写入Excel文件中 通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...

  4. Python爬虫小实践:寻找失踪人口,爬取失踪儿童信息并写成csv文件,方便存入数据库

    前两天有人私信我,让我爬这个网站,http://bbs.baobeihuijia.com/forum-191-1.html上的失踪儿童信息,准备根据失踪儿童的失踪时的地理位置来更好的寻找失踪儿童,这种 ...

  5. 使用scrapy爬取的数据保存到CSV文件中,不使用命令

    pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): ...

  6. python将文件写成csv文件保存到本地

    举个例子: import csv import os path='/tmp/' file='test.csv' def generate_csv(path,file): if not os.path. ...

  7. scrapy框架 + selenium 爬取豆瓣电影top250......

    废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...

  8. 爬虫系列(十三) 用selenium爬取京东商品

    这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析 原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...

  9. Python+Selenium爬取动态加载页面(1)

    注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

随机推荐

  1. zabbix存储history_text

    有一个监控项存储一个目录的所有文件(递归)信息,字符数量比较大,history_str表的value的字段字符数限制为255长度,所以就想存储到history_text表中,在最新数据中一直显示不出新 ...

  2. centos7防火墙设置

    前言 CentOS7 与之前版本在防火墙配置上不同,防火墙从iptables变成了firewalld Centos7默认安装了firewalld,如果没有安装的话,可以使用yum命令进行安装 yum ...

  3. Object is not a function

    如图报了一个这样的错,百度好多都说是函数名和html元素重名的问题.可是这个问题我想我这里是不存在的 可以看到就一个绑定事件,而且id名不是关键字 报错是在$.ajax这一行,索性就把submit-i ...

  4. 使用docker部署SqlServer

    踩了很多坑,来记录一下 首先说sqlserver 1. 安装docker要使用centos 7以上版本,使用centos 6及以下版本会出现各种问题 2. docker CE安装过程 $ sudo y ...

  5. div的默认position值是静态的static

    div的默认position值是静态的static,如果相对父元素使用Position:absolute的话,需要手动在父元素上添加Position.

  6. APPLE-SA-2019-3-25-4 Safari 12.1

    APPLE-SA-2019-3-25-4 Safari 12.1 Safari 12.1 is now available and addresses the following: Safari Re ...

  7. eclipse下classes文件夹无法发布到tomcat的问题--tomcat发布慢的问题

    === 解决eclipse下classes文件夹无法发布到tomcat的问题_Nautilus_新浪博客http://blog.sina.com.cn/s/blog_484d8777010130n5. ...

  8. Json解析数据导致顺序改变问题

    json解析的时候,通常顺序会发生改变,如果我们有保持原有顺序的需求的话可以通过如下方式 1.使用fastJson的Feature.OrderedField JSONObject respJson = ...

  9. oracle利用redo恢复

    oracle媒介恢复(Media Recovery) 官方资料 https://docs.oracle.com/database/121/ADMQS/GUID-CBC5870F-2C9A-4F67-B ...

  10. Oracle 数据文件迁移

    背景 这两天做一个oracle数据库迁移,以前都是用exp.imp来走,这次用到了expdp.impdp,的确有些优势,但同时又想起了只是拷贝数据文件迁移的方式,其实这个方式不常用做迁移,更多用在磁盘 ...