C# 爬取猫眼电影数据

最近做了一个新项目，因为项目需要大量电影数据，猫眼电影又恰好有足够的数据，就上猫眼爬数据了。

1、先分析一下网页地址，发现电影都是被排好序号了，这就很简单了。

2、在分析页面，这次主要爬取黄色框中的内容。在浏览器中按F12检查元素，只要把Div获取出来就算完成了。

下面贴代码：

主函数

 static void Main(string[] args)

         {

             int errorCount = ;//计算爬取失败的次数

             int count = ;//结束范围

             for (int i = ; i <= count; i++)

             {

                 Thread.Sleep();//每隔两秒爬取一次，不要给服务器压力

                 try

                 {

                     HtmlWeb web = new HtmlWeb();

                     //https://maoyan.com/films/1

                     web.OverrideEncoding = Encoding.UTF8;

                     HtmlDocument doc = web.Load($"https://maoyan.com/films/{i}");//把url中的1替换为i

                     HtmlDocument htmlDoc = new HtmlDocument();

                     string url = $"https://maoyan.com/films/{i}";

                     //获取电影名

                     HtmlNode MovieTitle = doc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");//分析页面结构后得到的div

                     if (MovieTitle == null)//如果是null，那么表明进入验证页面了，执行第二种方法

                     {

                         string urlResponse = URLRequest(url);

                         htmlDoc.LoadHtml(urlResponse);

                         MovieTitle = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='movie-brief-container']/h1[@class='name']");

                         if (MovieTitle == null)//如果是null，那么表明进入验证页面了。（第二种方法也失效）

                         {

 　　　　　　　　　　　　　　　　　　//此处需要进入浏览器手动完成验证 或者 自行分析验证页面实现自动验证

                         }

                     }

                     string title = MovieTitle.InnerText;

                     //Console.WriteLine(MovieTitle.InnerText);

                     //获取电影海报

                     HtmlNode MovieImgSrc = doc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");

                     if (MovieImgSrc == null)

                     {

                         MovieImgSrc = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='celeInfo-left']/div[@class='avatar-shadow']/img[@class='avatar']");

                     }

                     //Console.WriteLine(MovieImgSrc.GetAttributeValue("src", ""));

                     string imgurl = MovieImgSrc.GetAttributeValue("src", "");

                     //电影类型

                     HtmlNodeCollection MovieTypes = doc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");

                     if (MovieTypes == null)

                     {

                         MovieTypes = htmlDoc.DocumentNode.SelectNodes("//div[@class='movie-brief-container']/ul/li[@class='ellipsis']");

                     }

                     string types = "", artime = "", releasetime = "";

                     foreach (var item in MovieTypes[].ChildNodes)

                     {

                         if (item.InnerText.Trim() != "")

                         {

                             //Console.WriteLine(item.InnerText.Trim());

                             types += item.InnerText.Trim() + "-";

                         }

                     }

                     artime = MovieTypes[].InnerText;

                     releasetime = MovieTypes[].InnerText;

                     //Console.WriteLine(MovieTypes[i].InnerText);

                     //剧情简介

                     string intro = "";

                     HtmlNode introduction = doc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");

                     if (introduction == null)

                     {

                         introduction = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='mod-content']/span[@class='dra']");

                     }

                     //Console.WriteLine(introduction.InnerText);

                     intro = introduction.InnerText;

                     //Console.WriteLine(i);

                     using (FileStream fs = new FileStream(@"d:\Sql.txt", FileMode.Append, FileAccess.Write))

                     {

                         fs.Lock(, fs.Length);

                         StreamWriter sw = new StreamWriter(fs);

                         sw.WriteLine($"INSERT INTO Movies VALUES('{title}','{imgurl}','{types}','{artime}','{releasetime}','{intro.Trim()}');");

                         fs.Unlock(, fs.Length);//一定要用在Flush()方法以前，否则抛出异常。

                         sw.Flush();

                     }

                 }

                 catch (Exception ex)

                 {

                     errorCount++;

                     Console.WriteLine(ex);

                 }

             }

             Console.WriteLine($"结束 成功:{count - errorCount}条,失败：{errorCount}条");

             Console.ReadLine();

         }

URLRequest方法

 static string URLRequest(string url)

         {

             // 准备请求

             HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

             // 设置GET方法

             request.Method = "GET";

             request.Timeout = ; //60 second timeout

             request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36";

             string responseContent = null;

             // 获取 Response

             using (WebResponse response = request.GetResponse())

             {

                 using (Stream stream = response.GetResponseStream())

                 {

                     // 读取流

                     using (StreamReader streamreader = new StreamReader(stream))

                     {

                         responseContent = streamreader.ReadToEnd();

                     }

                 }

             }

             return (responseContent);

         }

先进入for循环，到时候把url中的 1 替换为 i ，就可以实现自动爬取所有电影了。

解析html代码我用的是第三方类库 HtmlAgilityPack，大家可以在Nuget中搜索到。

我将爬取的数据转换为Sql语句了，存在D盘根目录下 Sql.txt。

下面是结果

一共爬了200条数据

大家注意一下，程序报错如果是空异常，那么表明没有获取到相应的div，没有获取到相应的div就表明猫眼让你跳转到验证中心页面了，你要进入到浏览器验证一下，或者更换IP访问。

最后再提醒一下大家，要慢慢的获取数据，不然会403。

C# 爬取猫眼电影数据的更多相关文章

python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访 ...

随机推荐

Cookie 与 SessionID 的本质
当用户首次访问服务器的时候,服务器为每个用户单独创建一个 Session 对象,并分配一个新的 SessionID,此时 SessionID 通过 Cookie 保存在用户端. 当用户再次访问服务器的 ...
Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比pytho ...
CentOS7.5搭建Hive2.3.3
一 Hive的下载软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是:apache-hive-2.3.3-bin.t ...
os.remove() 删除文件
概述 os.remove() 方法用于删除指定路径的文件.如果指定的路径是一个目录,将抛出OSError. 在Unix, Windows中有效语法 remove()方法语法格式如下: os.remo ...
python获取本地时间戳
import time print(time.time())#获当前时间的时间戳 print(time.localtime())#获取本地时间 print(time.strftime('%Y-%m-% ...
Arduino控制超声波检测与0.96OLED及串口显示
Arduino控制超声波检测与0.96OLED及串口显示代码使用库共享(包括超声波检测与U8glib): 使用元件: 0.96寸 12864 I2C OLED 128x64规格超声波检测模块湿度模 ...
Python实现二分法和黄金分割法
运筹学课上,首先介绍了非线性规划算法中的无约束规划算法.二分法和黄金分割法是属于无约束规划算法的一维搜索法中的代表. 二分法:$$x_{1}^{(k+1)}=\frac{1}{2}(x_{R}^{(k ...
ASP.NET处理管道之防盗链
盗链就是在用户向网站a请求网站资源时,网站a将网站资源的路径填写为b网站资源的地址,用户将直接看到网站a上显示着网站b的资源,从而造成盗链. 要防止盗链,就要用到处理管道中的技术在相应的模块类中: ...
SpringBoot项目jar包启动脚本
startup.bat @echo off set path=X:\xxxxxxx\Java\JDK\jre\bin START "项目名" "%path%\java&q ...
关于Java的jdbc中 DriverManager.registerDriver(driver); //注册驱动有没有必要写的思考
加载数据库驱动的时候,有如下部分代码: /1) 注册驱动程序 //给java.sql.Driver接口的引用赋值 com.mysql.jdbc.Driver 实现类对象// Driver driver ...

C# 爬取猫眼电影数据

C# 爬取猫眼电影数据的更多相关文章

随机推荐

热门专题