C# 爬取图片

网络收集整理爬取图片

引用AngleSharp NuGet 包

using AngleSharp;

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

namespace CoreConsoleApp

{

    public class Program

    {

        public static void Main(string[] args)

        {

            // 设置配置以支持文档加载

            var config = Configuration.Default.WithDefaultLoader();

            int pageIndex = 50;

            for (int i = 1; i < pageIndex; i++)

            {

                // url地址

                //var address = "https://www.qwe.com";

                var address = @"https://www.qwe.com?pageIndex=" + i;

                // 请求网页

                var document = BrowsingContext.New(config).OpenAsync(address);

                // 根据class获取html元素

                var cells = document.Result.QuerySelectorAll(".panel-body li");

                var fileName = (i + " - " + document.Result.Title).Replace("|", "");

                foreach (var item in cells)

                {

                    //var belle = new Belle

                    //{

                    //    Title = item.QuerySelector("img").GetAttribute("title"),

                    //    ImageUrl = item.QuerySelector("img").GetAttribute("src")

                    //};

                    var imageUrl = item.QuerySelector("img").GetAttribute("src");

                    //string str = DateTime.Now.ToString("yyyyMMddHHmmss");

                    string localPath = "D:\\Image\\" + DateTime.Now.ToString("yyyMMdd") + "\\" + fileName;

                    List<string> arr = imageUrl.Split('/').ToList();

                    if (!Directory.Exists(localPath))

                    {

                        // Create the directory it does not exist.

                        Directory.CreateDirectory(localPath);

                    }

                    string filepath = localPath + "\\" + arr.Last();

                    //方法一

                    //Download(imageUrl, filepath);

                    //方法二

                    WebClient mywebclient = new WebClient();

                    mywebclient.DownloadFile(imageUrl, filepath);

                }

            }

            Console.ReadLine();

        }

        /// <summary>

        /// Http方式下载文件

        /// </summary>

        /// <param name="url">http地址</param>

        /// <param name="localfile">本地文件</param>

        /// <returns></returns>

        public static bool Download(string url, string localfile)

        {

            bool flag = false;

            long startPosition = 0; // 上次下载的文件起始位置

            FileStream writeStream; // 写入本地文件流对象

            long remoteFileLength = GetHttpLength(url);// 取得远程文件长度

            System.Console.WriteLine("remoteFileLength=" + remoteFileLength);

            if (remoteFileLength == 745)

            {

                System.Console.WriteLine("远程文件不存在.");

                return false;

            }

            // 判断要下载的文件夹是否存在

            if (File.Exists(localfile))

            {

                writeStream = File.OpenWrite(localfile);             // 存在则打开要下载的文件

                startPosition = writeStream.Length;                  // 获取已经下载的长度

                if (startPosition >= remoteFileLength)

                {

                    System.Console.WriteLine("本地文件长度" + startPosition + "已经大于等于远程文件长度" + remoteFileLength);

                    writeStream.Close();

                    return false;

                }

                else

                {

                    writeStream.Seek(startPosition, SeekOrigin.Current); // 本地文件写入位置定位

                }

            }

            else

            {

                writeStream = new FileStream(localfile, FileMode.Create);// 文件不保存创建一个文件

                startPosition = 0;

            }

            try

            {

                HttpWebRequest myRequest = (HttpWebRequest)HttpWebRequest.Create(url);// 打开网络连接

                if (startPosition > 0)

                {

                    myRequest.AddRange((int)startPosition);// 设置Range值,与上面的writeStream.Seek用意相同,是为了定义远程文件读取位置

                }

                Stream readStream = myRequest.GetResponse().GetResponseStream();// 向服务器请求,获得服务器的回应数据流

                byte[] btArray = new byte[512];// 定义一个字节数据,用来向readStream读取内容和向writeStream写入内容

                int contentSize = readStream.Read(btArray, 0, btArray.Length);// 向远程文件读第一次

                long currPostion = startPosition;

                while (contentSize > 0)// 如果读取长度大于零则继续读

                {

                    currPostion += contentSize;

                    int percent = (int)(currPostion * 100 / remoteFileLength);

                    System.Console.WriteLine("percent=" + percent + "%");

                    writeStream.Write(btArray, 0, contentSize);// 写入本地文件

                    contentSize = readStream.Read(btArray, 0, btArray.Length);// 继续向远程文件读取

                }

                //关闭流

                writeStream.Close();

                readStream.Close();

                flag = true;        //返回true下载成功

            }

            catch (Exception)

            {

                writeStream.Close();

                flag = false;       //返回false下载失败

            }

            return flag;

        }

        // 从文件头得到远程文件的长度

        private static long GetHttpLength(string url)

        {

            long length = 0;

            try

            {

                HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(url);// 打开网络连接

                HttpWebResponse rsp = (HttpWebResponse)req.GetResponse();

                if (rsp.StatusCode == HttpStatusCode.OK)

                {

                    length = rsp.ContentLength;// 从文件头得到远程文件的长度

                }

                rsp.Close();

                return length;

            }

            catch (Exception e)

            {

                return length;

            }

        }

    }

}

C# 爬取图片的更多相关文章

Java jsoup爬取图片
jsoup爬取百度瀑布流图片是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流. 以前有写过用Java进行百度图片的抓取, ...
python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
scrapy爬虫，爬取图片
一.scrapy的安装: 本文基于Anacoda3, Anacoda2和3如何同时安装? 将Anacoda3安装在C:\ProgramData\Anaconda2\envs文件夹中即可. 如何用con ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
孤荷凌寒自学python第八十一天学习爬取图片1
孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...
爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法
一 .scrapy整体框架 1.1 scrapy框架图 1.2 scrapy框架各结构解析 item:保存抓取的内容 spider:定义抓取内容的规则,也是我们主要编辑的文件 pipelines:管道 ...
python网络爬虫之使用scrapy爬取图片
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存 ...
使用Scrapy爬取图片入库,并保存在本地
使用Scrapy爬取图片入库,并保存在本地上篇博客已经简单的介绍了爬取数据流程,现在让我们继续学习scrapy 目标: 爬取爱卡汽车标题,价格以及图片存入数据库,并存图到本地好了不多说,让我们实 ...

随机推荐

Device or resource busy
格式化磁盘显示忙碌,如何解决呢? [root@jp33e503-11-8 ~]# mkfs.xfs /dev/sdc mkfs.xfs: cannot open /dev/sdc: Device or ...
PC端实用正版软件推荐
首先介绍一下背景,我本人是一个软件工程师,所以对电脑上很多软件使用都有要求,这里将个人觉得好用的一些软件分享给大家: 1. Typora 对于长写本地笔记.网络博客的人,对 MarkDown 格式应该 ...
同态加密与 Paillier/RSA
本文作者: wdxtub 本文链接: http://wdxtub.com/flt/flt-03/2020/12/02/ 白话同态加密虽然同态加密即使现在听起来也很陌生,但是其实这个概念来自 1978 ...
Web标准和骨架
Web 标准的好处 1.让Web的发展前景更广阔 2.内容能被更广泛的设备访问 3.更容易被搜寻引擎搜索 4.降低网站流量费用 5.使网站更易于维护 6.提高页面浏览速度 Web 标准构成 Web标准 ...
cmd中删除、添加、修改注册表命令
转自:http://www.jb51.net/article/30586.htm regedit的运行参数 REGEDIT [/L:system] [/R:user] filename1 REGEDI ...
IOS开发之----常用函数和常数--秀清
介绍一下Objective-c常用的函数,常数变量算术函数 [算术函数] 函数名说明 int rand() 随机数生成.(例)srand(time(nil)); //随机数初期化int val = ...
logback1.3.x配置详解与实践
前提当前(2022-02前后)日志框架logback的最新版本1.3.0已经更新到1.3.0-alpha14版本,此版本为非stable版本,相对于最新稳定版1.2.10来说,虽然slf4j-api ...
Oracle 11G 安装详解
oracle官网下载地址:http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html 官网下载 ...
关于git和SVN的介绍和区别
主要对git,svn进行一个简单的介绍. 顺带,我会在后面把我整理的一整套CSS3,PHP,MYSQL的开发的笔记打包放到百度云,有需要可以直接去百度云下载,这样以后你们开发就可以直接翻笔记不用百度搜 ...
Solution -「CF 1056G」Take Metro
\(\mathcal{Description}\) Link. 有 \(n\) 个站台在一个圆环上,顺时针编号 \(1\sim n\),其中 \(1\sim m\) 号站台只能乘坐顺时针转的环 ...

C# 爬取图片

C# 爬取图片的更多相关文章

随机推荐

热门专题