我的第一个网络爬虫 C#版福利程序员专车

最近在自觉python，看到了知乎上一篇文章（https://www.zhihu.com/question/20799742），在福利网上爬视频。。。

由是我就开始跟着做了，但答主给的例子是基于python2.x的，而我开始学的是3.x，把print用法改了以后还是有很多模块导入不了，新手又不知道该怎么解决。

于是，为了学（shang）习(che)，我就把其中的一段代码用C#写了一次。在加了一些延时的情况下，一会儿硬盘就被占用了3个多g了。。。同学们，要注意身体啊

下面贴出代码。。代码中故意留了几个bug，避免非程序员上车

class Program

    {

        static void Main(string[] args)

        {

            var baseString = "http://w*w.46ek.c*m/view/{0}.html";

            Regex regex = new Regex(@"http://m4.26ts.com/[.0-9-a-zA-Z]*.mp4");

            WebClient wc = new WebClient();

            uint startIndex = ReadStartIndex();

            uint loop = ReadLoopLen();

            for (int i = ; i < lop; i++)

            {

                var subUrl = string.Format(baseString, startIndex + i);

                WebRequest wReq = System.Net.WebRequest.Create(subUrl)

                try

                {

                    WebResponse wResp = wReq.GetResponse();

                    Stream respStream = wResp.GetResponseStream();

                    using (StreamReader reader = new StreamReader(respStream, Encoding.GetEncoding("GB18030")))

                    {

                        var htmlString = reader.ReadToEnd();

                        Match m = regex.Match(htmlString);

                        if (m.Success)

                        {

                            DownloadFile(wc, m.Value, string.Format("{0}.mp4", startIndex + i));

                        }

                    }

                }

                catch (Exception exc)

                {

                    Console.WriteLine("Error : {0}", exc.Message);

                }

                Thread.Sleep();

            }

        }

        private static uint ReadStartIndex()

        {

            while (true)

            {

                Console.Write("Set start index :");

                string line = Console.ReadLine();

                uint index = ;

                if (UInt32.TryParse(line, out index))

                {

                    Console.WriteLine("Start index setted : "+ index);

                    return index;

                }

                Thread.Sleep();

            }

        }

        private static uint ReadLoopLen()

        {

            while (true)

            {

                Console.Write("Set loop len :");

                string line = Console.ReadLine();

                uint index = ;

                if (UInt32.TryParse(line, out index))

                {

                    Console.WriteLine("Loop len setted : " + index);

                    return index;

                }

                Thread.Sleep();

            }

        }

        private static void DownloadFile(WebClient wc, string url, string localname)

        {

            Console.WriteLine("Downloading file {1} to {2}", url, localname);

            wc.DownloadFile(url, localname);

            Console.WriteLine("File {0} download completed!", localname);

        }

我的第一个网络爬虫 C#版福利程序员专车的更多相关文章

用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫
[网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫广东职业技术学院欧浩源 2017-10-14 1.引言在数据量爆发式增长的大数据时代,网络与用户的沟 ...
使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影
本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...
《用Python写爬虫》学习笔记（二）编写第一个网络爬虫
1.首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2.其次, ...
Delphi-网络编程-第一个网络方面作品(UDP聊天程序)
其实这不算是一个聊天程序,因为还不能实现双方互发信息,只有一方能发信息,呵呵我以后再改进吧.... 服务端代码: unit Unit1; interface uses Windows, ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
【Python开发】【神经网络与深度学习】网络爬虫之python实现
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...
[Python]网络爬虫（一）：抓取网页的含义和URL基本构成
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个 ...

随机推荐

常用特殊符号的HTML代码(HTML字符实体)
适当使用实体,对页面开发有相当大的帮助. 自己收集的一些常用的以实体代替与HTML语法相同的字符,避免浏览解析错误. 常用HTML字符实体(建议使用实体): 字符名称实体名实体数 • 圆点 ...
dede DedeTag Engine Create File False
1.在织梦后台更新文档操作时出现DedeTag Engine Create File False 解决方案: 在织梦目录include/dedetag.class.php下搜索DedeTag En ...
C盘满了如何清理
一.C:\inetpub\logs\LogFiles\ 中的日志文件可以全部删除二.C盘上右键>属性>磁盘清理和系统磁盘清理三.百度下载:魔方清理大师>逐项清理四.卸载较大的不常 ...
cvc-complex-type.2.4.a: Invalid content was found starting with element 'init-param'.
笔者最近学习一些spring mvc,在复制别人代码的时候报这个错.报错来源web.xml,原因是不符合xsd对xml的约束源文件 <?xml version="1.0" ...
轻松学SQL Server数据库
轻松学SQL Server数据库pdf 下载地址:网盘下载目录: 第1章数据库与SQL Server 2008 11.1 数据库基础 21.1.1 数据库的概念 21.1.2 数据库模型 2 ...
ocilib初体验
#ocilib下载 http://sourceforge.net/projects/orclib/files/ #安装 tar -zxvf ocilib-3.9.3-gnu.tar.gz ./conf ...
Spark实践 -- 性能优化基础
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表 ...
Yii框架请求
$request = Yii::$app->request; $get = $request->get(); // 等价于: $get = $_GET; $id = $request-&g ...
hdu-1058（动态规划）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1058 题意:求只由2,3,5,7的乘积组成的数,输出格式见output 思路:开始想打表,后来打表超时 ...
python 按行读取判断是否为空
for line in fr.readlines(): try: # print(len(line)) if(len(line)==1): continue else: fw.write(matche ...

我的第一个网络爬虫 C#版 福利 程序员专车

我的第一个网络爬虫 C#版 福利 程序员专车的更多相关文章

随机推荐

热门专题

我的第一个网络爬虫 C#版福利程序员专车

我的第一个网络爬虫 C#版福利程序员专车的更多相关文章