C#爬取微博文字、图片、视频（不使用Cookie）

前两天在网上偶然看到一个大佬OmegaXYZ写的文章，Python爬取微博文字与图片（不使用Cookie）

于是就心血来潮，顺手撸一个C#版本的。

其实原理也很简单，现在网上大多数版本都需要Cookie来获取微博数据。但是微博之前不是出了PWA版本嘛，就是通过这个版本，可以不用Cookie，来顺利获取微博数据。

关于使用Cookie与不使用Cookie的区别，dataabc大佬也有说明，下面是原文引用

对于大部分微博用户，不添加cookie也可以获取其用户信息和大部分微博，不同的微博获取比例不同。以2020年1月2日迪丽热巴的微博为例，
此时她共有1085条微博，在不添加cookie的情况下，可以获取到1026条微博，大约占全部微博的94.%，而在添加cookie后，可以获取全部微博。
其他用户类似，大部分都可以在不添加cookie的情况下获取到90%以上的微博，在添加cookie后可以获取全部微博。
具体原因是，大部分微博内容都可以在移动版匿名获取，少量微博需要用户登录才可以获取，所以这部分微博在不添加cookie时是无法获取的。 
有少部分微博用户，不添加cookie可以获取其微博，无法获取其用户信息。对于这种情况，要想获取其用户信息，是需要cookie的。

dataabc大佬，也是用万能的Python写了两个版本，一个是需要Cookie，一个是不需要Cookie的。

而且使用方法写的非常详细。有需要的可以去Github膜拜。

这里贴一下我亲自运行的结果：

而开头提到OmegaXYZ大佬，也是在他自己的版本上更上一层，给Python代码加上了GUI界面，更适合大众小白用户。

原文地址：python微博爬虫GUI程序

好了，介绍完大佬们写的作品，接下来就说一下我自己的C#版本吧。

由于我在爬虫领域属于纯小白，一窍不通，所以并不懂什么爬虫（Spider）、反爬虫（Anti-Spider）、反反爬虫（Anti-Anti-Spider）。

不过在爬虫与反爬虫的斗争中，爬虫一定会胜利的，因为爬虫会进化为和真实用户一模一样的行为。

接下载我写的代码，是没有加入反反爬虫的，建议一跑起来，就立即终止，或者，加入一个Task.Delay(1000)之类的延时。

不要爬取的太快，容易被微博屏蔽ip！！！

即使被屏蔽也别慌，过一段时间就会恢复。

1. 获取用户的uid，构建基础url

uid即微博用户的唯一标识id，具体如何获取uid，可以查看前面二位大佬写的教程，这并不是本文的重点。

基础url是指我们通过这个，可以获取微博用户的基本信息，以及一个非常重要的字段：containerid

只有通过containerid才可以获取用户发的微博。

一个完整的实例Url：

string strBaseUrl = "https://m.weibo.cn/api/container/getIndex?type=uid&value=1197191492";

2.通过HttpClient获取containerid

通过HttpClient，把strBaseUrl和uid拼接起来，我们就可以得到返回的json数据。

而我们需要的containerid就是在 res?.data?.tabsInfo?.tabs 下面。

            var res = await HttpHelper.GetAsync<UserSummary>(strBaseUrl);

            if(res != null && res?.ok == )

            {

                if(res?.data?.tabsInfo?.tabs != null)

                {

                    foreach(var item in res?.data?.tabsInfo?.tabs)

                        if(item.tab_type == "weibo")

                        {

                            strContainerId = item.containerid;

                            break;

                        }

                }

            }

3. 拼接基础url、containerid、page获取分页微博信息。

拼接上面的参数，一个完整的示例：

https://m.weibo.cn/api/container/getIndex?type=uid&value=1197191492&containerid=1076031197191492&page=1

这里我通过自己的理解区分了三种微博类型：

①包含图片：

判断 home?.data?.cards[j].mblog.pics != null

②包含视频：

判断 home?.data?.cards[j].mblog.page_info != null && home?.data?.cards[j].mblog.page_info.type == "video"

③文字：

不是①和②的

不过应该还有其他的类型，我还没仔细分析。

C#代码：

string strWeiboUrl = strBaseUrl + "&containerid=" + strContainerId + "&page=";

            int i = ;

            while(true)

            {

                var home = await HttpHelper.GetAsync<UserHome>(strWeiboUrl + i.ToString());

                if (home != null && home?.ok ==  && home?.data != null && home?.data?.cards?.Count > )

                {

                    Debug.WriteLine("---第" + i + "页---");

                    for (int j = ; j <= home?.data?.cards.Count - ; j++)

                    {

                        if(home?.data?.cards[j].card_type == )

                        {

                            Debug.WriteLine("第" + (j + ) + "条微博---");

                            Debug.WriteLine("微博原始地址：" + home?.data?.cards[j].scheme);

                            if(home?.data?.cards[j].mblog != null)

                            {

                                Debug.WriteLine("发布日期：" + home?.data?.cards[j].mblog.created_at

                                    + "；转发数：" + home?.data?.cards[j].mblog.reposts_count

                                    + "；评论数：" + home?.data?.cards[j].mblog.comments_count

                                    + "；点赞数：" + home?.data?.cards[j].mblog.attitudes_count);

                                if (!string.IsNullOrEmpty(home?.data?.cards[j].mblog.source))

                                    Debug.WriteLine("来自：" + home?.data?.cards[j].mblog.source);

                                Debug.WriteLine("微博内容：" + home?.data?.cards[j].mblog.text);

                                if(home?.data?.cards[j].mblog.pics != null)

                                {

                                    Debug.WriteLine("微博类型：picture");

                                    foreach (var item in home?.data?.cards[j].mblog.pics)

                                        Debug.WriteLine(item.large.url);

                                }

                                else if(home?.data?.cards[j].mblog.page_info != null && home?.data?.cards[j].mblog.page_info.type == "video")

                                {

                                    Debug.WriteLine("微博类型：" + home?.data?.cards[j].mblog.page_info.type);

                                    Debug.WriteLine(home?.data?.cards[j].mblog.page_info.media_info.mp4_hd_url);

                                }

                                else

                                {

                                    Debug.WriteLine("微博类型：text");

                                }

                                //转发的还是原创的

                                if(home?.data?.cards[j].mblog.retweeted_status == null)

                                {

                                    Debug.WriteLine("原创的微博");

                                }

                                else

                                {

                                    Debug.WriteLine("转发的微博");

                                    Debug.WriteLine("原文作者：" + home?.data?.cards[j].mblog.retweeted_status.user.screen_name);

                                    Debug.WriteLine("原文内容：" + home?.data?.cards[j].mblog.retweeted_status.text);

                                }

                            }

                            Debug.WriteLine("");

                        }

                    }

                    i++;

                    Debug.WriteLine("");

                    Debug.WriteLine("");

                    Debug.WriteLine("");

                }

                else

                    break;

            }

4. 最终效果

运行后，记得赶快停掉，别爬太多数据，容易被封。

后续我会研究如使用反反爬虫机制，防止被封。

C#爬取微博文字、图片、视频（不使用Cookie）的更多相关文章

爬虫---爬取b站小视频
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
用WebCollector爬取站点的图片
用WebCollector爬取整站图片,仅仅须要遍历整站页面.然后将URL为.jpg.gif的页面(文件)保存到本地就可以. 比如我们爬取一个美食站点,获取里面全部的图片: import cn.edu ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python-王者荣耀自动刷金币+爬取英雄信息+图片
前提:本文主要功能是 1.用python代刷王者荣耀金币 2.爬取英雄信息 3.爬取王者荣耀图片之类的. (全部免费附加源代码) 思路:第一个功能是在基于去年自动刷跳一跳python代码上面弄的,思路 ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

随机推荐

LeetCode No.100,101,102
No.100 IsSameTree 相同的树题目给定两个二叉树,编写一个函数来检验它们是否相同. 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的. 示例输入: 1 1 / \ ...
吴裕雄--天生自然 HADOOP大数据分布式处理：CenterOS 7 多台物理机、虚拟机相互桥连接ping通，并且能够成功连接外网
选择用于桥接模式下的虚拟交换机,并且要选择对应的有线或者无线的网卡,如果主机是插网线联网的,那就选择有线网卡,如果主机是连无线网络的就选择无线网卡.Realtek PCIe GBE Family Co ...
OpenCVSharp介绍
OpenCvSharp 是一个OpenCV的.Net wrapper,应用最新的OpenCV库开发,使用习惯比EmguCV更接近原始的OpenCV,有详细的使用样例供参考.该库采用LGPL发行,对商业 ...
CF-558：部分题目总结
题目链接:http://codeforces.com/contest/1163 A .Eating Soup sol:在n / 2.n - m.m三个数中取最小值,结果受这三个值限制.但是m == 0 ...
deeplearning.ai 构建机器学习项目 Week 1 机器学习策略 I
这门课是讲一些分析机器学习问题的方法,如何更快速高效的优化机器学习系统,以及NG自己的工程经验和教训. 1. 正交化(Othogonalization) 设计机器学习系统时需要面对一个问题是:可以尝试 ...
SpringCloud快速搭建
1.SpringCloud 为开发人员提供了快速构建分布式系统的一些工具,包括配置管理.服务发现.断路器.路由.负载均衡.微代理.事件总线.全局锁.决策竞选.分布式会话等等.它运行环境简单,可以在开发 ...
fedoar29配置漏洞平台webgoat
fedoar29配置漏洞平台webgoat 该环境基于java环境,故需要配置相应的java版本查看java版本 1 java -version 结果如下: 123 openjdk version ...
MOOC（7）- case依赖、读取json配置文件进行多个接口请求-完整的测试类，含依赖测试（15）
ddt.依赖测试.断言.测试数据写回 # -*- coding: utf-8 -*- # @Time : 2020/2/12 23:07 # @File : test_class_15.py # @A ...
linux基本指令梳理
com.mysql.jdbc.exceptions.jdbc4.MySQLDataException: '2.34435678977654336E17' in column '3' is outside valid range for the datatype INTEGER.
### Error querying database. Cause: java.lang.reflect.UndeclaredThrowableException### The error may ...

C#爬取微博文字、图片、视频（不使用Cookie）

C#爬取微博文字、图片、视频（不使用Cookie）的更多相关文章

随机推荐

热门专题