爬去知乎百万用户信息之UserTask

本项目github地址：https://github.com/wangqifan/ZhiHu

UserManage是获取用户信息的爬虫模块

public   class UserManage

    {

        private string html;

        private string url_token;

     }

构造函数

用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/following";

 public UserManage(string urltoken)

         {

             url_token = urltoken;

         }

先封装一个获取html页面的方法

 private bool GetHtml()

        {                

            string url="https://www.zhihu.com/people/"+url_token+"/following";

            html = HttpHelp.DownLoadString(url);

            return  !string.IsNullOrEmpty(html);

        }

拿到了html页面，接下来是剥取页面中的JSON，借助HtmlAgilityPack

public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace("&quot;", "'");

                        stringbuilder.Replace("&lt;", "<");

                        stringbuilder.Replace("&gt;", ">");

                        watch.Stop();

                       Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

添加用户的关注列表的链接

 private void  GetUserFlowerandNext(string json)

        {

                 string foollowed = "https://www.zhihu.com/api/v4/members/" + url_token + "/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";

                 string following = "https://www.zhihu.com/api/v4/members/" + url_token + "/followees?include=data%5B%2A%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=20&offset=0";

                 RedisCore.PushIntoList(, "nexturl", following);

                 RedisCore.PushIntoList(, "nexturl", foollowed);

        }

对json数据进一步剥取，只要用户的信息，借助JSON解析工具Newtonsoft.Json

private void  GetUserInformation(string json)

        {

                JObject obj = JObject.Parse(json);

                string xpath = "['" + url_token + "']";

                JToken tocken = obj.SelectToken("['entities']").SelectToken("['users']").SelectToken(xpath);

                RedisCore.PushIntoList(, "User", tocken.ToString());

        }

现在来完成下analyse函数

 public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace(""", "'");

                        stringbuilder.Replace("<", "<");

                        stringbuilder.Replace(">", ">");

                        GetUserInformation(stringbuilder.ToString());

                        GetUserFlowerandNext(stringbuilder.ToString());

                        watch.Stop();

                        Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

        }

UrlTask是从nexturl队列获取用户的关注列表的url，获取关注列表。服务器返回的Json的数据

封装一个对象的序列化和反序列化的类

public   class SerializeHelper

    {

        /// <summary>

        /// 对数据进行序列化

        /// </summary>

        /// <param name="value"></param>

        /// <returns></returns>

        public static string SerializeToString(object value)

        {

            return JsonConvert.SerializeObject(value);

        }

        /// <summary>

        /// 反序列化操作

        /// </summary>

        /// <typeparam name="T"></typeparam>

        /// <param name="str"></param>

        /// <returns></returns>

        public static T DeserializeToObject<T>(string str)

        {

            return JsonConvert.DeserializeObject<T>(str);

        }

}

封装UrlTask类

 public class UrlTask

    {

        private  string url { get; set; }

        private string JSONstring { get; set; }

        public UrlTask(string _url)

        {

            url = _url;

        }

}

添加一个获取资源的方法

 private bool GetHtml()

        {

            JSONstring= HttpHelp.DownLoadString(url);

            Console.WriteLine("Json下载完成");

            return !string.IsNullOrEmpty(JSONstring);

        }
解析json方法

 public  void  Analyse()

        {

            try

            {

                if (GetHtml())

                {

                    Stopwatch watch = new Stopwatch();

                    watch.Start();

                    followerResult result = SerializeHelper.DeserializeToObject<followerResult>(JSONstring);

                     if (!result.paging.is_end)

                     {

                         RedisCore.PushIntoList(1, "nexturl", result.paging.next);

                      }

                    foreach (var item in result.data)

                    {

                         int type=Math.Abs(item.GetHashCode())% 3 + 3;

                         if (RedisCore.InsetIntoHash(type, "urltokenhash", item.url_token, "存在"))

                         {

                             RedisCore.PushIntoList(1, "urltoken", item.url_token);

                         }

                    }

                    watch.Stop();

                    Console.WriteLine("解析json用了{0}毫秒",watch.ElapsedMilliseconds.ToString());

                }

            }

            catch (Exception ex)

            {

                Console.WriteLine(ex.ToString());

            }

   }

解析：如果result.paging.is_end为true，那么这个是用户关注列表的最后一页，那么它的nexturl应该加入队列，负责不要加入，对于后面的用户数组，因为信息不去全，不要了，有了Id前往主页获取详细信息。

模块组合

封装一个一个方法，从队列拿到nextutl，前往用户的关注列表，拿到更多用户ID

  private static void GetNexturl()

        {

            string nexturl = RedisCore.PopFromList(1, "nexturl");

            if (!string.IsNullOrEmpty(nexturl))

            {

                UrlTask task = new UrlTask(nexturl);

                task.Analyse();

            }

        }

封装一个方法，循环从队列获取用户的urltoken（如果队列空了，执行GetNexturl），前往用户主页，获取信息

private static void GetUser(object data)

        {

            while (true)

            {

                string url_token = RedisCore.PopFromList(1, "urltoken");

                Console.WriteLine(url_token);

                if (!string.IsNullOrEmpty(url_token))

                {

                    UserManage manage = new UserManage(url_token);

                    manage.analyse();

                }

                else

                {

                    GetNexturl();

                }

            }

        }

在main函数里面执行这些方法，由于任务量大，采用多线程，线程数视情况而定

for (int i = 0; i < 10; i++)

            {

                ThreadPool.QueueUserWorkItem(GetUser);

            }

添加种子数据，用于刚开始时候队列都是空的，需要添加种子数据

手动添加，在redile-cl.exe敲命令
在main函数中加入

 UserTask task=new UserTask(“某个用户的uRLtoken”);

               task.analyse();

执行一次之后要注释掉，避免重复

爬去知乎百万用户信息之UserTask的更多相关文章

爬取知乎百万信息之UrlTask
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表.服务器返回的Json的数据封装一个对象的序列化和反序列化的类 public class SerializeHelper ...
web scraper——爬取知乎|微博用户数据模板【三】
前言在这里呢,我就只给模板,不写具体的教程啦,具体的可以参考我之前写的博文. https://www.cnblogs.com/wangyang0210/p/10338574.html 模板进入微博 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
爬虫（十六）：scrapy爬取知乎用户信息
一:爬取思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
Python之爬虫（二十） Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...

随机推荐

C#连接SQLite的字符串
一.C#在不同情况下连接SQLite字符串格式 1.Basic(基本的) Data Source=filename;Version=3; 2.Using UTF16(使用UTF16编码) Data S ...
ColorBox常见问题
发现colorbox官方网站的troubleshoot写的比较好,转载一下. 1,flash覆盖colorbox: This is not a ColorBox specific problem, b ...
JAVA-----乱码的处理乱码的解决方法总结
为什么说乱码是程序员无法避免的话题呢?这个首先要从编码机制上说起,大家都是中文和英文的编码格式不是一样,解码也是不一样的!工作遇到各种各样的乱码的解决方法总结一下. 对于Java由于默认的编码方式是 ...
【POJ】3294 Life Forms
后缀数组. /* 3294 */ #include <iostream> #include <sstream> #include <string> #include ...
the field is sometimes used inside synchronized block and sometimes used without synchronization
http://stackoverflow.com/questions/28715625/is-it-safe-to-use-field-inside-and-outside-synchronized- ...
Android开发：向下一个activity传递数据，返回数据给上一个activity
1.向下一个activity传递数据 activity1 Button button=(Button) findViewById(R.id.button1); button.setOnClickLis ...
Eclipse中将classes文件删除之后显示：找不到或无法加载主类解决方案
第一步: 将Eclipse自动编译打开 Project -> Build Automatically 第二步: Eclipse - Project - Clean
SQL、LINQ、Lambda 三种用法
SQL LinqToSql Lambda 1. 查询Student表中的所有记录的Sname.Ssex和Class列.select sname,ssex,class from studentL ...
多线程程序设计学习（13）Active Object pattern
Active Object[接收异步消息的对象] 一:Active Object的参与者--->客户端线程(发起某种操作请求处理)--->代理角色(工头)--->实际执行者(工人)- ...
【转】当程序崩溃的时候怎么办 part-1
转自:http://www.tairan.com/archives/1006 有这样一种情形:当我们正在快乐的致力于我们的app时,并且什么看都是无比顺利,但是突然,坑爹啊,它崩溃了.(悲伤地音乐响起 ...

爬去知乎百万用户信息之UserTask

爬去知乎百万用户信息之UserTask的更多相关文章

随机推荐

热门专题