/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
                 CopyMiddle: 张俊林

TimeStamp:2012年3 月

在微博环境下,如何自动挖掘某个微博用户的社交圈子或者兴趣圈子是个很基础且重要的问题。如果能够对于某个用户在微博上体现的社交关系进行准确的挖掘,对于很多具体应用来说都有很好的作用,比如可以更好的对用户的兴趣进行挖掘或者能够推荐用户还未关注的社交圈子成员等,或者根据其社交圈子更准确的对用户进行个性化建模,为其它基于用户个性化模型的推荐或者广告推送等提供基础服务。

我们在微博相关研发任务中提出了HipHop算法,旨在通过利用微博用户的互动行为,来自动挖掘出用户的不同社交圈子。在设计算法之初,我们希望圈子挖掘算法能同时满足以下几个条件:

1.    对于某个微博用户A来说,可以挖掘出其所属的多种社交圈子,比如用户既有同事关系圈,也有所属的专业兴趣圈。

2.    同时对于另外一个用户B来说,可能同时属于用户A的不同社交圈子,比如B既是A的大学同学,也是A的某公司同事,那么B应该同时出现在用户A的两个不同兴趣圈里。

3.    不使用用户隐私数据,出于保护用户隐私的目的,我们希望算法只使用用户公开行为和信息,所以HipHop算法只使用了互动关系这种公众完全可见的公开信息。

4.    社交圈可解释,即可以通过简洁的方式描述社交圈子的性质或者特点,目前是通过给每个圈子打上不同的标签来进行区分。

HipHop社交圈挖掘算法就是在以上几个指导原则下设计开发出的,它能够同时满足以上几条约束条件,目前公开的参考文献中很少见到能够同时满足这些条件的相关社交圈挖掘算法。

常见的社交圈挖掘算法

社交圈挖掘是目前社交网络研究中非常典型和热门的研究任务,通常被称为“社群发现“。学术界也陆续提出了很多算法来解决这个问题,大体而言,可以将其分为两大类:”单社群“方法和”多社群“方法。所谓”单社群“方法,就是说网络结构中的某个节点只能隶属于某个社群,不允许出现隶属多个社群的现象。而”多社群“方法则允许用户同时隶属于多个社群。下面分别以GN算法和”最大团结构“作为这两类算法的代表对其思路进行简要介绍。

     GN算法

GN算法是一种非常常用的图结构中社群自动发现算法,最初由Girvan和Newman在2002年提出,因其有效性得到了广泛的使用。

GN算法的基本思想是:在图结构中,首先计算每条边的“介数”,然后从图中删除“介数”最大的边,如此不断循环,一直迭代删除当前“介数”最大的边,最终就形成了发现出的社群。所谓边的“介数”,是指的图中任意两个节点的最短路径中经过这条边的次数。边的“介数”越大,则这条边是连接了两个或者多个社群或者圈子的多余的边的概率越大,所以通过不断删除高“介数”边可以达到分离社群的目的。

GN算法是有效的算法,但是这是一种“单社群”发现方法,就是说,对于图中某个节点,只能属于固定的一个社群,不可能同时属于多个社群,这个与实际应用场景需求是有较大差异的,形成了该算法的局限。

    “最大团结构“算法

“最大团结构”(max clique)是一种比较流行的能够进行“多社群”发现算法,即图中的节点可以同时隶属于多个不同的社群。

“最大团结构”通过对图的拓扑结构进行分析,找到满足“最大团”性质的子图结构,也就是最大的全联通子图,每个“最大团”就是一个发现的社群。

尽管“最大团结构”算法可以发现某个节点属于多个社群,比“单社群”发现方法有更多的实用性和应用场景,但是这个算法有其局限:因为“最大团结构”要求是全联通子图,即子图中任意两个节点都有边连接,这是一种非常强的约束。真实应用的图中往往满足如此强约束的这种图结构很小或者很少,这导致这个算法很多图中的节点无法归入某个社群。

HipHop算法在某个步骤也采取了“最大团结构”的思想,但是通过技术手段放松了这种约束,有效地改进了其效果。

利用HipHop算法发现微博里的社交圈

      Hiphop算法利用微博用户的互动关系来自动挖掘某个用户的不同社交圈子。这里的“互动”是一种总称,具体互动内容包括:转发微博、评论微博和@其它用户等行为,如果用户A和用户B有任意上述提到的行为则可以认为两者有互动关系存在,且根据其频率可以赋予边不同的强度,代表了两个用户的社交亲密程度。

我们之所以使用社交关系来挖掘社交圈,是基于以下的一个基本假设:和某个微博用户进行过交互行为的人群存在不同的小团体,而小团体成员之内有较为密切的互动行为,不同小团体之间成员之间交互行为较少。比如你的大学同学之间在微博上有较多互动行为,但是他们和你的同事之间就很少有交互行为(参考图1)。尽管这只是一种假设,但是实际挖掘效果表明大多数情况下这个假设是成立的。

HipHop算法的技术流程可以划分为顺序进行的三个步骤:

步骤一:从与用户有直接互动的其它用户中寻找“最大团结构”

首先,对于某个微博用户A,所有和用户A在微博上有过直接互动行为的用户形成直接互动集合S。本步骤试图在集合S中找到多个“最大团结构”,也即挖掘多个小团体的核心成员。

对于集合S中的节点来说,可以根据他们相互之间的互动关系构造一个图G,在此基础上去挖掘图G中的“最大团结构”。所谓“团结构”,就是图G中包含的任意全连通子图,比如图G中的三个节点{a,b,c},如果他们之间任意两人都有互动关系存在,则形成了一个三节点的“团结构”。而所谓“最大团结构”,是指对于某个“团结构”T来说,无法在图G中找到任意其它节点n,如果把n纳入T,就形成更大的一个“团结构”。比如上述的三节点团结构,如果存在节点d,这个节点和a、b以及c都有互动关系,那么{a,b,c,d}就形成了一个四节点的“团结构”,而如果找不到节点能够和{a,b,c}都有互动关系,那么{a,b,c}就是一个三节点的“最大团结构”。

图的“团结构”是一个非常强的约束,因为它要求图中任意两个节点都存在互动关系。步骤一找出的某个用户A的“最大团结构”的物理含义是:和用户A有密切关系的那些用户中,有哪些是有密切联系的小团体。

步骤二:“最大团结构”在直接互动用户集合的扩充

步骤一找出了与用户A有过直接互动行为的集合S中形成的“最大团结构”,步骤二在此基础上,在集合S范围内对每个发现的“最大团结构”进行扩充,来发现更多属于某个“最大团结构”的其它用户。具体的扩充方式如下:

对于某个具体的“最大团结构”T,其包含若干用户,首先找到和T中用户有过互动行为,同时又在集合S中的其它用户,我们简称这个集合为U。对于U中的某个用户w,我们需要判断是否应该将其扩充进入“最大团结构”T,目前的判断标准采取如下公式:

假设G是最大团T将用户w融合后形成的新图,公式的分子部分代表新图G中所有节点内部边的权重之和,而分母部分代表图G中所有节点和图G之外的任意节点形成的所有边权重之和。如果Utility(G)函数比未扩充节点w的原图结构T的效用函数Utility(T)值大,那么我们认为将节点w扩充进入T是合理的,否则不应该将节点w扩充进入图T中。有了这个函数作为标准,我们就知道集合U中的用户哪些应该扩充进入团结构T中,而哪些应该被舍弃。

之所以采取上述公式作为判断标准,是基于之前提到的如下假设:一个社交圈子成员之间互动关系密切,而圈子成员与圈子外成员之间的互动关系不是很密切。上述公式就是这个基本假设的具体体现,分子部分是衡量圈子成员内部的关系紧密程度,而分母衡量的是圈子成员和圈子外成员的关系紧密程度。从公式可以看出,如果圈子成员之间互动越多,而与圈子外成员互动越少,则效用函数越大,也就是说这个圈子越紧密。

如果对于集合U中所有后续扩充用户都采用上述公式进行判断取舍,来做出是否将这个用户扩充进入“最大团结构”T的决策,则就完成了T的一轮扩充,形成了扩充后的新集合T’。对于T’来说,仍然可以采取上述扩充方法不断外扩。“最大团结构”T外扩的终止条件是:如果对于集合U中所有用户,做出的决策都是不进行扩充,那么此时已经达到了扩充的边界,可以停止外扩,形成最终扩充结果。

如果对步骤一中发现的所有“最大团结构”都采取上述方式外扩,即完成了步骤二的任务。从上述过程可以看出,步骤二是对步骤一的扩充阶段。

步骤三:与用户有“二级互动“关系的其它用户集合中的扩充

所谓用户A的“二级互动”用户集合,是指与用户A有直接互动的用户形成集合S,而与集合S中任意一个用户有互动行为的所有其他用户形成了二级互动集合。

对于步骤二的结果来说,完成了对“最大团结构”的扩充,在直接互动用户集合中找到了不同的社交圈子。步骤三首先将直接互动用户集合S扩充为二级互动用户集合,然后采取和步骤二类似的方法继续向外扩充,这样就形成了HipHop算法的最终结果,形成了用户A的多个不同社交圈子,而任意一个其他用户B可能同时属于用户A的多个社交圈。

通过上述三个步骤,就可以通过微博互动关系自动挖掘出某个用户的社交关系圈子。对于微博的海量用户而言,只要对每个用户都依次采取上述步骤,即可获得最终结果,这可以采取大规模并行计算来快速实现。

下面我们用一个具体例子来说明HipHop算法。以“李开复”作为示例,说明上述步骤及其中间输出结果。

对于步骤一,首先找到与“李开复”有过互动的微博成员形成集合S,之后在集合S里采用发现“最大团结构”的方法,可以得到最初的5个“最大团结构”:

最大团1(创新工场有关):王肇辉/蔡学镛/周源/张亮/徐磊Ryan

最大团2(互联网媒体相关):keso已被XX/牛立雄/金磊

最大团3(财经投资相关):徐小平/爱国者冯军/潘石屹/杨澜

最大团4(创新工场有关):郎春辉/罗川/袁聪iw/应用汇

最大团5(企业家相关):曹国伟/江南春/吴征bruno/蒋锡培

经过步骤二,对原始的5个最大团在集合S中进行扩充,每个原始的最大团都有不同程度的扩大,其新扩充进的成员范围在3-10个不等。

步骤三首先将直接互动成员集合S扩充为二级互动成员集合,即将与集合S中成员有过互动行为的微博用户形成新的更大范围的集合。通过上文讲述的扩充方式后,5个最初的“最大团结构”获得了进一步的扩充,最后形成了包含48个到150个成员的不同社交圈子。

     经过人工评估,HipHop算法挖掘出的社交圈有较强的社交内聚度,同时也满足算法设计之初设定的几个约束条件,所以具有很强的实用性。同时,经过大量实例的分析,我们发现在微博中形成的社交关系和IM形成的社交关系有较大的差异,大部分用户的微博中的社交关系以同事关系和兴趣关系为主,而IM中形成的社交关系则以亲友、同事、同学等线下关系为主,这可能反映了社会化媒体和传统社交网络的区别所在。

HipHop算法:利用微博互动关系挖掘社交圈的更多相关文章

  1. 如何利用微博客进行seo赚钱营销

    http://www.wocaoseo.com/thread-130-1-1.html       我们知道做SEO就是用人的思维来模仿搜索引擎的习惯,尽量适应seo的规则,并按照搜索引擎的规则和习惯 ...

  2. 微博转发关系采集,可拓展关键字采集,评论采集(Java版)

    微博模拟登录获取cookis,配置采集深度,采集一条微博转发关系页面,同时解析页面,生成一条微博的传播图,数据集可做微博影响力分析和传播分析 gitthub:https://github.com/ch ...

  3. Python与数据库[2] -> 关系对象映射/ORM[5] -> 利用 sqlalchemy 实现关系表查询功能

    利用 sqlalchemy 实现关系表查询功能 下面的例子将完成一个通过关系表进行查询的功能,示例中的数据表均在MySQL中建立,建立过程可以使用 SQL 命令或编写 Python 适配器完成. 示例 ...

  4. 利用python数据分析与挖掘相关资料总结

    小生今年研二,目前主要从事软件工程数据挖掘与分析.之前一直苦于找不到一个从数据预处理.数据分析.数据可视化和软件建模的统一平台.因此,小生辗转反辙学习了java,R语言,python,scala等等. ...

  5. 使用Python-iGraph绘制贴吧/微博好友关系图

    想通过图形化的方式显示社交网络特定用户的好友关系,上网找了一下这方面的图形库有networkx.graphviz等,找了好久我选择了iGraph这个图形库. igraph在Windows下的安装稍微有 ...

  6. 算法-利用队列实现逐行打印杨辉三角形的前n行

    分别打印二项式(a+b)^n展开项的系数,在程序中利用了一个队列,在输出上一行系数时,将下一行的系数预先放入队列中.在各行系数间插入0. void YANGVI(int n){ Queue q(n+) ...

  7. [转]C# WinForm treeview checkbox----递归算法利用

    在平常开发中,treeview的节点显示checkbox,若节点存在几级时,往往希望,选中父节点后,其子节点都要选中,如何实现勒,请看 using System; using System.Colle ...

  8. 静态频繁子图挖掘算法用于动态网络——gSpan算法研究

    摘要 随着信息技术的不断发展,人类可以很容易地收集和储存大量的数据,然而,如何在海量的数据中提取对用户有用的信息逐渐地成为巨大挑战.为了应对这种挑战,数据挖掘技术应运而生,成为了最近一段时期数据科学的 ...

  9. 推文《阿里凑单算法首次公开!基于Graph Embedding的打包购商品挖掘系统解析》笔记

    推文<阿里凑单算法首次公开!基于Graph Embedding的打包购商品挖掘系统解析>笔记 从17年5月份开始接触Graph Embedding,学术论文读了很多,但是一直不清楚这技术是 ...

随机推荐

  1. CKEditor扩展插件:自动排版功能

    CKEditor是新一代的FCKeditor,是一个重新开发的版本.CKEditor是全球最优秀的网页在线文字编辑器之一,因其惊人的性能与可扩展性而广泛的被运用于各大网站. 如果还没接触过的可以看看, ...

  2. mvc of js

    http://alexatnet.com/articles/model-view-controller-mvc-javascript The article demonstrates how to a ...

  3. Silverlight中的拖拽实现的图片上传

    原文 http://blog.csdn.net/dujingjing1230/article/details/5443003 在Silverlight中因为可以直接从系统的文件夹里面拖出来一个文件直接 ...

  4. Ubuntu 14.04 安装桌面

    1.Ctrl+alt+T启动终端或者Ctrl+alt+F1登录字符界面,执行以下命令重新安装Ubuntu unity(Ubuntu基本桌面): sudo apt-get install ubuntu- ...

  5. Tengine笔记2:通过IP、域名、端口实现虚拟主机

    一.通过端口创建虚拟主机 案例:通过端口访问两个不同的页面 将/usr/local/tengine-2.1.0/html/index.html内的内容改为 Welcom to port1 然后在/op ...

  6. 自制证书搭建https服务

    第一步,自制CA证书和Server证书,私钥 自制CA私钥 openssl genrsa -des3 -out ca.key 4096 自制CA证书 openssl req -new -x509 -d ...

  7. ASP.NET State Service

    本文来自:http://www.cnblogs.com/jhxk/articles/1648194.html 这一段就是配置应用程序是如何存储Session信息的了.我们以下的各种操作主要是针对这一段 ...

  8. Swift流程控制之循环语句和判断语句详解

    Swift提供了所有c类语言的控制流结构.包括for和while循环来执行一个任务多次:if和switch语句来执行确定的条件下不同的分支的代码:break和continue关键字能将运行流程转到你代 ...

  9. Swift版音乐播放器(简化版),swift音乐播放器

    这几天闲着也是闲着,学习一下Swift的,于是到开源社区Download了个OC版的音乐播放器,练练手,在这里发扬开源精神, 希望对大家有帮助! 这个DEMO里,使用到了 AudioPlayer(对音 ...

  10. JavaScript input type=file 获取文件大小及类型限制

    <input name="txtName" type="file" id="pic" onchange="loadImage ...