论文信息

论文标题:Data Fusion Oriented Graph Convolution Network Model for Rumor Detection
论文作者:Erxue Min, Yu Rong, Yatao Bian, Tingyang Xu, Peilin Zhao, Junzhou Huang,Sophia Ananiadou
论文来源:2020,IEEE Transactions on Network and Service Management
论文地址:download 
论文代码:download

1 Introduction

  本文不仅考虑了用户的基本信息和文本内容等静态特征,还考虑了谣言传播关系等动态特征。我们还对特征融合模块和池化模块进行了优化,使模型具有更好的性能。

  本文贡献:

    • Considering the real dataset from social media, we extract static features such as users’ basic information and text contents, as well as dynamic features such as rumor propagation relations, and propose the data fusion method.
    • GCN is introduced into the rumor detection task, which represents the rumor propagation mode. And we propose to select the suitable graph convolution operator to update the node vectors, and improve the feature fusion and pooling module.
    • Experiments based on Sina Weibo dataset validate the performance of the propsed GCN-based model for rumor detection.

2 Main

  整体框架如下:

  

  主要包括如下四个模块:

    1. the feature extraction module
    2. the feature fusion module
    3. the graph convolution module
    4. the pooling module
2.1 Feature Extraction Module

2.1.1 Features of User Basic Information

  常见的 User basic information:

  

  加入这些特征的原因:如 gender 为 女的情况下,是谣言的概率更高。

  特征预处理:

  对于 gender 采用 One-hot 向量;

  对于追随者特征,采用的是 Min-Max normalization ,但是这对于普通用户(如拥有 follower 小的用户)用以造成大部分的数值为 $0$,所以本文采用 $\text{log}$ 处理,如下:

    $x^{*}=\left\{\begin{array}{ll}\frac{\log x-\log x_{\min }}{\log x_{\max }-\log x_{\min }}  & x>0 \\0  & x=0\end{array}\right\} \quad\quad\quad(2)$

  其中,$x$ 代表归一化前的追随者数量,$x^{*} $ 表示标准化值,$x_{\min }$ 和 $x_{\max }$ 表示中的最小和最大追随者数量。

2.1.2 User Similarity Feature

  考虑用户相似性,首先构造一个 user-event matrix $M$,其中 User 有 $N_{1}$ 个,event 有 $N_{2}$ 个,所以 $M \in N_{1} \times N_{2}$ 。可以预见的是 $M$ 是一个稀疏矩阵,所以本文采用 SVD 分解:

    $A=U \Sigma V^{T}\quad\quad\quad(3)$

  其中 $A$ 为需要分解的矩阵,$U$ 为左奇异值矩阵,$\Sigma$ 为对角矩阵,对角元素为奇异值,$V$ 为右奇异值矩阵。根据奇异值分解在推荐系统中的应用思想,我们可以取前 $N$ 个奇异值,计算 $\Sigma$ 与 $U$ 之间的点积,得到用户的向量表示,从而实现降维的目的。最后,每个用户都将有一个 $N$ 维的向量表示。两个用户向量之间的距离越近,它们共同参与的事件的数量就越多。基于同样的思想,还可以构建 users-users 之间的矩阵,矩阵元素表示两个用户都参与的事件的数量。然后使用相同的方法为用户生成另一组向量特征,并将基于用户-事件矩阵分解为用户相似性特征的向量相结合。

2.1.3 Representation of Text Content

  使用  $BERT_{base}$ Chinese model 提取文本表示。

2.1.4 Feature Fusion Module

  直接拼接特征会导致训练不稳定,在 Fig. 3 ,$x \in R^{N \times D_{1}}$ 和 $x^{\prime} \in R^{N \times D_{2}}$ 代表 两个不同的特征向量, $N$ 代表节点的数量,$D_{1}$  和 $D_{2}$ 代表节点的维度。首先将上述特征放入一个两层 的 MLP 模块,然后执行 BN ,

    $\begin{array}{l}\mu \leftarrow \frac{1}{m} \sum\limits_{i=0}^{m} h_{i} \\\sigma^{2} \leftarrow \frac{1}{m} \sum\limits_{i=0}^{m}\left(h_{i}-\mu\right)^{2} \\\hat{h}_{l} \leftarrow \frac{h_{i}-\mu}{\sqrt{\sigma^{2}+\varepsilon}} \\w_{i} \leftarrow \gamma \hat{h}_{i}+\beta\end{array}$

  其中,$\gamma$ 和 $\beta$ 是可学习参数。

  最后再执行 concat 。

2.1.5 Graph Convolution Module

  

  GCN 可以编码局部图的结构和节点特征。其正向传播公式如下:

    $H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)  \quad\quad\quad(8)$

   由于 GCN 存在无法识别 multiset 的情况, 所以本文使用 GIN backbone :

    $w_{v}^{k}=N N^{k}\left(\left(1+\varepsilon^{k}\right) \cdot w_{v}^{k-1}+\sum\limits _{u \in N(v)} w_{u}^{k-1}\right)$

  最后,将通过 GIN 生成的节点向量放入一个 $3$ 层的全连接网络,并加入残差结构:
    $\widetilde{w}=w+F(w)$

2.1.6 Pooling Module

  常见的池化操作包括 average pooling 和 maximum pooling,分别如 $\text{Eq.11}$ $\text{Eq.12}$ 所示:

    $\begin{array}{l}h_{G}=\frac{1}{m} \sum\limits _{i=0}^{m} \widetilde{w_{i}} \\h_{G}=\max \left(\widetilde{w_{0}}, \widetilde{w_{1}}, \ldots, \widetilde{w_{m}}\right)\end{array}$

  平均池化是为了获得图中所有节点的平均向量作为图向量,最大池化是选择此维度中所有节点的最大值作为每个维度的输出。

  Note:一种新的池化方案,先将节点的表示向量按值降序排列后,选择顶部的 $k$ 个节点,拼接 $k$ 节点向量后,采用一维卷积法进行特征压缩,压缩后的向量为最终的图表示。

  本文采取的池化过程:将GIN 每层的输入进行concat ,然后使用 Note 中的池化策略。

    $h_{G}=\operatorname{Pooling}\left(\text { Concat }\left(\left\{\widetilde{w_{v}^{k}} \mid k=0,1, \ldots, K\right\}\right) \mid v \in V\right)$

  最后使用 $h_{G}$ 进行分类:
    $\hat{y}=\operatorname{softmax}\left(F C\left(h_{G}\right)\right)$

3 Experiment

Dataset

  

Results

  

谣言检测()《Data Fusion Oriented Graph Convolution Network Model for Rumor Detection》的更多相关文章

  1. 谣言检测——《MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection》

    论文信息 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection论文作者:Jiaqi Zheng, ...

  2. 论文解读(FedGAT)《Federated Graph Attention Network for Rumor Detection》

    论文信息 论文标题:Federated Graph Attention Network for Rumor Detection论文作者:Huidong Wang, Chuanzheng Bai, Ji ...

  3. 谣言检测(ClaHi-GAT)《Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks》

    论文信息 论文标题:Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks论文作者:Erx ...

  4. 谣言检测(PSIN)——《Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media》

    论文信息 论文标题:Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media论 ...

  5. 谣言检测()——《Debunking Rumors on Twitter with Tree Transformer》

    论文信息 论文标题:Debunking Rumors on Twitter with Tree Transformer论文作者:Jing Ma.Wei Gao论文来源:2020,COLING论文地址: ...

  6. 谣言检测(PLAN)——《Interpretable Rumor Detection in Microblogs by Attending to User Interactions》

    论文信息 论文标题:Interpretable Rumor Detection in Microblogs by Attending to User Interactions论文作者:Ling Min ...

  7. 谣言检测(RDEA)《Rumor Detection on Social Media with Event Augmentations》

    论文信息 论文标题:Rumor Detection on Social Media with Event Augmentations论文作者:Zhenyu He, Ce Li, Fan Zhou, Y ...

  8. 谣言检测()《Rumor Detection with Self-supervised Learning on Texts and Social Graph》

    论文信息 论文标题:Rumor Detection with Self-supervised Learning on Texts and Social Graph论文作者:Yuan Gao, Xian ...

  9. 目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

    目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Te ...

  10. 谣言检测——(PSA)《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

    论文信息 论文标题:Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks论文作者:Jiayin ...

随机推荐

  1. 2536-springsecurity系列--关于session管理1

    版本信息 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring ...

  2. 【原创】Python 懂车帝口碑爬虫

    本文所有教程及源码.软件仅为技术研究.不涉及计算机信息系统功能的删除.修改.增加.干扰,更不会影响计算机信息系统的正常运行.不得将代码用于非法用途,如侵立删! 懂车帝综合口碑 需求 操作环境 win1 ...

  3. 倒计时2日!基于 Apache DolphinScheduler&TiDB 的交叉开发实践,从编写到调度让你大幅提升效率

    当大数据挖掘成为企业赖以生存.发展乃至转型的生命,如何找到一款好软件帮助企业满足需求,成为了许多大数据工程师困扰的问题.但在当下高速发展的大数据领域,光是一款好软件似乎都不足以满足所有场景业务需求,许 ...

  4. Python带我起飞——入门、进阶、商业实战_ 入门版电子书籍分享,

    Python带我起飞--入门.进阶.商业实战_ 免费下载地址 内容简介 · · · · · · <Python带我起飞--入门.进阶.商业实战>针对Python 3.5 以上版本,采用&q ...

  5. MySQL查询关键数据方法

    MySQL查询关键数据方法 操作表的SQL语句补充 1.修改表名 alter table 表名 reame 新表名: 2.新增字段名 alter table 表名 add 字段名 字段类型(数字) 约 ...

  6. linux 的文件权限案列

    需求: 技术部门人员可以相互查看,但不能删除和修改别人的文件,其他部门人员不能查看,但领导组可以且只能查看. 设计: 技术部: 组 jishu ; 人员 js1, js2 领导:组 lingd ; 人 ...

  7. Python自学教程7:字典类型有什么用

    字典是Python中的一个重要操作,如果字典玩得顺,很多其他的数据类型就可以一通百通. Python字典的定义 字典使用一对大括号进行定义,键值对之间使用逗号隔开,键和值使用冒号分隔. 键必须是不可变 ...

  8. Taurus.MVC 微服务框架 入门开发教程:项目部署:6、微服务应用程序Docker部署实现多开。

    系列目录: 本系列分为项目集成.项目部署.架构演进三个方向,后续会根据情况调整文章目录. 开源地址:https://github.com/cyq1162/Taurus.MVC 本系列第一篇:Tauru ...

  9. java中的字符流知识点总结

    java中字符流 字符流:对文本的读取,速度比字节流快 常见的字符流:Reader 和 Writer Reader是InputStreamReader的父类,InputStreamReader是Fil ...

  10. 第五十三篇:Vue安装Element ui

    好家伙,之前写的一篇过时了,用不了了,更新一波 (已新建一个vue项目) 1. 在项目目录下执行:npm i element-ui -S 2. 在main.js中写入 import ElementUI ...