Angel图算法
Angel图算法
[2.0]CommonFriends
计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark常用参数配置,如压缩、序列化、网络等。
[2.0]HyperAnf
估计网络的平均半径。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为 round 值,第二列为 anf 值,其中round = -1对应的 anf 为最终估计值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark 常用参数配置,如压缩、序列化、网络等。
[2.0]LPA
LPA(Label Propagation Algorithm)是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。 由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]EffectiveSize
EffectiveSize 是由结构空洞理论得到的网络度量指标,是 ego-network 中节点的重要衡量指标。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]PageRank
PageRank 是著名的节点排序算法,由 Google 发表。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
- tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
Angel图算法的更多相关文章
- 腾讯 angel 3.0:高效处理模型
腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ...
- 黑科技项目:英雄无敌III Mod <<Fallen Angel>>介绍
英雄无敌三简介(Heroes of Might and Magic III) 英3是1999年由New World Computing在Windows平台上开发的回合制策略魔幻游戏,其出版商是3DO. ...
- 基于mapreducer的图算法
作者现就职阿里巴巴集团1688技术部 引言 周末看到一篇不错的文章"Graph Twiddling in a MapReduce world" ,介绍MapReduce下一些图算法 ...
- Sad Angel (悲伤的天使)-Игорь Крутой
悲伤的天使(neyanbhbin) -经典作曲Sad Angel( Печальныйангел)生活是一种连续的影响,每个小人物都有小人物的伟大故事.从开头的情侣,到美丽的丝带,从清洁老伯到卖气球的 ...
- 数据库备份还原工具EMS SQL Angel for SQL Server发布1.3版本
EMS公司,是专门从事企业数据库以及内置于多层次客户服务器结构自动化开发.其EMS SQL Angel for SQL Server工具,便是SQL Servers数据库数据备份还原工具,并且还能使用 ...
- Angel - MemoryDataBlock - angel.task.estimize.sample.number
angel.task.estimize.sample.number val validData = new MemoryDataBlock[LabeledData](isVali) trainData ...
- Angel - 模拟Kafka数据流调试FTRL的方法
Angel - 模拟Kafka数据流调试FTRL的方法 Mac或者Linux版本(Win10的Linux子系统同样适用) 创建一个目录用来安装kafka以及zookeeper等相关软件,比如,新建一个 ...
- Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解
Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel 这是github地址. 我了解的分布式机器学 ...
- 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
随机推荐
- LA2678最短子序列
题意: 给你一个正整数序列,问你在里面找到一个最短的子序列,要求子序列的和大于等于k,输出序列长度. 思路: 这个序列的每个数字都是正整数,那么就比较好想了,我们可以直接枚举终 ...
- FCKeditor编辑器漏洞
目录 FCKeditor asp网页 aspx网页 php网页 jsp网页 FCKeditor FCKeditor是一个功能强大支持所见即所得功能的文本编辑器,可以为用户提供微软office软件一样的 ...
- 0901-生成对抗网络GAN的原理简介
0901-生成对抗网络GAN的原理简介 目录 一.GAN 概述 二.GAN 的网络结构 三.通过一个举例具体化 GAN 四.GAN 的设计细节 pytorch完整教程目录:https://www.cn ...
- Compare the contents of two arrays
✍️Define a methed to compare the contents of two arrays and return the result . 定义一个方法,用于比较两个数组的内容是否 ...
- (10)MySQL进阶篇SQL优化(InnoDB锁-间隙锁)
1.概述 当我们用范围条件而不是相等条件检索数据,并请求共享或排他锁时,InnoDB会给符合条件的已有数据记录的索引项加锁:对于键值在条件范围内但并不存在的记录,叫做"间隙(GAP)&quo ...
- Java解析xml文件遇到特殊符号&会出现异常的解决方案
文/朱季谦 在一次Java解析xml文件的开发过程中,使用SAX解析时,出现了这样一个异常信息: Error on line 60 of document : 对实体 "xxx" ...
- MySQL5.7升级到8.0过程详解
前言: 不知不觉,MySQL8.0已经发布好多个GA小版本了.目前互联网上也有很多关于MySQL8.0的内容了,MySQL8.0版本基本已到稳定期,相信很多小伙伴已经在接触8.0了.本篇文章主要介绍从 ...
- mysql枚举和集合
create table consumer( id int, name char(16), sex enum('male','female','other'), level enum('vip1',' ...
- Envoy:TLS双向认证
环境准备 主机 角色 数量 front-envoy front envoy 1 service envoy 作为内部后端的envoy 2 end 后端应用程序 2 访问 / front-envoy = ...
- [Java] Spring 示例
(一)IoC/DI 功能 配置解析:将配置文件解析为BeanDefinition结构,便于BeansFactory创建对象 对象创建:BeansFactory 根据配置文件通过反射创建对象,所有类对象 ...