Angel图算法
Angel图算法
[2.0]CommonFriends
计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark常用参数配置,如压缩、序列化、网络等。
[2.0]HyperAnf
估计网络的平均半径。
输入
- 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为 round 值,第二列为 anf 值,其中round = -1对应的 anf 为最终估计值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
资源参数
- drive 节点资源类型:请选择合适的 drive 节点机型。
- executor 节点资源类型:请选择合适的 executor 节点机型。
- num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
- spark-conf:spark 常用参数配置,如压缩、序列化、网络等。
[2.0]LPA
LPA(Label Propagation Algorithm)是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息。
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。 由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]EffectiveSize
EffectiveSize 是由结构空洞理论得到的网络度量指标,是 ego-network 中节点的重要衡量指标。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
[2.0]PageRank
PageRank 是著名的节点排序算法,由 Google 发表。
输入
- 输入数据路径:输入文件所在路径。
- 输入文件类型:格式包括以下两种:
- csv:csv 文件。
- 输入数据包含 header 信息。
- 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
- text:本文件。
- parquet:列式存储格式 parquet。
输出
- 输出数据路径:输出文件所在路径。
- 输出数据格式:格式包括以下两种:
- csv:csv 文件。
- 输出数据包含 header 信息
- 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
- parquet:列式存储格式 parquet。
算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。
参数说明
- src:源节点列。
- dst:目标节点列。
- numPartition:分区数。
- maxIter:最大迭代次数。
- tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。
资源参数
- num-executors:使用多少个 Spark 节点。
- driver-memory:Spark driver 的内存大小。
- executor-cores:每个 Spark 节点使用多少个 core。
- executor-memory:每个 Spark 节点使用的内存大小。
- spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。
Angel图算法的更多相关文章
- 腾讯 angel 3.0:高效处理模型
腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ...
- 黑科技项目:英雄无敌III Mod <<Fallen Angel>>介绍
英雄无敌三简介(Heroes of Might and Magic III) 英3是1999年由New World Computing在Windows平台上开发的回合制策略魔幻游戏,其出版商是3DO. ...
- 基于mapreducer的图算法
作者现就职阿里巴巴集团1688技术部 引言 周末看到一篇不错的文章"Graph Twiddling in a MapReduce world" ,介绍MapReduce下一些图算法 ...
- Sad Angel (悲伤的天使)-Игорь Крутой
悲伤的天使(neyanbhbin) -经典作曲Sad Angel( Печальныйангел)生活是一种连续的影响,每个小人物都有小人物的伟大故事.从开头的情侣,到美丽的丝带,从清洁老伯到卖气球的 ...
- 数据库备份还原工具EMS SQL Angel for SQL Server发布1.3版本
EMS公司,是专门从事企业数据库以及内置于多层次客户服务器结构自动化开发.其EMS SQL Angel for SQL Server工具,便是SQL Servers数据库数据备份还原工具,并且还能使用 ...
- Angel - MemoryDataBlock - angel.task.estimize.sample.number
angel.task.estimize.sample.number val validData = new MemoryDataBlock[LabeledData](isVali) trainData ...
- Angel - 模拟Kafka数据流调试FTRL的方法
Angel - 模拟Kafka数据流调试FTRL的方法 Mac或者Linux版本(Win10的Linux子系统同样适用) 创建一个目录用来安装kafka以及zookeeper等相关软件,比如,新建一个 ...
- Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解
Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel 这是github地址. 我了解的分布式机器学 ...
- 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
随机推荐
- php文件的自动加载
<?php spl_autoload_register(function ($class_name) { require_once $class_name . '.php'; });
- POJ 3301 三分(最小覆盖正方形)
题意: 给你n个点,让你找一个最小的正方形去覆盖所有点.思路: 想一下,如果题目中规定正方形必须和x轴平行,那么我们是不是直接找到最大的x差和最大的y差取最大就行了,但是这个题目 ...
- hdu5012 水搜索
题意: 给你一个正方体的初始状态和末状态,问你是否可以再6步之内转到这个状态,有四种转的方式,如果你面对的是正方向的正前方,那么转的方式就是 顺时针,逆时针,上,下. 思路: ...
- python 压缩模块大杂烩(zipfile,bz2,lzma,gzip,tarfile,zlib)
[*] 以下压缩模块请结合python的官方文档(https://docs.python.org/3.5/library/index.html)来实践或者对比(我的是python 3.5) 1.pyt ...
- Django中的表单
目录 表单 Django中的表单 用表单验证数据 自定义验证 表单 HTML中的表单是用来提交数据给服务器的,不管后台服务器用的是 Django 还是 PHP还是JSP还是其他语言.只要把 inpu ...
- Cmder右键配置
Cmder右键配置 每次用camder手动一层一层的进入目标文件夹,是一件很麻烦的事儿.所以,将camder添加到系统右键菜单是个很好地解决方法. 1.把 Cmder 加到环境变量 把Cmder.ex ...
- mongodb 在PHP中常见问题及解决方法
1.$in needs an array 解决:查询用到in操作的时候,说in操作对应的不是我一个数组,或者数组索引不是以0开始的 方法:array_values重新生成一个索引为0开始的数组即可 $ ...
- 前端基础问题:CSS vertical-align 属性
CSS vertical-align 属性与基线的那些事~ 定义和用法: vertical-align 属性设置元素的垂直对齐方式. vertical-align只对内联元素(inline.inlin ...
- opencv——几何变换原理与实现
摘要 图像几何变换又称为图像空间变换, 它将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置.几何变换不改变图像的像素值, 只是在图像平面上进行像素的重新安排. 几何变换大致分为仿射变换.投影变换. ...
- 通过Python将监控数据由influxdb写入到MySQL
一.项目背景 我们知道InfluxDB是最受欢迎的时序数据库(TSDB).InfluxDB具有 持续高并发写入.无更新:数据压缩存储:低查询延时 的特点.从下面这个权威的统计图中,就可以看出Influ ...