Angel图算法

[2.0]CommonFriends

计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。

输入

  • 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
  • 输入文件类型:格式包括以下两种:
  • csv:csv 文件。
  • 输入数据包含 header 信息。
  • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
  • 输出数据包含 header 信息。
  • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

参数说明

  • src:源节点列。
  • dst:目标节点列。
  • numPartition:分区数。

资源参数

  • drive 节点资源类型:请选择合适的 drive 节点机型。
  • executor 节点资源类型:请选择合适的 executor 节点机型。
  • num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
  • spark-conf:spark常用参数配置,如压缩、序列化、网络等。

[2.0]HyperAnf

估计网络的平均半径。

输入

  • 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。
  • 输入文件类型:格式包括以下两种:
  • csv:csv 文件。
  • 输入数据包含 header 信息。
  • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
  • 输出数据包含 header 信息。
  • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

算法结果保存路径,共两列,其中第一列为 round 值,第二列为 anf 值,其中round = -1对应的 anf 为最终估计值。

参数说明

  • src:源节点列。
  • dst:目标节点列。
  • numPartition:分区数。
  • maxIter:最大迭代次数。

资源参数

  • drive 节点资源类型:请选择合适的 drive 节点机型。
  • executor 节点资源类型:请选择合适的 executor 节点机型。
  • num-executors:分配计算节点数目,可根据数据量来配置,一般训练数据量越大,需要的 worker 个数越多。
  • spark-conf:spark 常用参数配置,如压缩、序列化、网络等。

[2.0]LPA

LPA(Label Propagation Algorithm)是最简单的社区发现算法,通过标签扩散发掘网络的社区关系。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
  • csv:csv 文件。
  • 输入数据包含 header 信息。
  • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
  • 输出数据包含 header 信息。
  • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

算法结果保存路径,共两列,其中第一列为节点 ID,第二列为节点对应的社区 ID。社区 ID 相同表示属于同一个社区。

参数说明

  • src:源节点列。
  • dst:目标节点列。
  • numPartition:分区数。

资源参数

  • num-executors:使用多少个 Spark 节点。
  • driver-memory:Spark driver 的内存大小。
  • executor-cores:每个 Spark 节点使用多少个 core。
  • executor-memory:每个 Spark 节点使用的内存大小。
  • spark-conf:Spark 的其他参数。 由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。

[2.0]EffectiveSize

EffectiveSize 是由结构空洞理论得到的网络度量指标,是 ego-network 中节点的重要衡量指标。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
  • csv:csv 文件。
  • 输入数据包含 header 信息。
  • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • text:本文件。
  • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
  • 输出数据包含 header 信息
  • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。

参数说明

  • src:源节点列。
  • dst:目标节点列。
  • numPartition:分区数。

资源参数

  • num-executors:使用多少个 Spark 节点。
  • driver-memory:Spark driver 的内存大小。
  • executor-cores:每个 Spark 节点使用多少个 core。
  • executor-memory:每个 Spark 节点使用的内存大小。
  • spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。

[2.0]PageRank

PageRank 是著名的节点排序算法,由 Google 发表。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
  • csv:csv 文件。
  • 输入数据包含 header 信息。
  • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • text:本文件。
  • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
  • 输出数据包含 header 信息
  • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

算法结果保存路径,共三列,其中第一列为节点 ID,第二列为 effectiveSize 值,第三列为 redundancyCol 值。

参数说明

  • src:源节点列。
  • dst:目标节点列。
  • numPartition:分区数。
  • maxIter:最大迭代次数。
  • tol:最小容忍误差,当误差小于该值时,算法迭代提早结束。

资源参数

  • num-executors:使用多少个 Spark 节点。
  • driver-memory:Spark driver 的内存大小。
  • executor-cores:每个 Spark 节点使用多少个 core。
  • executor-memory:每个 Spark 节点使用的内存大小。
  • spark-conf:Spark 的其他参数。由于权限原因,需要用户额外提供 ugi 参数 spark.hadoop.hadoop.job.ugi=用户名:密码。

Angel图算法的更多相关文章

  1. 腾讯 angel 3.0:高效处理模型

    腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ...

  2. 黑科技项目:英雄无敌III Mod <<Fallen Angel>>介绍

    英雄无敌三简介(Heroes of Might and Magic III) 英3是1999年由New World Computing在Windows平台上开发的回合制策略魔幻游戏,其出版商是3DO. ...

  3. 基于mapreducer的图算法

    作者现就职阿里巴巴集团1688技术部 引言 周末看到一篇不错的文章"Graph Twiddling in a MapReduce world" ,介绍MapReduce下一些图算法 ...

  4. Sad Angel (悲伤的天使)-Игорь Крутой

    悲伤的天使(neyanbhbin) -经典作曲Sad Angel( Печальныйангел)生活是一种连续的影响,每个小人物都有小人物的伟大故事.从开头的情侣,到美丽的丝带,从清洁老伯到卖气球的 ...

  5. 数据库备份还原工具EMS SQL Angel for SQL Server发布1.3版本

    EMS公司,是专门从事企业数据库以及内置于多层次客户服务器结构自动化开发.其EMS SQL Angel for SQL Server工具,便是SQL Servers数据库数据备份还原工具,并且还能使用 ...

  6. Angel - MemoryDataBlock - angel.task.estimize.sample.number

    angel.task.estimize.sample.number val validData = new MemoryDataBlock[LabeledData](isVali) trainData ...

  7. Angel - 模拟Kafka数据流调试FTRL的方法

    Angel - 模拟Kafka数据流调试FTRL的方法 Mac或者Linux版本(Win10的Linux子系统同样适用) 创建一个目录用来安装kafka以及zookeeper等相关软件,比如,新建一个 ...

  8. Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解

    Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel   这是github地址. 我了解的分布式机器学 ...

  9. 大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例

    第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...

随机推荐

  1. php文件夹下文件批量重命名

    php文件夹下文件批量重命名 <?php header("Content-type:text/html;charset=utf-8"); $dir = __DIR__.'./ ...

  2. ThinkPHP5 利用.htaccess文件的 Rewrite 规则隐藏URL中的 index.php

    1.首先修改Apache的httpd.conf文件. 确认httpd.conf配置文件中加载了mod_rewrite.so 模块,加载的方法是去掉mod_rewrite.so前面的注释#号 讲http ...

  3. Windows核心编程 第七章 线程的调度、优先级和亲缘性(上)

    第7章 线程的调度.优先级和亲缘性 抢占式操作系统必须使用某种算法来确定哪些线程应该在何时调度和运行多长时间.本章将要介绍Microsoft Windows 98和Windows 2000使用的一些算 ...

  4. HTTP自定义Header-(SOCKET-TCP)

      HTTP自定义Header-TCP 前几天弄一些东西,需要在发送http请求的时候自定义http头,找了几个库用着很不爽.有的把Cookie直接干掉了,还自己在头里加了版权,最后终于忍不了了.在网 ...

  5. Linux-鸟菜-5-目录配置-FHS

    Linux-鸟菜-5-目录配置-FHS 这节内容比较休闲,主要就是介绍Linux的目录配置,也就是那些目录通常是干啥的,这个比较重要,需要我们去了解.但是我觉得通常看一遍记不住啥,也就记个大概,主要还 ...

  6. Matlab学生账号创建激活使用

    软件介绍 MATLAB主要用于数值分析.数值和符号计算.工程与科学绘图.控制系统的设计与仿真.数字图像处理.数字信号处理.通讯系统设计与仿真.财务与金融工程,是一款商业数学软件.MATLAB拥有丰富的 ...

  7. 如何使用java搭建一款高性能的Mqtt集群broker!

    SMQTT是一款开源的MQTT消息代理Broker, SMQTT基于Netty开发,底层采用Reactor3反应堆模型,支持单机部署,支持容器化部署,具备低延迟,高吞吐量,支持百万TCP连接,同时支持 ...

  8. 大学四年因为分享了这些软件测试常用软件,我成了别人眼中的(lei)大神(feng)!

    依稀记得,毕业那天,我们辅导员发给我毕业证的时候对我说"你可是咱们系的风云人物啊",哎呀,别提当时多开心啦????,嗯,我们辅导员是所有辅导员中最漂亮的一个,真的???? 不过,辅 ...

  9. c语言编程学习之字符串

    字符串字面量与字符变量 1.字符串字面量 字符串字面量是一对双引号括起来的字符序列.当c语言编译器在程序中遇到长度为n的字符串字面量时,它会为字符串字面量分配长度为n+1的内存空间.这块内存空间用来存 ...

  10. 如何在Mac OS X中开启VIM语法高亮和显示行号

    VIM (Wikipedia图) Vim 是一款相当给力的源自UNIX平台的命令行文本编辑器,不过不给力的是,Mac OS X下并没有诸多Linux发行版上VIM那些牛逼哄哄的神马代码高亮显示啊,自动 ...