FTRL(Follow The Regularized Leader)学习总结

摘要：

　　1.算法概述

　　2.算法要点与推导

　　3.算法特性及优缺点

　　4.注意事项

　　5.实现和具体例子

　　6.适用场合

内容：

　　1.算法概述

　　FTRL是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法，方便实用，而且效果很好，常用于更新在线的CTR预估模型；

　　FTRL算法兼顾了FOBOS和RDA两种算法的优势，既能同FOBOS保证比较高的精度，又能在损失一定精度的情况下产生更好的稀疏性。

　　FTRL在处理带非光滑正则项（如L1正则）的凸优化问题上表现非常出色，不仅可以通过L1正则控制模型的稀疏度，而且收敛速度快；

　　参考：[笔记]FTRL与Online Optimization

　　2.算法要点与推导

　　3.算法特性及优缺点

　　FTRL-Proximal工程实现上的tricks：

　　1.saving memory

　　　　方案1）Poisson Inclusion：对某一维度特征所来的训练样本，以p的概率接受并更新模型。
　　　　方案2）Bloom Filter Inclusion：用bloom filter从概率上做某一特征出现k次才更新。

　　2.浮点数重新编码

　　　　1）特征权重不需要用32bit或64bit的浮点数存储，存储浪费空间
　　　　2）16bit encoding，但是要注意处理rounding技术对regret带来的影响(注：python可以尝试用numpy.float16格式)
　　3.训练若干相似model
　　　　1）对同一份训练数据序列，同时训练多个相似的model
　　　　2）这些model有各自独享的一些feature，也有一些共享的feature
　　　　3）出发点：有的特征维度可以是各个模型独享的，而有的各个模型共享的特征，可以用同样的数据训练。
　　4.Single Value Structure
　　　　1）多个model公用一个feature存储（例如放到cbase或redis中），各个model都更新这个共有的feature结构
　　　　2）对于某一个model，对于他所训练的特征向量的某一维，直接计算一个迭代结果并与旧值做一个平均
　　5.使用正负样本的数目来计算梯度的和（所有的model具有同样的N和P）

　　6.subsampling Training Data
　　　1）在实际中，CTR远小于50%，所以正样本更加有价值。通过对训练数据集进行subsampling，可以大大减小训练数据集的大小
　　　2）正样本全部采（至少有一个广告被点击的query数据），负样本使用一个比例r采样（完全没有广告被点击的query数据）。但是直接在这种采样上进行训练，会导致比较大的biased prediction
　　 3）解决办法：训练的时候，对样本再乘一个权重。权重直接乘到loss上面，从而梯度也会乘以这个权重。

　　算法特点：

　　　在线学习，实时性高；可以处理大规模稀疏数据；有大规模模型参数训练能力；根据不同的特征特征学习率

　　缺点：

　　4.注意事项

　　5.实现和具体例子

　　　　FTRL处理“Springleaf Marketing Response”数据

　　　　Spark Streaming on Angel FTRL

　　6.适用场合

　　　　点击率模型

FTRL(Follow The Regularized Leader)学习总结的更多相关文章

Alink漫谈(十二) ：在线学习算法FTRL 之整体设计
Alink漫谈(十二) :在线学习算法FTRL 之整体设计目录 Alink漫谈(十二) :在线学习算法FTRL 之整体设计 0x00 摘要 0x01概念 1.1 逻辑回归 1.1.1 推导过程 ...
Alink漫谈(十三) ：在线学习算法FTRL 之具体实现
Alink漫谈(十三) :在线学习算法FTRL 之具体实现目录 Alink漫谈(十三) :在线学习算法FTRL 之具体实现 0x00 摘要 0x01 回顾 0x02 在线训练 2.1 预置模型 ...
在线最优化求解(Online Optimization)之一：预备篇
在线最优化求解(Online Optimization)之一:预备篇动机与目的在实际工作中,无论是工程师.项目经理.产品同学都会经常讨论一类话题:“从线上对比的效果来看,某某特征或因素对xx产品的 ...
在线机器学习FTRL(Follow-the-regularized-Leader)算法介绍
看到好文章,坚决转载!哈哈,学术目的~~ 最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块.今天也是有空,赶紧来做个整理.明天还要去上海参加天善智能组织的 ...
在线优化算法 FTRL 的原理与实现
在线学习想要解决的问题在线学习 ( \(\it{Online \;Learning}\) ) 代表了一系列机器学习算法,特点是每来一个样本就能训练,能够根据线上反馈数据,实时快速地进行模型调整,使得 ...
在线最优化求解(Online Optimization)之五：FTRL
在线最优化求解(Online Optimization)之五:FTRL 在上一篇博文中中我们从原理上定性比较了L1-FOBOS和L1-RDA在稀疏性上的表现.有实验证明,L1-FOBOS这一类基于梯度 ...
Learning to rank基本算法
搜索排序相关的方法,包括 Learning to rank 基本方法 Learning to rank 指标介绍 LambdaMART 模型原理 FTRL 模型原理 Learning to rank ...
在线学习--online learning
在线学习 online learning Online learning并不是一种模型,而是模型的训练方法.能够根据线上反馈数据,实时快速的进行模型调优,使得模型能够及时反映线上的变化,提高线上预测的 ...
kafka学习（二）-------- 什么是Kafka
通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? K ...

随机推荐

PyCharm中HTML页面CSS class名称自动完成功能失效的问题
如果这个HTML页面带有style元素的CSS定义,那class name自动完成功能就失效了 Pycharm Version:5.03
vfd with stm8
2018-01-14 22:50:26 之前写了pt6311的驱动,要做时钟考虑使用stm8做主控,于是乎将之前的驱动移植到stm8上. 顺带熟悉了stm8的操作2333. 上源码: #ifndef ...
Ocelot中文文档-转换Claims
Ocelot允许用户访问claims并把它们转换到头部,请求字符串参数和其他claims中.这仅在用户通过身份验证后才可用. 用户通过身份验证之后,我们运行claims转换中间件.这个中间件允许在授权 ...
Coursera-AndrewNg(吴恩达)机器学习笔记——第一周
一.初识机器学习何为机器学习?A computer program is said to learn from experience E with respect to some task T an ...
Rafy 领域实体框架简介
按照最新的功能,更新了最新版的<Rafy 领域实体框架的介绍>,内容如下: 本文包含以下章节: 简介特点优势简介 Rafy 领域实体框架是一个轻量级 ORM 框架. 与一般的 ORM ...
python笔记：#013#高级变量类型
高级变量类型目标列表元组字典字符串公共方法变量高级知识点回顾 Python 中数据类型可以分为数字型和非数字型数字型整型 (int) 浮点型(float) 布尔型(bool) ...
rsync 密钥文件错误问题总结
rsync 可以使用 --password-file 选项指定密钥文件,密钥文件中简单存放 rsync 密码:在第一次使用密钥文件的时候经常遇到文件权限相关问题:这里总结一下,我遇到的问题. 问题描述 ...
JavaScript的数组知识案例之随机点名器
本次分享JavaScript主要知识点涉及到for循环.if选择结构判断语句.数组的定义.定时器.清除定时器.日期对象的使用. 执行后效果图: 思路: 1.网页结构搭建: HTML 2.网页布局美化: ...
CF#483(div2 C)
http://codeforces.com/contest/984/problem/C C. Finite or not time limit per test 1 second memory lim ...
PAT1032: Sharing (25)
1032. Sharing (25) 时间限制 100 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue To store Engl ...

FTRL(Follow The Regularized Leader)学习总结

FTRL(Follow The Regularized Leader)学习总结的更多相关文章

随机推荐

热门专题