这篇笔记主要参考冯杨的五篇博客:在线最优化求解(Online Optimization).因为对于在线学习方法,稀疏性问题需要特别关注:每次在线学习一个新 instance 的时候,优化方向并不一定是全局最优,不容易产生稀疏解,而简单截断又可能将从全局看不该稀疏掉的特征变为零.所以这里以 L1 正则为基础,比较几种在线学习算法. 0,预备 每个 instance 由特征向量和预测目标组成: \((\mathbf x,y)\).其中 \(\mathbf x \in \mathbb R^N, y \…