这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

先上代码：

 # click_count, show_count # this method takes time

 def do_smooth(data_list):

     import scipy.special as sp

     a, b, i = 1.0, 1.0, 0

     da, db = a, b

     while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):

         x1, y1, x2 = 0.0, 0.0, 0.0

         for lineList in data_list:

             x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)

             y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)

             x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)

         na, nb = a, b

         a *= (x1 / y1)

         b *= (x2 / y1)

         da, db = abs(a - na), abs(b - nb)

         i += 1

     print i, a, b

     return a, b

这是我之前用的python代码，改成scala也相当容易，digamma函数非常耗时，而且还要迭代1000次。最要命的是digamma在scala里面默认的实现会出现栈溢出！！！

var a, b, da, db: Double = 1.0

var index = 0

while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {

    var x1,x2,y1 = 0.0

    traindata.foreach(p => {

        x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)

        y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)

        x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)

        val na = a

        val nb = b

        a *= (x1 / y1)

        b *= (x2 / y1)

        da = Math.abs(a - na)

        db = Math.abs(b - nb)

    })

}

digamma 函数是个递归函数，问题就处在递归上了。

    public static double digamma(double x) {

         if (x > 0 && x <= S_LIMIT) {

             return -GAMMA - 1 / x;

         }

         if (x >= C_LIMIT) {

             double inv = 1 / (x * x);

             return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));

         }

         return digamma(x + 1) - 1 / x;

     }

既然知道问题所在，是不是就可以重写递归为非递归呢？在Stack Overflow上找到了一个答案

 val GAMMA = 0.577215664901532860606512090082

 val GAMMA_MINX = 1.e-12

 val DIGAMMA_MINNEGX = -1250

 val C_LIMIT = 49

 val S_LIMIT = 1e-5

 var value = 0.0

 var x = input

 while (true) {

     if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX

     if (x < DIGAMMA_MINNEGX) {

         x = DIGAMMA_MINNEGX + GAMMA_MINX

     } else {

         if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x

         if (x >= C_LIMIT) {

             val inv = 1 / (x * x)

             return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))

         }

         value = value - 1.0 / x

         x += 1

     }

 }

经测试，没看出什么问题，可以用了。
不过，上面的代码并没有解决慢的问题，当需要计算CTR的对象比较多时（几百万），仍然比较耗时。所以我决定用两个替代方法：

抽样，抽取能在可接受时间内出结果的样本数，得到α和β；
直接使用平均值作为α和β
使用平均值做迭代初值（推荐）

参考：
1. 雅虎专家的论文，如上
2. Stack Overflow 网友代码，如上

Scala-Spark digamma stackoverflow问题的更多相关文章

brdd 惰性执行 mapreduce 提取指定类型值 WebUi 作业信息全局临时视图 pyspark scala spark 安装
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation :惰性执行,即rdd的变换操作并不是在运行该代码时立 ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
在IntelliJ IDEA中创建和运行java/scala/spark程序
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍在IntelliJ IDEA中创建和运行java/scala/spark程序基本概念介 ...
eclipse构建maven+scala+spark工程转载
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现sp ...
Windows下Eclipse+Scala+Spark开发环境搭建
1.安装JDK及配置java环境变量本文使用版本为jdk1.7.0_79,过程略 2.安装scala 本文使用版本为2.11.8,过程略 3.安装spark 本文使用版本为spark-2.0.1-b ...
Scala - Spark Lambda“goesto“ => 分析
/// 定义一个函数AddNoise,参数分别为rdd,Fraction.其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD.Fraction为一 ...
Eclipse + Idea + Maven + Scala + Spark +sbt
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/h ...
eclipse构建maven+scala+spark工程
前提条件下载安装Scala IDE build of Eclipse SDK 构建工程 1.新建maven工程 2.配置项目信息 3.新建scala对应的Source Folder 4.添加scal ...
scala spark 机器学习初探
Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征 ...

随机推荐

RobotFramework自动化测试框架-移动手机自动化测试Input Text和Click Button关键字的使用
Input Text和Click Button Input Text 关键字一般用来给输入框进行输入操作,该关键字接收两个参数[ locator | text ]. 示例1:启动安卓手机上一个APP的 ...
201521123004《Java程序设计》第8周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 1.2 选做:收集你认为有用的代码片段答:主要以泛型为主 //简单的泛型类的定义,T为类型参数 public ...
201521123102 《Java程序设计》第6周学习总结
1. 本周学习总结 2. 书面作业 Q1.clone方法 1.1 Object对象中的clone方法是被protected修饰,在自定义的类中覆盖clone方法时需要注意什么? 子类要实现Clonea ...
201521123063 《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. (1)多线程的冲突当我们不想一种资源被同时使用,导致最后结果不一致,解决方法: 使用synchronized标记 ...
201521123090《Java程序设计》第12周学习总结
本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 书面作业将Student对象(属性:int id, String name,int age,double grad ...
js中判断undefined类型
typeof 运算符返回一个用来表示表达式的数据类型的字符串.可能的字符串有:"number"."string"."boolean".&qu ...
Log4j.properties属性文件
log4j.properties文件属性介绍log4j.rootLogger = [ level ] , appenderName1, appenderName2, …#level : 设定日志记录的 ...
JDBC数据库之添加数据
通过JDBC向数据库中添加数据,可以使用INSERT语句实现插入数据SQL语句,对于SQL语句中的参数可以只用占位符"?"代替,然后通过PreparedStatement对其赋值以 ...
JDBC操作数据库之连接数据库
通过JDBC向数据库中添加数据的时候,使用insert语句实现数据的插入,再SQL语句中的参数可以用占位符"?"来替代,然后通过PreparedStatement对象或者State ...
XML功能
REF:https://www.baidu.com/link?url=_-UY8rZVAORlesKTth0F7C8LbvXCL4lSwz6vmQVnTEgmT06NFGdoaD9FbuEQhR7xG ...

Scala-Spark digamma stackoverflow问题

这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

Scala-Spark digamma stackoverflow问题的更多相关文章

随机推荐

热门专题