Haskell手撸Softmax回归实现MNIST手写识别

前言

初学Haskell，看的书是Learn You a Haskell for Great Good，才刚看到Making Our Own Types and Typeclasses这一章。为了加深对Haskell的理解，便动手写了个Softmax回归。纯粹造轮子，只用了base。显示图片虽然用了OpenGL，但是本文不会提到关于OpenGL的内容。虽说是造轮子，但是这轮子造得还是使我受益匪浅。Softmax回归方面的内容参考了Tensorflow的新手教程。

读取MNIST数据集
相关符号解释
Softmax回归
Cross Entropy
Gradient Descent
实验结果

读取MNIST数据集

读取数据集很简单，用openBinaryFile打开文件，mallocBytes申请内存空间，再用hGetBuf将文件中的内容写入内存，然后使用peekByteOff将指定地址中的像素值取出，放到[[Double]]里返回即可。因为惰性求值并不会在你用到相关数据前就提前就将文件内容全部读取，所以建议一张一张读取图片放入[[Double]]返回，而不是一次性读取所有图片放入[[[Double]]]返回。

Softmax回归

对于Haskell来讲，行向量要比列向量效率更高，因为行向量可以直接用一个列表来存储，而列向量就不得不存储为[[Double]]，所以在这里我把\\(X\\) 当成一个784维的行向量， \\(W\\) 为一个784*10的矩阵。同时\\(evidence\\) 为

\[evidence = XW+B \]

Softmax为

\[Y = softmax\left( evidence \right) = normalize\left( exp\left( evidence \right) \right) \]

这里在实现代码时要注意一些问题，指数函数很容易造成运算溢出，第一个问题是 \\(\lim _{x\rightarrow-\infty}{{e}^{x}}=0\\)。所以当exp的运算结果超出了Double类型所能表示的最小值时，exp函数的返回值是0。这听起来似乎没什么问题，但是当我们对十个全是0的数字normalize时，其总和也为0，将总和作为分母来计算，自然就会溢出。

针对这一问题，我自以为能够通过平移来解决。因为

\[\frac {{e}^{a+b}}{\sum {e}^{c+b}} = \frac {{e}^{a}{e}^{b}}{{e}^{b}\sum{{e}^{c}}} = \frac {{e}^{a}}{\sum{e}^{c}} \]

所以，我们可以让evidence的每一个分量减去其平均数，这样就可以避免\\(exp(evidence)\\) 的元素全为零的问题，同时计算结果和本来理论上的结果，也是一致的。

第二个问题是 \\(\lim _{x\rightarrow+\infty}{{e}^{x}}=+\infty\\) 。如果evidence全体的取值总体偏大，也可以通过减去其平均数的方法来解决，但有些时候， y的某个分量非常逼近1.0，这就说明evidence的平均数非常接近0，如果那个分量的evidence非常大，使得exp运算溢出，就无法通过减平均数的方法来解决。exp使得evidence的各分量中，正数之间的差距变得非常巨大，而负数之间的差距要比线性的差距更小。因此我们可以把evidence整体向左偏移，那些特别小的数值，就直接作为0计算，只要分量的最大值不会使exp运算溢出就可以了。因此，evidence和softmax之间还要有一个中间阶段来解决这两个问题。

\[z = evi - \bar{evi} \] \[z := z - c \quad \left(until \quad max \{{z}\} < c \right) \]

上式中的c为exp所能计算的最大数值，直到z向量中的所有元素都小于这个值时，再将z放入Softmax中计算

以下为上述内容的实现代码

type Vector a = [a]

type Mat a = [Vector a]

-- 图方便，所以直接返回空矩阵表示运算出错，而没用Maybe

matMul :: (Num a) => Mat a -> Mat a -> Mat a

mat1 `matMul` mat2 =

  if matCols mat1 == matRows mat2

    then [[vectorDot vec1 vec2 | vec2 <- transpose mat2] | vec1 <- mat1]

    else [[]]

matToVector :: Mat a -> Vector a

matToVector = concat

vectorToMat :: Vector a -> Mat a

vectorToMat vec = [vec]

layer :: Vector Double -> Mat Double -> Vector Double

layer xs ws = matToVector ( (vectorToMat xs) `matMul` ws )

biasLayer :: Vector Double -> Vector Double -> Vector Double

biasLayer xs bias = zipWith (+) xs bias

evidence :: Vector Double -> Mat Double -> Vector Double -> Vector Double

evidence xs ws bias = biasLayer (layer xs ws) bias

softmax :: Vector Double -> Vector Double

softmax vec = map (\x -> exp x / sum (map exp safeVec)) safeVec

  where

    safeVec = maxSafe $ minusMean vec

    minusMean v = map (\x -> x - mean v) v

    maxSafe v = if maximum v > 500

      then maxSafe $ map (flip (-) 500) v

      else v

-- 虽然我并没有确切地去寻找exp所能计算的最大自变量值为多少，但只要小于500，exp就不会溢出

Cross Entropy

我个人对于交叉熵的理解并不深入，时至今日都不是很明白其原理，如果有机会，最想去学一下信息论

\[H = -\sum T .* log\left(Y\right) \]

实际上这个步骤只存在于我们的推导过程中，它不需要被实现，因为我们训练模型和使用模型的过程中都用不着它。但我还是写了代码来实现它。实现过程需要注意的是，这里也很容易出现运算溢出的问题。因为很有可能Y的某个分量为0。从数学上来讲，exp函数计算出来的值是不可能为0的，但谁叫我们是和计算机打交道的，浮点数的表示是有范围限制的，所以我们就不得不防其为0的情况出现。这里我也没有好办法，\\(\lim _{x\rightarrow0}{log x = -\infty}\\) ，那么我们就拿一个非常小同时又不会使log溢出的数来替代0 使用好了，当Y的分量小于那个数时，就返回那个非常小的数，否则就返回原值。因为实在没有想到好办法，所以我也就只能去忍受误差了。

具体的代码实现如下

vectorDot :: (Num a) => Vector a -> Vector a -> a

vectorDot vec1 vec2 = sum $ zipWith (*) vec1 vec2

crossEntropy :: Vector Double -> Vector Double -> Double

crossEntropy real hypo = -(vectorDot real $ map log $ check hypo)

  where

    check v = map (\x -> if x < 1.0e-300 then 1.0e-300 else x) v

-- 虽然1.0e-300并不是log所能计算的最小自变量，但是这也算是够小了

Gradient Descent

这是整个过程中最难的一步，求导并不是最难的，思考如何实现代码可真是烧了我不少脑细胞

Gradient Descent

\[{w}_{ij} := {w}_{ij} - \alpha \frac {\partial H} {\partial {w}_{ij}} \] \[\frac {\partial H} {\partial {w}_{ij}} = \frac {\partial \left(-\sum _{k=1}^{10}{t}_{k}\times log({y}_{k})\right)} {\partial {w}_{ij}} \\ = \sum _{k=1}^{m}{\frac{\partial \left( -{t}_{k} log \frac{e^{z}_{k}}{\sum _{l=1}^{m}{{e}^{{z}_{l}}}} \right)}{\partial {w}_{ij}}} \\ = \sum _{k=1}^{m}{\frac{\partial {t}_{k} \left( log \sum _{l=1}^{m}{{e}^{{z}_{l}}} -{z}_{k} \right)}{\partial {w}_{ij}}} \\ = \sum _{k=1}^{m}{tk \left( \frac{\partial log \sum _{l=1}^{m}{{e}^{l}}}{\partial{w}_{ij}} - \frac{\partial {z}_{k}}{\partial {w}_{ij}} \right) } \\ = \sum _{k=1}^{m}{tk \left(\frac {{e}^{{z}_{i}}}{\sum _{l=1}^{m}{{e}^{{z}_{l}}}} \frac{\partial {z}_{i}}{\partial{w}_{ij}} - \frac{\partial {z}_{k}}{\partial {w}_{ij}} \right) } \\ = \sum _{k=1}^{m}{tk ({y}_{i} - u) \frac{\partial {z}_{i}}{\partial {w}_{ij}}} ,\quad u = \begin{Bmatrix} 1 , k = i \\ 0 , k \neq i \end{Bmatrix} \]

同理可得偏置量的更新方式

\[\frac {\partial H} {\partial {b}_{i}} = \sum _{k=1}^{m}{tk ({y}_{i} - u) \frac{\partial {z}_{i}}{\partial {b}_{i}}} ,\quad u = \begin{Bmatrix} 1 , k = i \\ 0 , k \neq i \end{Bmatrix} \]

具体实现代码如下，我的实现方式十分拙劣，应该说是太拙劣了，对Haskell的理解也不够，如果再多深入一些，代码应该就不会这样了。而且，这里gradient descent停止更新参数是以偏导数矩阵的平均值小于0.05为判断依据的，我自知这种做法很不好，相对用矩阵最大值小于0.05更好，效率又高效果又好，但是后来忘了改了。。。

matRows :: Mat a -> Int

matRows mat

  | matCols mat == 0 = 0

  | matCols mat /= 0 = length mat

matCols :: Mat a -> Int

matCols = length . (!!0)

matMap :: (a -> a) -> Mat a -> Mat a

matMap f = map (map f)

-- 同上，为了偷懒而没用Maybe

matZipWith :: (a -> b -> c) -> Mat a -> Mat b -> Mat c

matZipWith f mat1 mat2 =

  if matRows mat1 == matRows mat2 && matCols mat1 == matCols mat2

    then zipWith (zipWith f) mat1 mat2

    else [[]]

diffWs :: Vector Double -> Vector Double -> Vector Double -> Int -> Int -> Double

diffWs ts zs xs i j = sum $ zipWith (\t k -> t*(xs!!i)*((softmax zs !! j) - if j == k then 1 else 0)) ts [0..9]

diffBias :: Vector Double -> Vector Double -> Int -> Double

diffBias ts zs i = sum $ zipWith (\t k -> t*((softmax zs !! i) - if i == k then 1 else 0)) ts [0..9]

diffWsMat :: Vector Double -> Vector Double -> Vector Double -> Mat Double -> Mat Double

diffWsMat ts zs xs ws = matZipWith (diffWs ts zs xs) rows cols

  where

    cols = replicate (matRows ws) [0..(matCols ws - 1)]

    rows = transpose $ replicate (matCols ws) [0..(matRows ws - 1)]

diffBiasVec :: Vector Double -> Vector Double -> Vector Double -> Vector Double

diffBiasVec ts zs bias = map (diffBias ts zs) [0..9]

gradientDescent :: Vector Double -> Vector Double -> Mat Double -> Vector Double -> Double -> (Mat Double, Vector Double)

gradientDescent ts xs ws bias alpha

  | matMean dWsMat < 0.05 && mean dBiasVec < 0.05 = (trainedWs, trainedBias)

  | otherwise = gradientDescent ts xs trainedWs trainedBias alpha

  where

    trainedWs = matZipWith (-) ws $ matMap (*alpha) dWsMat

    trainedBias = zipWith (-) bias $ map (*alpha) dBiasVec

    zs = evidence xs ws bias

    dWsMat = diffWsMat ts zs xs ws

    dBiasVec = diffBiasVec ts zs bias

实验结果

速度还是挺差的，和TensorFlow当然是没得比，60000张图片训练了5个小时左右。用测试数据集的10000张图片进行测试，效果还是挺差的，正确率为86.07%，TensorFlow教程的正确率为91%。正确率较低的原因，我猜测大体应该在这么两个方面，一是教程中的batch为100，我这里为1；二是，ws和bias的偏导数矩阵的平均值小于0.05并不能保证每个元素都小于0.05，因此导致收敛效果较差。因为训练一次耗时太久，所以这东西我也就懒得继续去优化它了。

通过Haskell的FFI应该可以调用CUDA，以后如果有机会，再去尝试，现在应该去应付期末考试了。