基于LR的回归分类实例

概念

前提理解：

机器学习的三个步骤：模型，损失函数（即样本误差），优化求解（通过损失函数，使得模型的样本误差最小或小于阈值，求出满足条件的参数，优化求解包括：最小二乘法，梯度下降）。

链接1：简析python3深浅复制与赋值

https://cloud.tencent.com/developer/news/53299

Python3中赋值操作其实是对象的引用，相当于起了个别名，赋值关系，即整个内外层对象的引用，内外层都指向同一内存。

链接2：SGD详解

https://www.cnblogs.com/NeilZhang/p/8454890.html

实例说明

基于LR的回归分类实例,特征抽取使用TF-IDF,模型优化采用SGD.

模型：LR模型

损失函数：均方误差

优化求解：SGD,迭代50次

输入：TF-IDF的词频

输出：0,1

数据集样例

train目录：

【train_neg.txt】

不要怕恶庄自寻棺材睡

走咯拜拜

大家说说找操科技（兆日科技）这波能跌到多少

每一次反弹都是逃命的机会不要抱任何幻想

抛！机构连拉股价制造概念用人性贪婪忽悠小股民在高位接货 333

垃圾股

18 71 , , 20000 股跌吧黑庄

兆日科技跌停控股股东拟大幅减持

今天是老子买入你整半年时间狗日的 … … 27 3

【train_pos.txt】

兆日科技抄家伙满仓买进干

哇日日大涨了呀呵呵呵吻啊日日使劲

前来入住

涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停

今天涨停

兆跌科技有望了

我预测这是最后一波诱空洗盘该股下跌过程中日线和周线的 kdj 均未创新低一旦反弹

19 65 老夫已满仓买入坐等拉升哈哈！

差不多了再跌进不了深港通了 60 亿底线市值

主力拉高再出货没子弹就说

老子还要持股过节

有涨停就有跌停所以很正常周一拉红是肯定的星期二的操作就要多方面考虑了

便宜货我先拣点

【stopwords.txt】

你等我吗在股价股市科技股友兆日最后今天明天公告一个还已发行价做月到还是得估计谁啊可能的可以来。。。，！了的地？就是应该明天下午上午早上晚上你等我吗在股价股市科技股友兆日 ——— 》），）÷（１－ "，）、＝（ : → ℃ & * 一一 ~~~~ ' . 『 .一 ./ -- 』＝″ 【［＊］｝＞［⑤］］［①Ｄ］ｃ］ｎｇ昉＊ // ［］［②ｅ］［②ｇ］＝｛ } ，也 ' Ａ［①⑥］［②Ｂ］［①ａ］［④ａ］［①③］［③ｈ］ ③］１．－－［②ｂ］ '' ××× ［①⑧］０：２＝［［⑤ｂ］［②ｃ］［④ｂ］［②③］［③ａ］［④ｃ］［①⑤］［①⑦］［①ｇ］ ∈［［①⑨］［①④］［①ｃ］［②ｆ］［②⑧］［②①］［①Ｃ］［③ｃ］［③ｇ］［②⑤］［②②］一. ［①ｈ］ .数［］［①Ｂ］数/ ［①ｉ］［③ｅ］［①①］［④ｄ］［④ｅ］［③ｂ］［⑤ａ］［①Ａ］［②⑧］［②⑦］［①ｄ］［②ｊ］〕〔］［ :// ′∈ ［②④ ［⑤ｅ］１２％ｂ］ ... ................... …………………………………………………③ ＺＸＦＩＴＬ［③Ｆ］」［①ｏ］］∧′＝［ ∪φ∈ ′｜｛－ ②ｃ｝［③①］Ｒ．Ｌ．［①Ｅ］ Ψ －［＊］－ ↑ .日［②ｄ］［② ［②⑦］［②②］［③ｅ］［①ｉ］［①Ｂ］［①ｈ］［①ｄ］［①ｇ］［①②］［②ａ］ｆ］［⑩］ａ］［①ｅ］［②ｈ］［②⑥］［③ｄ］［②⑩］ｅ］〉】元／吨［②⑩］２．３％５：０［①］ :: ［②］［③］［④］［⑤］［⑥］［⑦］［⑧］［⑨］ …… —— ? 、。 " " 《》！，：；？． , ． ' ? · ——— ── ? — < > （）〔〕 [ ] ( ) - + ～ × ／ / ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ Ⅲ В " ; # @ γ μ φ φ． × Δ ■ ▲ sub exp sup sub Lex ＃％＆＇＋＋ξ ＋＋－－β ＜＜± ＜Δ ＜λ ＜φ ＜＜ = ＝＝☆ ＝－＞＞λ ＿～± ～＋［⑤ｆ］［⑤ｄ］［②ｉ］ ≈ ［②Ｇ］［①ｆ］ＬＩ㈧［－ ...... 〉［③⑩］第二一番一直一个一些许多种有的是也就是说末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然不如不特不惟不问不只朝朝着趁趁着乘冲除除此之外除非除了此此间此外从从而打待但但是当当着到得的的话等等等地第叮咚对对于多多少而而况而且而是而外而言而已尔后反过来反过来说反之非但非徒否则嘎嘎登该赶个各各个各位各种各自给根据跟故故此固然关于管归果然果真过哈哈哈呵和何何处何况何时嘿哼哼唷呼哧乎哗还是还有换句话说换言之或或是或者极了及及其及至即即便即或即令即若即使几几时己既既然既是继而加之假如假若假使鉴于将较较之叫接着结果借紧接着进而尽尽管经经过就就是就是说据具体地说具体说来开始开外靠咳可可见可是可以况且啦来来着离例如哩连连同两者了临另另外另一方面论嘛吗慢说漫说冒么每每当们莫若某某个某些拿哪哪边哪儿哪个哪里哪年哪怕哪天哪些哪样那那边那儿那个那会儿那里那么那么些那么样那时那些那样乃乃至呢能你你们您宁宁可宁肯宁愿哦呕啪达旁人呸凭凭借其其次其二其他其它其一其余其中起起见起见岂但恰恰相反前后前者且然而然后然则让人家任任何任凭如如此如果如何如其如若如上所述若若非若是啥上下尚且设若设使甚而甚么甚至省得时候什么什么样使得是是的首先谁谁知顺顺着似的虽虽然虽说虽则随随着所所以他他们他人它它们她她们倘倘或倘然倘若倘使腾替通过同同时哇万一往望为为何为了为什么为着喂嗡嗡我我们呜呜呼乌乎无论无宁毋宁嘻吓相对而言像向向着嘘呀焉沿沿着要要不要不然要不是要么要是也也罢也好一一般一旦一方面一来一切一样一则依依照矣以以便以及以免以至以至于以致抑或因因此因而因为哟用由由此可见由于有有的有关有些又于于是于是乎与与此同时与否与其越是云云哉再说再者在在下咱咱们则怎怎么怎么办怎么样怎样咋照照着者这这边这儿这个这会儿这就是说这里这么这么点儿这么些这么样这时这些这样正如吱之之类之所以之一只是只限只要只有至至于诸位着着呢自自从自个儿自各儿自己自家自身综上所述总的来看总的来说总的说来总而言之总之纵纵令纵然纵使遵照作为兮呃呗咚咦喏啐喔唷嗬嗯嗳

附代码

#coding=utf-8

'''

基于LR的回归分类实例,特征抽取使用IF-IDF,模型优化采用SGD.

模型：LR模型

损失函数：均方误差

优化求解：SGD,迭代50次

输入：IF-IDF的词频

输出：0,1

'''

import os

import math

import random

class LR_Uni_Bi:

    def __init__(self, train_dir, test_dir, alpha=0.01):

        #初始化，设置文件目录及算法学习速率

        self.train_dir = train_dir

        self.test_dir = test_dir

        self.alpha = alpha

        #字典

        self.dic ={}

    def loadStopWords(self):

        for line in open('./stopwords.txt'):

            doc = line.split()

            # print(doc)

            #集合（set）是一个无序的不重复元素序列

            self.stopwords = set(doc)

        # print(self.stopwords)

    def buildUnigram(self,min1=0,sw1 =True):

        '''

        定义一元词袋模型

        '''

        #临时变量，存储unigram的次数，用于min-count过滤

        temp_dic = {}

        for fname in os.listdir(self.train_dir):

            for line in open(os.path.join(self.train_dir, fname)):

                for token in line.split():

                    if token not in temp_dic:

                        temp_dic[token]=1

                    else:

                        temp_dic[token] +=1

        #临时变量，存储过滤后的词语

        temp_set = set()

        for word in temp_dic:

            if temp_dic[word] > min1:

                temp_set.add(word)

        if sw1:

            self.loadStopWords()

            #两个集合求差集，对数据进行过滤

            temp_set -= self.stopwords

        count = 0

        for word in temp_set:

            self.dic[word] = count

            count += 1

        print('unigram',len(self.dic))

    def buildBigram(self,min2 = 5, sw2 =True):

        '''

        构造二元词袋模型,以词的个数为标准，而不是词的长度。 ('一段时间', '主力')

        '''

        #临时变量，用于存储bigram的次数，用于min-count过滤

        self.gram2 ={}

        for fname in os.listdir(self.train_dir):

            for line in open(os.path.join(self.train_dir,fname)):

                doc = line.split()

                # print(doc)

                for i in range(len(doc) - 1):

                    t = tuple(doc[i:i+2])

                    if t not in self.gram2:

                        self.gram2[t] = 1

                    else:

                        self.gram2[t] += 1

        # print(self.gram2)

        #python中单引号和双引号组合使用，来避免使用转义字符

        print('original bigram', len(self.gram2))

        remove_set = set()

        for g in self.gram2:

            if self.gram2[g] <= min2:

                remove_set.add(g)

            if sw2:

                if g[0] in self.stopwords and g[1] in self.stopwords:

                    remove_set.add(g)

        for g in remove_set:

            del self.gram2[g]

        print('bigram min-count -%d %d'%(min2,len(self.gram2)))

        #经过一元词袋模型后，当前字典的纬度，表示有效的unigram的个数

        self.uni_count = len(self.dic)

        count = self.uni_count

        for g in self.gram2:

            self.dic[g] =count

            count += 1

        print('bigram',len(self.dic) - self.uni_count)

        # print(self.dic)

    def buildDic(self, min1 = 0, min2 = 0 , sw1 = True,sw2 = True):

        #构建一词模型和两词模型

        self.buildUnigram(min1=min1,sw1=sw1)

        self.buildBigram(min2=min2,sw2=sw2)

    def getlabel(self):

        '''

        提取训练数据的标签

        '''

        self.train_label = [ ]

        for fname in os.listdir(self.train_dir):

            if fname == 'train_neg.txt':

                label = 0

            else:

                label = 1

            for line in open(os.path.join(self.train_dir,fname)):

                self.train_label.append(label)

        # print(self.train_label)

        self.test_label = []

        for fname in os.listdir(self.test_dir):

            if fname =='test_neg.txt':

                label = 0

            else:

                label = 1

            for line in open(os.path.join(self.test_dir,fname)):

                self.test_label.append(label)

        # print(self.test_label)

    def setLog(self,log_dir):

        #设置日志数据的文件目录

        self.log_dir = log_dir

        #训练数据日志

        self.fw_train = open(self.log_dir + '/train_log.txt','w')

        #测试数据日志

        self.fw_test = open(self.log_dir + '/test_log.txt','w')

    def buildDocsTFIDF(self,dir):

        #文件词频

        idf={}

        docs = []

        #unigram对应的各个文档的有效长度

        docs_length1 = []

        #bigram对应的各个文件的有效长度

        docs_length2 = []

        for fname in os.listdir(dir):

            num = 0

            for line in open(os.path.join(dir,fname)):

                # print(docs)

                docs.append({})

                # print(docs)

                doc = line.split()

                count1 = 0

                count2 = 0

                temp_set =set()

                for word in doc:

                    if word in self.dic:

                        idx = self.dic[word]

                        # print(idx)

                        count1 += 1

                        temp_set.add(idx)

                        # print(temp_set)

                        if idx not in docs[-1]:

                            docs[-1][idx] = 1

                        else:

                            docs[-1][idx] += 1

                        # print(docs)

                for i in range(len(doc) - 1):

                    t = tuple(doc[i:i+2])

                    if t in self.dic:

                        count2 +=1

                        idx = self.dic[t]

                        temp_set.add(idx)

                        if idx not in docs[-1]:

                            docs[-1][idx] = 1

                        else:

                            docs[-1][idx] += 1

                #统计包含词w的文档数目

                for idx in temp_set:

                    if idx not in idf:

                        idf[idx] = 1

                    else:

                        idf[idx] += 1

                docs_length1.append(count1)

                docs_length2.append(count2)

        #语料库中的文档总数

        N = len(docs)+0.0

        for idx in idf:

            idf[idx] = math.log(N / idf[idx])

        # print(docs)

        #计算词频-逆向文件频率

        for i in range(len(docs)):

            #赋值操作，相当于另起别名，实质是整个内外层对象的引用。详细参考python3的深浅拷贝和赋值

            doc = docs[i]

            # print(doc)

            # print(docs[i])

            for idx in doc:

                if idx<self.uni_count:

                    doc[idx] = doc[idx] / (docs_length1[i] + 0.0)* idf[idx]

                else:

                    doc[idx] = doc[idx] / (docs_length2[i] + 0.0)* idf[idx]

            # print(doc)

            # print(docs[i])

            # exit()

                # print(docs)

                # num += 1

                # if num ==2:

                #      exit()

        # for doc in docs:

        #     print(doc)

        #     exit()

        return docs

    def initTheta(self):

        '''

        随机初始化theta

        '''

        self.theta = []

        for i in range(len(self.dic)):

            self.theta.append(random.random())

    def sigmoid(self,x):

        '''

        sigmoid function

        '''

        return 1.0/(1+math.exp(-x))

    def SGD(self, iter, train_f, test_f):

        '''

        Stochastic Gradient Descent

        '''

        #随机初始化theta

        self.initTheta()

        #start SGD

        for j in range(iter):

            sample = random.sample(range(len(train_f)), len(train_f))

            for i in sample:

                thetaX = 0

                x = train_f[i]

                for idx in x:

                    thetaX += self.theta[idx] * x[idx]

                #LR回归求解预测值，Loggstic Regression

                h = self.sigmoid(thetaX)

                #损失函数的求导步骤求误差，用于迭代跟新thetaX

                error = self.train_label[i] - h

                #SGD更新迭代跟新参数thetaX

                for idx in x:

                    self.theta[idx] = self.theta[idx]+ (self.alpha*error*x[idx])

                print('iter %d' % j)

                print('alpha',self.alpha)

        test_acc = self.test(train_f,test_f)

        print('test_acc',test_acc)

    def test(self,train_f, test_f):

        '''

        测试

        '''

        correct = 0

        for i in range(len(train_f)):

            x = train_f[i]

            thetaX = 0

            for idx in x:

                thetaX += self.theta[idx] * x[idx]

            h = self.sigmoid(thetaX)

            #临时变量，暂存预测的文章的类型

            y = 0

            if h > 0.5:

                y = 1

            #统计预测正确的数目

            if y == self.train_label[i]:

                correct += 1

        #计算预测的准确值

        train_acc = correct /(len(train_f) + 0.0)

        print('6-1 training acc', train_acc)

        self.fw_train.write(str(train_acc))

        self.fw_train.write('\n')

        correct = 0

        for i in range(len(test_f)):

            x = test_f[i]

            thetaX = 0

            for idx in x:

                thetaX += self.theta[idx] * x[idx]

            h = self.sigmoid(thetaX)

            y = 0

            if h > 0.5:

                y = 1

            if y == self.test_label[i]:

                correct += 1

        test_acc = correct /(len(test_f) + 0.0)

        print('6-1 test acc', test_acc)

        self.fw_test.write(str(test_acc))

        self.fw_test.write('\n')

        return test_acc

    def closeFw(self):

        self.fw_test.close()

        self.fw_train.close()

    def writeGramTable(self):

        '''

        输出保存词表及其权重

        '''

        self.fw_grams = open(self.log_dir + '/words.txt', 'w')

        gram_weight = {}

        for g in self.dic:

            #判断对象的变量类型

            if isinstance(g,tuple):

                str = g[0]+' ' +g[1]

            else:

                str =g

            gram_weight[str] = self.theta[self.dic[g]]

        sort = sorted(gram_weight.items(), key=lambda e: e[1], reverse=False)

        #按值排序

        for(gram, weight) in sort:

            self.fw_grams.write(gram)

            self.fw_grams.write(' ')

            self.fw_grams.write('%.3f' %weight)

            self.fw_grams.write('\n')

        self.fw_grams.close()

    def writeResults(self, test_f):

        '''

        输出分类结果

        '''

        self.fw_res = open(self.log_dir+'results.txt','w')

        for i in range(len(test_f)):

            x = test_f[i]

            thetaX = 0

            for idx in x:

                thetaX += self.theta[idx] * x[idx]

            h= self.sigmoid(thetaX)

            y = 0

            if h>0.5:

                y = 1

            self.fw_res.write('%d' % y)

            self.fw_res.write(' ')

            self.fw_res.write('%d' % self.test_label[i])

            self.fw_res.write(' ')

            if y == self.test_label[i]:

                self.fw_res.write('y')

            else:

                self.fw_res.write('n')

            self.fw_res.write('\n')

        self.fw_res.close()

    def truncateTest(self,threshold,test_f):

        '''

        截取一些小权重的词，进行测试

        '''

        correct = 0

        for i in range(len(test_f)):

            x = test_f[i]

            thetaX = 0

            for idx in x:

                if abs(self.theta[idx]) >= threshold:

                    thetaX += self.theta[idx] * x[idx]

            h = self.sigmoid(thetaX)

            y = 0

            if h>0.5:

                y = 1

            if y == self.test_label[i]:

                correct += 1

        test_acc = correct / (len(self.test_docs) + 0.0)

        return test_acc

    def SGDwithTFIDF(self,iter):

        '''

        特征抽取

        用IFIDF做特征的stochastic Gradient Descent

        (HashingTF and IDF)词频-逆向文件频率，体现一个文档中词语对于语料库的重要程度。

        '''

        self.train_docs = self.buildDocsTFIDF(self.train_dir)

        # print(self.train_docs)

        print('train TFIDF',len(self.train_docs))

        self.test_docs = self.buildDocsTFIDF(self.test_dir)

        # print('test TFIDF',len(self.test_docs))

        # exit()

        #将TFIDF值进行SGD模型优化求解

        self.SGD(iter,self.train_docs,self.test_docs)

        #关闭文件流

        self.closeFw()

        #输出保存词表和权重

        self.writeGramTable()

        #输出分类结果

        self.writeResults(self.test_docs)

        '''

        截取一小段进行测试

        '''

        for i in range(600):

            threshold = i/600.0*40.0

            print('truncate threshold %f acc %f' %(threshold,self.truncateTest(threshold, self.test_docs)))

if __name__ == '__main__':

    #数据初始化，设置输入路径

    lr = LR_Uni_Bi('./train', './test', alpha=0.5)

    #训练数据，特征变化，构造一元和二元语言模型

    lr.buildDic(min1=0,min2=0,sw1=True,sw2=True)

    #有监督训练，提取训练数据标签

    lr.getlabel()

    #设置输出路径

    lr.setLog('./out')

    #模型构建

    lr.SGDwithTFIDF(iter= 50)

机器学习实战-logistic回归分类的更多相关文章

[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习实战--logistic回归
#encoding:utf-8 from numpy import * def loadDataSet(): #加载数据 dataMat = []; labelMat = [] fr = open(' ...
机器学习实战 logistic回归 python代码
# -*- coding: utf-8 -*- """ Created on Sun Aug 06 15:57:18 2017 @author: mdz "&q ...
Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
第七篇：Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
机器学习算法-logistic回归算法
Logistic回归算法调试一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...
机器学习实战之logistic回归分类
利用logistic回归进行分类的主要思想:根据现有数据对分类边界建立回归公式,并以此进行分类. logistic优缺点: 优点:计算代价不高,易于理解和实现.缺点:容易欠拟合,分类精度可能不高. . ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...

随机推荐

Springboot项目中pom.xml的Oracle配置错误问题
这几天刚开始学习Springboot碰见各种坑啊,这里记录一个添加Oracle引用的解决方案. 前提:开发工具IDEA2019.2,SpringBoot,maven项目:Oracle版本是Oracle ...
我是如何一步步编码完成万仓网ERP系统的（十四）库存 3.库存日志
https://www.cnblogs.com/smh188/p/11533668.html(我是如何一步步编码完成万仓网ERP系统的(一)系统架构) https://www.cnblogs.com/ ...
.Net Core部署Linux系统（CentOS7.6）
.net core版本:2.2 Linux:CentOS 7.6 所需工具: Xshell 6 + Xftp 6 第一步:在Startup类中加入这两行代码然后本地发布项目: 第二步,安装.Net ...
springmvc上传图片到Tomcat虚拟目录
一.简介通过把文件上传到tomcat的虚拟目录,实现代码和资源文件分开. 二.环境 spring+springmvc+mybatis 三.代码实现 1.导入文件上传的jar <dependen ...
编译OpenCV提示opencv_contrib缺少boostdesc_bgm.i等文件
错误提示: ~/opencv_contrib/modules/xfeatures2d/src/boostdesc.:: fatal error: boostdesc_bgm.i: No such fi ...
@Async源码探究
1. @Async源码探究 1.1. 上代码 @SpringBootApplication @EnableAsync public class SpringbootLearnApplication { ...
Linux shell 中断循环语句
无限循环: 循环有限的生命,他们跳出来,一旦条件是 false 还是 false 取决于循环. 由于所需的条件是不符合一个循环可能永远持续下去.永远不会终止执行一个循环执行无限次数.出于这个原因,这样 ...
centos 查看硬盘情况
lsblk 查看分区和磁盘 df -h ...
php对接app支付宝支付出错Cannot redeclare Decrypt()
报错原因: alipaySDK中定义的Encrypt()/Decrypt()函数与Laravel中定义的Encrypt()/Decrypt()函数重名了. 解决办法: 修改alipaySDK中定义的函 ...
【Servlet】Servlet的配置
创建时间:6.15 Servlet的配置 1．基本配置其中url-pattern的配置方式: 1)完全匹配访问的资源与配置的资源完全相同才能访问到 2)目录匹配格式:/虚拟的目录../* ...

机器学习实战-logistic回归分类