朴素贝叶斯分类器基本代码 && n折交叉优化 2

这个代码基于上一个代码

不同的是：读取了txt文件，改变了min_ft与max_ft的参数

import re

import pandas as pd

import warnings

import numpy as np

from sklearn.metrics import roc_auc_score

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import MultinomialNB as MNB #多项分布朴素贝叶斯公式

from sklearn.naive_bayes import BernoulliNB as BNB

from sklearn.model_selection  import cross_val_score

warnings.filterwarnings("ignore")

def proces(col2):

    col2_text=re.sub("[^a-zA-Z]"," ",col2)

    words=col2_text.lower().split()

    #print(words)

    return words

train=pd.read_table('sentimentLabel.txt',lineterminator='\n', header=None, names=[0, 1])

print(train.head(5))

train_labers=train[0]

train_texts=train[1]

class_mapping={'Negative':0, 'Positive':1}

train_labers=train_labers.map(class_mapping)

#print(labers)

test=pd.read_table('test.txt', lineterminator='\n', header=None, names=[0, 1])

test_labers=test[0]

test_texts=test[1]

test_labers=test_labers.map(class_mapping)

train_data=[]

for i in range(len(train_texts)):

    train_data.append(' '.join(proces(train_texts[i])))

    pass

test_data=[]

for i in range(len(test_texts)):

    test_data.append(' '.join(proces(test_texts[i])))

#print(train_data)

#print(test_data)

data_all = train_data+test_data

#print(data_all)

count_vec = TfidfVectorizer(min_df=1,

                            max_df=60,

                            analyzer='word',

                            ngram_range=(1, 2),

                            use_idf=1,

                            smooth_idf=1,

                            sublinear_tf=1,

                            stop_words='english'

)

length=len(train_data)

count_vec.fit(data_all)

data_all=count_vec.transform(data_all)

#print(data_all)

train_data=data_all[:length]

test_data=data_all[length:]

model=MNB()

#model=BNB()

model.fit(train_data,train_labers)

#pred=model.predict(test_data)

MNB(alpha=1.0, class_prior=False, fit_prior=True)

#print("roc_auc",roc_auc_score(test_labers, pred))

#print("roc_auc",roc_auc_score(w, pred))

'''

MX = 0.7996632996632996

MX_idx = 5

for i in range(400, 500):

    if MX < np.mean(cross_val_score(model, train_data, train_labers, cv=i, scoring='roc_auc')):

        MX=np.mean(cross_val_score(model, train_data, train_labers, cv=i, scoring='roc_auc'))

        MX_idx=i

    pass

print("roc_auc",MX, MX_idx)

'''

print("roc_auc", np.mean(cross_val_score(model, train_data, train_labers, cv=297, scoring='roc_auc')))

朴素贝叶斯分类器基本代码 && n折交叉优化 2的更多相关文章

朴素贝叶斯分类器基本代码 && n折交叉优化
自己也是刚刚入门.. 没脸把自己的代码放上去,先用别人的. 加上自己的解析,挺全面的,希望有用. import re import pandas as pd import numpy as np fr ...
记intel杯比赛中各种bug与debug【其五】：朴素贝叶斯分类器的实现和针对性的优化
咱这个项目最主要的就是这个了贝叶斯分类器用于做可以统计概率的二元分类典型的例子就是垃圾邮件过滤理论基础对于贝叶斯算法,这里附上两个链接,便于理解: 朴素贝叶斯分类器的应用-阮一峰的网络日志基 ...
文本分类（TFIDF/朴素贝叶斯分类器/TextRNN/TextCNN/TextRCNN/FastText/HAN）
目录简介 TFIDF 朴素贝叶斯分类器贝叶斯公式贝叶斯决策论的理解极大似然估计朴素贝叶斯分类器 TextRNN TextCNN TextRCNN FastText HAN Highway N ...
数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
用scikit-learn实现朴素贝叶斯分类器转
原文:http://segmentfault.com/a/1190000002472791 朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的 ...
十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算,也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:N ...
机器学习---朴素贝叶斯分类器（Machine Learning Naive Bayes Classifier）
朴素贝叶斯分类器是一组简单快速的分类算法.网上已经有很多文章介绍,比如这篇写得比较好:https://blog.csdn.net/sinat_36246371/article/details/6014 ...
朴素贝叶斯分类器及Python实现
贝叶斯定理贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位. 先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布,后验概率(条件概率)是根据 ...
朴素贝叶斯分类器（Naive Bayes）
1. 贝叶斯定理如果有两个事件,事件A和事件B.已知事件A发生的概率为p(A),事件B发生的概率为P(B),事件A发生的前提下.事件B发生的概率为p(B|A),事件B发生的前提下.事件A发生的概率为 ...

随机推荐

python学习03-使用动态ua
在写爬虫的时候要使用到浏览器ua 分享一下今天学到的如何使用动态ua的进行爬取 1.简单的爬取网页信息 from urllib.request import urlopen #目标地址 url = & ...
IDEA JRebel热部署（ IDEA版本是2020.1.2）
1.安装JRebel插件在IDEA->Settings->plugins先安装JRebel插件: 2.下载工具安装好JRebel后,找到lanyus大神文章中写的git地址:http: ...
题解 CF1354D 【Multiset】
考试拿到题,一看,这不是权值线段树吗? 思路使用线段树每个节点维护该区间内元素出现次数. 根据题目,对于加入.删除元素,我们可以单点修改(\(+1\).\(-1\)),对于输出,我们可随便遍历找 ...
微信小程序反编译~2020年
目录摘要介绍安装反编译脚本使用获取wxapkg文件反编译结论参考资料摘要安装wxappUnpacker小程序反编译工具并使用(2020.03) 关键词: 微信小程序反编译 wxss ...
[开源硬件DIY] 自制一款精致炫酷的蓝牙土壤温湿度传感器，用于做盆栽呵护类产品（API开放，开发者可自行DIY微信小程序＼安卓IOS应用）
目录前言: 1. 成品展示 2. 原理图解析 3. pcb设计 4. 嵌入式对外提供接口 4.1 蓝牙广播 4.2 蓝牙服务和属性 4.3 数据包格式 4.4 数据通信模型重要 . 前言: 本期给 ...
设计模式：strategy模式
思想:将算法进行抽象,然后使用桥接的模式使用算法的抽象接口,达到算法整体替换的目的理解:和桥接模式相同,只是桥接的两边分开的思想不同例子: class Algrithm //算法的抽象 { pub ...
题解洛谷 P2046 【[NOI2010]海拔】
首先进行贪心,发现海拔有梯度时一定是不优的,最优的情况是海拔像断崖一样上升,也就是左上角有一片海拔高度为\(0\),右下角有一片海拔高度为\(1\). 发现这样的性质后,不难想到用最小割来解决问题,但 ...
java8之Stream流处理
简介 Stream 流处理,首先要澄清的是 java8 中的 Stream 与 I/O 流 InputStream 和 OutputStream 是完全不同的概念. Stream 机制是针对集合迭代器 ...
http连接，缓存，cookie，重定向，代理
早期的HTTP协议使用短连接,收到响应后就立即关闭连接,效率很低: HTTP/1.1默认启用长连接,在一个连接上收发多个请求响应,提高了传输效率: 服务器会发送“Connection: ...
面试题四十二：连续子数组的最大和，要求时间复杂度为 n
方法一:举例分析数组的规律,累加数组逐步保存最大值:累加中和<0,则遗弃前面的累加和:重新开始: int FindMaxArray(int [] A) { if(A= ...

朴素贝叶斯分类器基本代码 && n折交叉优化 2

朴素贝叶斯分类器基本代码 && n折交叉优化 2的更多相关文章

随机推荐

热门专题