Python3实现文本预处理

1、数据集准备

测试数据集下载：https://github.com/Asia-Lee/Vulnerability_classify/blob/master/testdata.xls

停用词过滤表下载：https://github.com/Asia-Lee/Vulnerability_classify/blob/master/stopwords.txt

2、数据预处理

（1）简单分词

# -*- coding: utf-8 -*-

import pandas as pd

import jieba

"""

函数说明：简单分词

Parameters:

     filename:数据文件

Returns:

     list_word_split：分词后的数据集列表

     category_labels: 文本标签列表

"""

def word_split(filename):

    read_data=pd.read_excel(filename)

    list_word_split=[]

    category_labels=[]

    for i in range(len(read_data)):

        row_data = read_data.iloc[i, 1]           # 读取单个漏洞描述文本

        list_row_data = list(jieba.cut(row_data)) # 对单个漏洞进行分词

        list_row_data=[x for x in list_row_data if x!=' '] #去除列表中的空格字符

        list_word_split.append(list_row_data)

        row_data_label=read_data.iloc[i,2]   #读取单个漏洞的类别标签

        category_labels.append(row_data_label) #将单个漏洞的类别标签加入列表

    return list_word_split, category_labels

if __name__=='__main__':

    list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表

    print(list_word_split)

    print(category_labels)

    print('分词成功')

　　分词结果：

（2）词性还原

# -*- coding: utf-8 -*-

import pandas as pd

import jieba

from nltk.stem import WordNetLemmatizer

"""

函数说明：词性还原

Parameters:

     list_words:数据列表

Returns:

     list_words_lemmatizer：词性还原后的数据集列表

"""

def word_lemmatizer(list_words):

    wordnet_lemmatizer = WordNetLemmatizer()

    list_words_lemmatizer = []

    for word_list in list_words:

        lemmatizer_word = []

        for i in word_list:

            lemmatizer_word.append(wordnet_lemmatizer.lemmatize(i))

        list_words_lemmatizer.append(lemmatizer_word)

    return list_words_lemmatizer

if __name__=='__main__':

    list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表

    print('分词成功')

    list_words_lemmatizer=word_lemmatizer(list_word_split)  #词性还原

    print('词性还原成功')

（3）停用词过滤

# -*- coding: utf-8 -*-

import pandas as pd

import jieba

from nltk.stem import WordNetLemmatizer

"""

函数说明：停用词过滤

Parameters:

     filename:停用词文件

     list_words_lemmatizer:词列表

Returns:

     list_filter_stopwords：停用词过滤后的词列表

"""

def stopwords_filter(filename,list_words_lemmatizer):

    list_filter_stopwords=[]  #声明一个停用词过滤后的词列表

    with open(filename,'r') as fr:

        stop_words=list(fr.read().split('\n')) #将停用词读取到列表里

        for i in range(len(list_words_lemmatizer)):

            word_list = []

            for j in list_words_lemmatizer[i]:

                if j not in stop_words:

                    word_list.append(j.lower()) #将词变为小写加入词列表

            list_filter_stopwords.append(word_list)

        return list_filter_stopwords

if __name__=='__main__':

    list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表

    print('分词成功')

    list_words_lemmatizer=word_lemmatizer(list_word_split)  #词性还原

    print('词性还原成功')

    list_filter_stopwords=stopwords_filter('stopwords.txt',list_words_lemmatizer) #获得停用词过滤后的列表

    print("停用词过滤成功")

（4）特征选择

对于处理这类文本数据，常用的特征选择方法有： TF-IDF（词频-逆向文档频率），信息增益、卡方检验、互信息、N-Gram

（5）文本标签向量化

"""

函数说明：文本向量化，标签向量化   one-hot编码

Parameters:

     feature_words:特征词集

     doc_words:文本列表

     doc_category_labels:文本类别标签

Returns:

     docvec_list:文本向量列表

     labelvec_list:标签向量列表

"""

def words2vec(feature_words,doc_words,doc_category_labels):

    #文本列表转向量列表

    docvec_list=[]

    for words in doc_words:

        docvec = [0] * len(feature_words)

        for j in words:

            if j in feature_words:

                docvec[feature_words.index(j)]=1

        docvec_list.append(docvec)

    #标签列表转向量列表

    labelvec_list = []

    labelset=list(set(doc_category_labels))

    for label in doc_category_labels:

        doclabel = [0] * len(labelset)

        doclabel[labelset.index(label)]=1

        labelvec_list.append(doclabel)

    return docvec_list,labelvec_list

（6）选择算法模型进行训练（机器学习、深度学习）

Python3实现文本预处理的更多相关文章

浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
【NLP】Tika 文本预处理：抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理作者白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
Keras文本预处理
学习了Keras文档里的文本预处理部分,参考网上代码写了个例子 import keras.preprocessing.text as T from keras.preprocessing.text i ...
[ DLPytorch ] 文本预处理&语言模型&循环神经网络基础
文本预处理实现步骤(处理语言模型数据集距离) 文本预处理的实现步骤读入文本:读入zip / txt 等数据集 with zipfile.ZipFile('./jaychou_lyrics.txt. ...
NLP自然语言处理入门-- 文本预处理Pre-processing
引言自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
L4文本预处理
文本预处理 timemachine.txt数据下载地址链接:https://pan.baidu.com/s/1RO2OLyTRQZ90HJUW7V7BCQ 提取码:bjox NLTK数据集下载链接 ...
学习笔记--python中使用多进程、多线程加速文本预处理
一.任务描述最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了 ...
NLP 文本预处理
1.不同类别文本量统计,类别不平衡差异 2.文本长度统计 3.文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度.因此,他们对数据进行繁体转简体的处理. 同时,过滤掉了对分类没有任何作用的 ...
Python3之文本操作
文件操作示例分析: 文件操作一般要经历三个步骤: 打开文件操作文件关闭文件读取操作示例: >>>f = open('test.txt', 'r') # 打开文件test.txt ...

随机推荐

WIN10系统和压缩内存占用磁盘过高的解决方案（亲测有效）
系统和压缩内存磁盘占用过高的解决方案最近一段时间玩游戏看视频经常莫名的卡顿,观察发现电脑卡的时候,WIN10进程中的"系统和压缩内存"一项占用了近100%的磁盘空间. 百度搜索到 ...
zk的KeeperErrorCode = ConnectionLoss错误
额,这东西都快把人搞崩溃了,各种排查各种正常. 最后竟然是因为我在客户端未连接上zkserver的时候就进行了create操作造成的错误. 噗, Exception in thread "m ...
React-Native 之 GD （二）自定义共用导航栏样式
1.自定义导航栏样式步骤一:从效果图中可以看出,导航栏的样式都差不多,因为我们前面已经设置了 Navigator ,这边的话我们还需要自定义 Navigator 的样式,可以看到所有的 Naviga ...
python文件操作错误解决
1. python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illega ...
ios 无法安装xxx,请稍后再试
通过xcode可以用模拟机器运行工程,但是打出包后: 真机安装提示无法安装xxx,请稍后再试已经信任了证书问题原因:xcode配置的运行手机上的操作系统太高了是解决办法:deploymen ...
接口开发01--mock接口
开发接口的常见场景: 1.mock接口,模拟一些接口,在别的接口没有开发好的时候,你需要测试,可以先模拟一个假接口来测试.比如常见 2.若需要调用第三方接口时,比如支付接口. 3.查看数据,比如开放数 ...
sudo无需输入密码设置
注意这个是无需输入密码的设置,不是无需输入sudo 1 在终端输入: sudo gedit /etc/sudoers 2 在打开文件中的root ALL=(ALL:ALL) ALL下一行添加&qu ...
Java ——Number & Math 类装箱拆箱代码块
本节重点思维导图当需要使用数字的时候,我们通常使用内置数据类型,如:byte.int.long.double 等 int a = 5000; float b = 13.65f; byte c = 0 ...
oracle linux 7使用udev绑盘操作
参考:Oracle Linux 7: Udev rule for ASM Cannot Place the ASM Disk in a Directory under /dev (Doc ID 221 ...
python基础-7.2文件内置属性__doc__ __file__ __package__ __cached__ __name__
__doc__ #py文件开头的注释文字 __file__ #当前py文件的路径 __package__ #包含文件所在包,用 . 分隔,当前文件为None,导入的其他文件:指定文件所在包,用.分隔. ...

Python3实现文本预处理

Python3实现文本预处理的更多相关文章

随机推荐

热门专题