python之NLP数据清洗

1、知识点

"""

安装模块：bs4 nltk gensim

nltk:处理英文

    1、安装

    2、nltk.download() 下载相应的模块

英文数据处理：

    1、去掉html标签  example = BeautifulSoup(df['review'][1000],'html.parser').get_text()

    2、移除标点      example_letter = re.sub(r'[^a-zA-Z]',' ',example)

    3、切分成词/token      words = example_letter.lower().split()

    4、去掉停用词  例如：the  a  an  it's

                stopwords = {}.fromkeys([line.rstrip() for line in open('./stopwords.txt')])

                words_nostop = [w for w in words if w not in stopwords]

    5、重组为新的句子

词向量解决方案：

    1、one-hot编码

        缺点：这种方案浪费存储空间还是次要的，更重要的是词与词（向量与向量）之间没有相关性，计算机完全无法进行哪怕一丁点的理解和处理

    2、基于奇异值分解（SVD）的方法

        步骤：a)第一步是通过大量已有文档统计形成词空间矩阵X，有两种办法。

                一种是统计出某篇文档中各个词出现的次数，假设词的数目是W、文档篇数是M，则此时X的维度是W*M；

                第二种方法是针对某个特定词，统计其前后文中其它词的出现频次，从而形成W*W的X矩阵。

              b)第二步是针对X矩阵进行SVD分解，得到特征值，根据需要截取前k个特征值及对应的前k个特征向量，

                那么前k个特征向量构成的矩阵维度是W*k，这就构成了所有W个词的k维表示向量

        缺点：

            1、需要维护一个极大的词空间稀疏矩阵X，而且随着新词的出现还会经常发生变化；

            2、SVD运算量大，而且每增减一个词或文档之后，都需要重新计算

    3、构建一个word2vec模型：通过大量文档迭代学习其中的参数及已有词的编码结果，这样每新来一篇文档都不用修改已有模型，只需要再次迭代计算参数和词向量即可

            举例：我爱python和java

            a)CBOW算法: 输入:我爱， 目标值：python和java

                   CBOW算法使用上下文窗口内词向量作为输入，将这些向量求和（或取均值）后，求得与输出词空间的相关性分布，

                   进而使用softmax函数得到在整个输出词空间上的命中概率，与目标词one-hot编码的交叉熵即为loss值，

                   通过loss针对输入和输出词向量的梯度，即可使用梯度下降（gradient descent）法得到一次针对输入和输出词向量的迭代调整。

            b)Skip-Gram算法: 输入:python和java， 目标值：我爱

                    Skip-Gram算法使用目标词向量作为输入，求得其与输出词空间的相关性分布，

                    进而使用softmax函数得到在整个输出词空间上的命中概率，与one-hot编码的上下文词逐一计算交叉熵，

                    求和后即为loss值，通过loss针对输入和输出词向量的梯度，

                    即可使用梯度下降（gradient descent）法得到一次针对输入和输出词向量的迭代调整

"""

2、中文数据清洗(使用停用词)

import os

import re

import numpy as np

import pandas as pd

from bs4 import BeautifulSoup

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import confusion_matrix

from sklearn.linear_model import LogisticRegression

import nltk

from nltk.corpus import stopwords

import  jieba

def clean_chineses_text(text):

    """

    中文数据清洗  stopwords_chineses.txt存放在博客园文件中

    :param text:

    :return:

    """

    text = BeautifulSoup(text, 'html.parser').get_text() #去掉html标签

    text =jieba.lcut(text);

    stopwords = {}.fromkeys([line.rstrip() for line in open('./stopwords_chineses.txt')]) #加载停用词(中文)

    eng_stopwords = set(stopwords) #去掉重复的词

    words = [w for w in text if w not in eng_stopwords] #去除文本中的停用词

    return ' '.join(words)

3、英文数据清洗(使用停用词)

import os

import re

import numpy as np

import pandas as pd

from bs4 import BeautifulSoup

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import confusion_matrix

from sklearn.linear_model import LogisticRegression

import nltk

from nltk.corpus import stopwords

import  jieba

def clean_english_text(text):

    """

    英文数据清洗  stopwords_english.txt存放在博客园文件中

    :param text:

    :return:

    """

    text = BeautifulSoup(text, 'html.parser').get_text() #去掉html标签

    text = re.sub(r'[^a-zA-Z]', ' ', text)  #只保留英文字母

    words = text.lower().split()  #全部小写

    stopwords = {}.fromkeys([line.rstrip() for line in open('./stopwords_english.txt')]) #加载停用词(中文)

    eng_stopwords = set(stopwords) #去掉重复的词

    words = [w for w in words if w not in eng_stopwords] #去除文本中的停用词

    print(words)

    return ' '.join(words)

if __name__ == '__main__':

    text = "ni hao ma ,hello ! my name is haha'. ,<br/> "

    a = clean_english_text(text)

    print(a)

    test1 = "你在干嘛啊，怎么不回复我消息!,对了“你妈在找你”。"

    b = clean_chineses_text(test1)

    print(b)

4、nltk的停用词进行数据清洗

def clean_english_text_from_nltk(text):

    """

    使用nltk的停用词对英文数据进行清洗

    :param text:

    :return:

    """

    text = BeautifulSoup(text,'html.parser').get_text() #去掉html标签

    text = re.sub(r'[^a-zA-Z]',' ',text) #除去标点符号

    words = text.lower().split() #转为小写并切分

    stopwords = nltk.corpus.stopwords.words('english') #使用nltk的停用词

    wordList =[word for word in words if word not in stopwords]

    return ' '.join(wordList)

python之NLP数据清洗的更多相关文章

python－－数据清洗
1.数据错误: 错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• '0' 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元 ...
python之ETL数据清洗案例源代码
#python语言 import pandas as pd import time data = pd.read_excel('ETL_数据清洗挑战.xlsx','测试数据',dtype=str)#读 ...
利用python进行数据分析—数据清洗记录3，map，apply，
社会心态调查报告导语: 时代决定心态,心态映照时代.社会心态产生于社会个体心理,又以整体的形态存在,进而影响着每个社会成员的社会价值取向和行为方式,影响着国家经济政治和社会发展大局.良好的社会心 ...
使用python脚本进行数据清洗（1）
1. 原始表 CREATE TABLE ml_100k (userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMAT DELIMI ...
Viterbi 算法 Python实现 [NLP学习一]
最近思考了一下未来,结合老师的意见,还是决定挑一个方向开始研究了,虽然个人更喜欢鼓捣.深思熟虑后,结合自己的兴趣点,选择了NLP方向,感觉比纯粹的人工智能.大数据之类的方向有趣多了,个人还是不适合纯粹 ...
Python 基于 NLP 的文本分类
这是前一段时间在做的事情,有些python库需要python3.5以上,所以mac请先升级 brew安装以下就好,然后Preference(comm+',')->Project: Text-Cl ...
Python 爬虫大量数据清洗 ---- sql语句优化
. 问题描述在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time( ...
python简单的数据清洗，数据筛选方法归类
创建数组有两种方式,1.直接赋值 2.随机变量生成随机生成包括4种:np.arange(20),np.linspace(0,10,5),np.logspace(0,2,5),np.random.ran ...
python之NLP词性标注
1.知识点包括中文和英文的词性标注主要使用的库是nltk和jiaba 2.代码 # coding = utf-8 import nltk from nltk.corpus import stopwo ...

随机推荐

前端基础(七)：Toastr(弹出框)
Toastr 简介 jquery toastr 一款轻量级的通知提示框插件. 网页开发中经常会用到提示框,自带的alert样式无法调整,用户体验差. 所以一般通过自定义提示框来实现弹窗提示信息,而jq ...
关于使用jquery评论插件...
.今天做项目,使用了一个评论插件调用出来没事, 可是添加的时候报错 Uncaught TypeError: $(...).find(...).live is not a function 这个错误 ...
Linux搭建.net core CI/CD环境
一.简介微服务开发中自动化.持续化工程十分重要,在成熟的CI/CD环境中项目团队可以灵活分配,大大提供团队效率.如果还不了解什么是CI/CD,可以先查看相关文章,这里主要介绍环境的搭建,相关原理就不 ...
Elasticsearch：fuzzy 搜索（模糊搜索）
在实际的搜索中,我们有时候会打错字,从而导致搜索不到.在Elasticsearch中,我们可以使用fuzziness属性来进行模糊查询,从而达到搜索有错别字的情形. match查询具有"fu ...
vmware添加新硬盘磁盘扫描脚本
#! /bin/bash echo "- - -" > /sys/class/scsi_host/host0/scan echo "- - -" > ...
css hack的理解
什么是CSS hack 由于不同厂商的流览器或某浏览器的不同版本(如IE6-IE11,Firefox/Safari/Opera/Chrome等),对CSS的支持.解析不一样,导致在不同浏览器的环境中呈 ...
uni-app引入css动画库
引入Animate动画库 Animate中文网地址:http://www.animate.net.cn/ Animate下载地址:https://daneden.github.io/animate.c ...
MFC 线程启动、暂停、继续、终止
CWinThread* p_myThread;//创建线程指针 BOOL flag_myThread = FALSE;//是否终止 //头文件中声明(放类内) static UINT MyThread ...
Navicat创建连接
https://blog.csdn.net/suprezheng/article/details/90037702 以下是不用创建直接可用的
查看API工具 https://editor.swagger.io/
The base URL for the API is: https://api.cloud.nalantis.com/api/ The OpenAPI documentation is ava ...

python之NLP数据清洗

python之NLP数据清洗的更多相关文章

随机推荐

热门专题