文本挖掘与NLP笔记——代码向：分词

分词：jieba.cut

words = jieba.cut("我来到北京大学",cut_all=True)

print('全模式：'+'/'.join([w for w in words])) #全模式

words = jieba.cut("我来到北京大学",cut_all=False)

print('精确模式：'+'/'.join([w for w in words])) #精确模式,默认

words = jieba.cut_for_search("小明毕业于北京大学，后在美国哈佛大学深造")

print('/'.join([w for w in words])) #搜索引擎模式,在精确模式的基础上，对长词在此划分

全模式：我/来到/北京/北京大学/大学

精确模式：我/来到/北京大学

请练习添加自定义词典

词性：jieba.posseg

import jieba.posseg as pg

for word, flag in pg.cut("你想去学校填写学生寒暑假住校申请表吗？"):

    print('%s %s' % (word, flag))

'你/学校/填写/学生/寒暑假/住校/申请表'

分词引入停用词

import jieba

import pandas as pd

import numpy as np

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

stopwords = ['想','去','吗','？']

words = jieba.cut("你想去学校填写学生寒暑假住校申请表吗？")

'/'.join([w for w in words if (w not in stopwords)])#此处’/'表示换行

'你/学校/填写/学生/寒暑假/住校/申请表'

txt转dataframe函数

import random

import jieba.posseg as pg

import pandas as pd

import numpy as np

def generatorInfo(file_name):

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in pg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (len(w)>=2)])])

    return data

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

path = '训练集分词结果(随机选取1000个样本).xlsx'

df.to_excel(path,index=False)

df

词云图：wordcloud

%pylab inline

import matplotlib.pyplot as plt

from wordcloud import WordCloud

text = ' '.join(list(df['分词']))

wcloud = WordCloud(

    font_path='simsun.ttc', #字体路径

    background_color='white', #指定背景颜色

    max_words=500,   #词云显示最大词数

    max_font_size=150,  #指定最大字号

    #mask = mask #背景图片

) 

wcloud = wcloud.generate(text)  #生成词云

plt.imshow(wcloud)

plt.axis('off')

plt.show()

提取关键词：jieba.analyse.extract_tags

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

s = ' '.join(list(df['分词']))

for w,x in jieba.analyse.extract_tags(s,withWeight=True):

    print('%s %s' % (w,x))

请练习基于TextRank算法抽取关键词

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

tag = list(set(list(df['类别'])))

for t in tag:

    s = ' '.join(list(df[df['类别']==t]['分词']))

    print(t)

    for w,x in jieba.analyse.extract_tags(s,withWeight=True):

        print('%s %s' % (x,w))

构建词向量

构建词向量简单的有两种分别是TfidfTransformer和 CountVectorizer

#CountVectorizer会将文本中的词语转换为词频矩阵

from sklearn.feature_extraction.text import CountVectorizer

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print(X)

from sklearn.feature_extraction.text import TfidfTransformer

import datetime

starttime = datetime.datetime.now()

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

print(weight)

词语分类：人工vsKmeans

from sklearn.cluster import KMeans

starttime = datetime.datetime.now()

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

path_res = 'Kmeans自动分类结果.xlsx'

df_res.to_excel(path_res,index=False)

df_res

path = 'Kmeans自动分类结果.xlsx'

df = pd.read_excel(path,dtype=str)

df['计数'] = [1 for m in range(len(df['人工分类']))]

df1 = pd.pivot_table(df, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

path_res = '人工与Kmeans分类结果对照.xlsx'

df2.to_excel(path_res,index=False)

df2

import random

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

df

汇总

import random

import jieba

import pandas as pd

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.cluster import KMeans

from sklearn.feature_extraction.text import TfidfTransformer

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

#统计词频

corpus = df['分词'] #语料中的单词以空格隔开

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

#文本向量化

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

df_res['计数'] = [1 for m in range(len(df_res['人工分类']))]

df1 = pd.pivot_table(df_res, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

df2

df['Kmeans分类'] = df_res['Kmeans分类']

df

文本挖掘与NLP笔记——代码向：分词的更多相关文章

seg:NLP之正向最大匹配分词
已迁移到我新博客,阅读体验更佳seg:NLP之正向最大匹配分词完整代码实现放在我的github上:click me 一.任务要求实现一个基于词典与规则的汉语自动分词系统. 二.技术路线采用正向最 ...
NLP自然语言处理中英文分词工具集锦与基本使用介绍
一.中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfor ...
CTR学习笔记&代码实现2-深度ctr模型 MLP->Wide&Deep
背景这一篇我们从基础的深度ctr模型谈起.我很喜欢Wide&Deep的框架感觉之后很多改进都可以纳入这个框架中.Wide负责样本中出现的频繁项挖掘,Deep负责样本中未出现的特征泛化.而后续 ...
CTR学习笔记&代码实现3-深度ctr模型 FNN->PNN->DeepFM
这一节我们总结FM三兄弟FNN/PNN/DeepFM,由远及近,从最初把FM得到的隐向量和权重作为神经网络输入的FNN,到把向量内/外积从预训练直接迁移到神经网络中的PNN,再到参考wide& ...
CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM
这一节我们总结FM另外两个远亲NFM,AFM.NFM和AFM都是针对Wide&Deep 中Deep部分的改造.上一章PNN用到了向量内积外积来提取特征交互信息,总共向量乘积就这几种,这不NFM ...
CTR学习笔记&代码实现5-深度ctr模型 DeepCrossing -> DCN
之前总结了PNN,NFM,AFM这类两两向量乘积的方式,这一节我们换新的思路来看特征交互.DeepCrossing是最早在CTR模型中使用ResNet的前辈,DCN在ResNet上进一步创新,为高阶特 ...
CTR学习笔记&代码实现6-深度ctr模型后浪 xDeepFM/FiBiNET
xDeepFM用改良的DCN替代了DeepFM的FM部分来学习组合特征信息,而FiBiNET则是应用SENET加入了特征权重比NFM,AFM更进了一步.在看两个model前建议对DeepFM, Dee ...
哈工大 NLP 实验一汉语分词系统
NLP实验代码可见github:NLP实验代码整理本实验会查重,而且写起来难度比较大,建议早一些开始.实验报告要用顶会论文形式呈现,建议使用overleaf里的ACL论文latex模板比较方便一点.
HanLP《自然语言处理入门》笔记--2.词典分词
2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本. 中文分词算法大致分为基于词典规则与基于机器学习这两大派. 2.1 什么是词在基于词典的中文分词中,词 ...

随机推荐

【AGC】引导用户购买提升用户留存率
借助AGC的云数据库.云托管.应用内消息.App Linking等服务,您可以给不同价值用户设置不同的优惠套餐活动,引导用户持续购买,增强用户黏性.判断用户价值,发送营销短信,引导用户参与营销活动,提 ...
python推导式与海象运算符
背景:介绍两种python用于语句优化的用法一.推导式 1.推导式简介: Python 推导式是一种独特的数据处理方式,可以从一个数据序列构建另一个新的数据序列的结构体. 支持:列表(list).元 ...
Redis 05 集合
参考源 https://www.bilibili.com/video/BV1S54y1R7SB?spm_id_from=333.999.0.0 版本本文章基于 Redis 6.2.6 Set 中的值 ...
IDEA Git缓慢
有的公司电脑会强制安装一些特定的杀毒软件或者监控软件. 在安装后,我们的 IDEA 可能会出现 Git 相关操作非常缓慢的情况. 虽然用 Git 命令操作不受影响,但终究没有可视化界面直观方便. 解决 ...
HC32L110 在 Ubuntu 下使用 J-Link 烧录
目录 HC32L110(一) HC32L110芯片介绍和Win10下的烧录 HC32L110(二) HC32L110在Ubuntu下的烧录 HC32L110 在 Ubuntu 下使用 J-Link 烧 ...
Java SE 11 新增特性
Java SE 11 新增特性作者:Grey 原文地址:Java SE 11 新增特性源码源仓库: Github:java_new_features 镜像仓库: GitCode:java_new ...
net::ERR_BLOCKED_BY_CLIENT 错误导致页面加载不出来
AdBlock 禁止广告的插件屏蔽你的网络请求,屏蔽了一些重要的文件,导致页面加载不出来. 解决方案: 1.修改资源文件的名称,把ad替换成其他字符: 2.关闭广告拦截器: 3.广告拦截器设置白名单.
彻底搞懂C#异步编程 async和await的原理
1.前提熟练掌握Task并行编程. 2.用Task并行解释async和await异步因为控制台有多线程操作的优化,因此这里选择winform来做示例. 测试代码如下所示: 有三个textbox,一 ...
pytest精髓__fixture
命令:fixture(scope='function',params=None,autouse=False,ids=None,name=None) 参数说明 scope:有四个级别参数函数" ...
FR801xH开发
一.空间分配二.代码流程 1)user_custom_parameters 函数 __jump_table 结构体中保存了一些配置信息: void user_custom_parameters(vo ...

文本挖掘与NLP笔记——代码向：分词

请练习添加自定义词典

请练习基于TextRank算法抽取关键词

文本挖掘与NLP笔记——代码向：分词的更多相关文章

随机推荐

热门专题