python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）

结巴分词

import jieba

"""

pip install jieba

1、精确模式

2、全模式

3、搜索引擎模式

"""

txt = '中国，是以华夏文明为源泉、中华文化为基础，并以汉族为主体民族的多民族国家，通用汉语、汉字，汉族与少数民族被统称为“中华民族”，又自称为炎黄子孙、龙的传人。'

# 精确模式(没有冗余)

# res = jieba.cut(txt)  # 获取可迭代对象
res = jieba.lcut(txt) # 获取列表

result:

['中国', '，', '是', '以', '华夏', '文明', '为', '源泉', '、', '中华文化', '为', '基础', '，', '并', '以', '汉族', '为', '主体', '民族', '的', '多', '民族', '国家', '，', '通用', '汉语', '、', '汉字', '，', '汉族', '与', '少数民族', '被', '统称', '为', '“', '中华民族', '”', '，', '又', '自称为', '炎黄子孙', '、', '龙的传人', '。']

# 全模式

# res1 = jieba.cut(txt, cut_all=True)  # 获取可迭代对象
res1 = jieba.lcut(txt, cut_all = True)

result:

['中国', '', '', '是', '以', '华夏', '文明', '明为', '源泉', '', '', '中华', '中华文化', '华文', '文化', '化为', '基础', '', '', '并以', '汉族', '为主', '主体', '民族', '的', '多', '民族', '国家', '', '', '通用', '汉语', '', '', '汉字', '', '', '汉族', '与', '少数', '少数民族', '民族', '被', '统称', '称为', '', '', '中华', '中华民族', '民族', '', '', '', '又', '自称', '自称为', '称为', '炎黄', '炎黄子孙', '子孙', '', '', '龙的传人', '传人', '', '']

# 搜索引擎模式

# res2 = jieba.cut_for_search(txt)  # 获取可迭代对象
res2 = jieba.lcut_for_search(txt)

result:

['中国', '，', '是', '以', '华夏', '文明', '为', '源泉', '、', '中华', '华文', '文化', '中华文化', '为', '基础', '，', '并', '以', '汉族', '为', '主体', '民族', '的', '多', '民族', '国家', '，', '通用', '汉语', '、', '汉字', '，', '汉族', '与', '少数', '民族', '少数民族', '被', '统称', '为', '“', '中华', '民族', '中华民族', '”', '，', '又', '自称', '称为', '自称为', '炎黄', '子孙', '炎黄子孙', '、', '传人', '龙的传人', '。']

词云：

示例一：

五角星.jpg运行结果程序输出cy.png

# pip install wordcloud

# from wordcloud import WordCloud

# pip install scipy==1.2.0          #下载老版本，已装新版本会被覆盖，新版本没有该方法

# pip install imageio

from wordcloud import WordCloud     #导入子包，节约资源

import matplotlib.pyplot as plt     #绘图分析模块

from scipy.misc import imread       #用于读写图像

#from imageio import imread         #可用imageio库替代scipy库

txt="life uis short you need python"

txt1='中国，是以华夏文明为源泉、中华文化为基础'

color_mask=imread('五角星.jpg')                            #项目内放入一张五角星.jpg

wc= WordCloud(font_path=r'C:\Windows\Fonts\simkai.ttf',     #windows自带字体文件路径

              background_color='white',                     #设置背景色为白色

              width=1080,

              height=960,

              min_font_size=4,                              #设定词云中最小字号，默认为4号

              mask=color_mask                               #给定词云形状

              )

wc.generate(txt1)                                           #向WordCloud对象wc中加载文本txt1

wc.to_file('cy.png')                                        #将词云输出为图像文件

plt.imshow(wc)

plt.show()                                                  #显示图片

示例二：

运行结果输出小康社会.png

import jieba

from wordcloud import WordCloud     #导入子包，节约资源

import matplotlib.pyplot as plt     #下载matplotlib包

from scipy.misc import imread

f = open('决胜全面建成小康社会.txt',encoding='utf-8')           #打开指定txt文件，编码为utf-8

data = f.read()                                              #读取文件内容

res=jieba.lcut(data)                                         #精确分词,变为列表

result = ''.join(res)                                        #把列表组合成字符串

color_mask = imread('五角星.jpg')                             #设定形状

wc = WordCloud(font_path = r'C:\Windows\Fonts\simkai.ttf',   #windows内的字体文件

              background_color = 'white',

              width = 1080,

              height = 960,

              mask = color_mask                              #给定词云形状

              )

wc.generate(result)                                          #向WordCloud对象wc中加载文本

wc.to_file('小康社会.png')                                    #将词云输出为图像文件

plt.imshow(wc)

plt.show()                                                   #显示图片

哔哩哔哩弹幕爬取示例：

sign.txt(中途生成，传入弹幕信息)

输出bili.png

"""

pip install pandas      数据分析包

pip install bs4         HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据

pip install requests

pip install lxml

"""

import requests

from bs4 import BeautifulSoup

import pandas as pd

import datetime

import re                           #用于正则表达式

from wordcloud import WordCloud

import jieba

from scipy.misc import imread

import matplotlib.pyplot as plt

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

}　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　   #模拟浏览器访问

url = 'http://comment.bilibili.com/106015992.xml'     #视频弹幕网页(下方标注B站弹幕来源)

response = requests.get(url=url,headers=header)       # 向对方服务器发送请求

response.encoding = response.apparent_encoding        # 设置字符编码为获取网页当前编码格式

data = response.text                  #获取文本

soup = BeautifulSoup(data,'lxml')     #只有lxml 解析，才能进行各种参数分析

d_list = soup.find_all('d')           #获取所有的d标签

dlst = []

for i in d_list:                # 循环拿出所有的d标签

    danmu = {}

    danmu['弹幕'] = i.text      #获取文本信息

    # danmu['时间']=datetime.datetime.now()

    # danmu['路径']=url

    dlst.append(danmu)          #添加到数组中

df = pd.DataFrame(dlst)         #转换成二维数组，类似于execl表格

f = open('sign.txt','w',encoding = 'utf')       #打开sign.txt文件，没有则自动生成文件

for i in df['弹幕'].values:           # 循环所有的文本信息

    pat = re.compile(r'[一-龥]+')       #定义过滤数据的规则，[一-龥]代表所有的汉字

    filter_data = re.findall(pattern = pat,string = i)        # 执行过滤操作

    f.write(''.join(filter_data))       #写入文本，样式如上图文本图片所示

f.close()                               #关闭txt文件

f = open('sign.txt', 'r', encoding='utf8')  #打开sign.txt文件

data = f.read()                             #读取文本，传入data变量

result = ' '.join(jieba.lcut(data))         #把读取内容分词，然后用空格连接成字符串

f.close()                                   #关闭txt文件

color_mask = imread('五角星.jpg')           #设定形状

wc = WordCloud(

    font_path=r'C:\Windows\Fonts\simkai.ttf',  #windows内的字体文件

    width=1000,

    height=800,

    mask=color_mask,                           #给定词云形状

    background_color='white'                   #设定词云背景为白色

)

wc.generate(result)                            #向WordCloud对象wc中加载文本

wc.to_file('bili.png')                         #将词云输出为图像文件

plt.imshow(wc)

plt.show()                                     # 显示图片

B站弹幕弹幕查找：

1.视频页面右键，点击查看源代码

2.在源码中搜索cid",找出对应ID

3.输入comment.bilibili.com/对应ID.xml 即可找到对应弹幕页面

python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）的更多相关文章

python预课04 列表，元祖，统计值计算示例，py文件转为EXE文件，爬虫初步学习
列表,元组 #list l1 = [1, 2, 3, '高弟弟'] #定义一个列表 #增 l1.append("DSB") #最后增加"DSB"的元素 #删 l ...
python爬虫10 | 网站维护人员：真的求求你们了，不要再来爬取了！！
今天小帅b想给大家讲一个小明的小故事 ... 话说在很久很久以前小明不小心发现了一个叫做学习python的正确姿势的公众号从此一发不可收拾看到什么网站都想爬取有一天小明发现了一个小黄 ...
爬虫05 /js加密/js逆向、常用抓包工具、移动端数据爬取
爬虫05 /js加密/js逆向.常用抓包工具.移动端数据爬取目录爬虫05 /js加密/js逆向.常用抓包工具.移动端数据爬取 1. js加密.js逆向:案例1 2. js加密.js逆向:案例2 3 ...
python3网络爬虫系统学习：第一讲基本库urllib
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 pars ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
python 生成18年写过的博客词云
文章链接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q 回看18年,最有成就的就是有了自己的博客网站,坚持记录,写文章,累计写了36篇了,从一开 ...
爬虫之绘图matplotlib与词云(七)
1 绘制条形图 import matplotlib # 数据可视化 from matplotlib import pyplot as plt # 配置字体 matplotlib.rcParams[&q ...
爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...
wordcloud + jieba 生成词云
利用jieba库和wordcloud生成中文词云. jieba库:中文分词第三方库分词原理: 利用中文词库,确定汉字之间的关联概率,关联概率大的生成词组三种分词模式: 1.精确模式:把文本精确的切 ...

随机推荐

解决myeclipse2017 properties中文被Unicode编码
输入:http://propedit.sourceforge.jp/eclipse/updates/ 在线安装插件解决.
spark listener
最近在做一个需求,当spark程序在读数据或写数据时,将所读的条数或或所写的条数实时的展现出来,这里用到了SparkListener,sparklisten 可以获取spark 各个运行阶段的状态. ...
myeclipse导入项目后中文乱码
window----preference ----general-----workspace-------text file encoding 可以多测试下:gbk,utf-8.....
Akka-CQRS（11）- akka-http for http-web-service: Marshalling-数据序列化
前面几篇讨论了关于gRPC方式的前后端连接集成方式.gRPC也是一个开放的标准,但讲到普及性就远远不及基于http/1.1协议的web-service了.特别是gRPC的前端编程还是有一定的门槛,所以 ...
asp.net core 日志记录到elk
关于ELK的安装大家可以参考ubuntu18 docker中部署ELK 和 caas/docker-elk , 首先需要在ELK中创建一个index patterns 首先我们创建一个aspnet ...
（9）ASP.NET Core 中的MVC路由二
1.URL生成 MVC应用程序可以使用路由的URL生成功能,生成指向操作(Action)的URL链接. IUrlHelper 接口用于生成URL,是MVC与路由之间的基础部分.在控制器.视图和视图组件 ...
latex设置不同中英文字体
latex中,中文我喜欢宋体,英文喜欢Courier New,于是,我分别设置了中英文字体,文章瞬间顺眼了很多. \documentclass[UTF8]{ctexart} \usepackage[a ...
.Net Core 指定编码格式的问题
我们在读取txt文件时,如果文件格式不是utf8,则获取的中文会乱码,所以要么另存文件为utf8格式,要么使用和文件相同的编码来读取. 如果文件为utf8,则: //一种 StreamReader s ...
Java可视化计算器
利用java中的AWT和SWING包来做可视化界面. 首先来简单了解一下这两个包: AWT和Swing都是Java中用来做可视化界面的.AWT(Abstract Window Toolkit):抽象窗 ...
关于BASE 24 ，BASE 64原理以及实现程序
关于BASE 24 ,BASE 64原理以及实现程序来源 https://wangye.org/blog/archives/5/ 可能很多人听说过Base64编码,很少有人听说过Base24编码,B ...

python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）

python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）的更多相关文章

随机推荐

热门专题