写在前面的一点网抑云:

爱情不是随便许诺好了不想再说了没错 是我那么多的冷漠 让你感觉到无比的寂寞不过 一个女人的不仅仅渴望得到的一个承诺我害怕欺骗也害怕寂寞更害怕我的心会渐渐地凋落爱情不是随便许诺好了 不想再说了

环境使用

Python 3.8 解释器 3.10
Pycharm 2021.2 专业版
selenium 3.141.0

本次要用到selenium模块,所以请记得提前下载好浏览器驱动,配置好环境

代码实现

先是安装、导入所需模块

  1. from selenium import webdriver # 导入浏览器的功能
  2. import re # 正则表达式模块, 内置
  3. import time # 时间模块, 程序延迟

1. 创建一个浏览器对象

  1. driver = webdriver.Chrome()

2. 执行自动化

  1. ###想要学习Python?Python学习交流群:660193417 满足你的需求,资料都已经上传群文件,可以自行下载!###
  2. driver.get('https://music.163.com/#/song?id=488249475')
  3. # selenium无法直接获取到嵌套页面里面的数据
  4. driver.switch_to.frame(0) # switch_to.frame() 切换到嵌套网页
  5. driver.implicitly_wait(10) # 让浏览器加载的时候, 等待渲染页面

下拉页面, 直接下拉到页面的底部

  1. js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight'
  2. driver.execute_script(js)

3.解析数据

  1. divs = driver.find_elements_by_css_selector('.itm') # 所有div css语法: 定位到 html 数据/xpath/正则
  2. for div in divs:
  3. cnt = div.find_element_by_css_selector('.cnt.f-brk').text
  4. cnt = re.findall(':(.*)', cnt)[0] # 中英文有区别
  5. print(cnt)

保存数据

翻页

  1. ###想要学习Python?Python学习交流群:660193417 满足你的需求,资料都已经上传群文件,可以自行下载!###
  2. for page in range(10): # 控制翻页 速度太快
  3. # 翻页 , 找到下一页标签, 点击?
  4. driver.find_element_by_css_selector('.znxt').click()
  5. time.sleep(1)
  6. # selenium 欲速则不达

保存为txt文件

  1. with open('contend.txt', mode='a', encoding='utf-8') as f:
  2. f.write(cnt + '\n')

运行代码得到结果

再做个词云 导入相关模块

  1. ###想要学习Python?Python学习交流群:660193417 满足你的需求,资料都已经上传群文件,可以自行下载!###
  2. import jieba # 中文分词库 pip install jieba
  3. import wordcloud # 制作词云图的模块 pip install wordcloud
  4. import imageio

读取文件数据

  1. with open('contend.txt', mode='r', encoding='utf-8') as f:
  2. txt = f.read()
  3. print(txt)

词云图 分词<中文(词语)> 基于结果

  1. txt_list = jieba.lcut(txt)
  2. print('分词结果:', txt_list)

合并

  1. string_ = ' '.join(txt_list) # 1 + 1 = 2 字符串的基本语法
  2. print('合并分词:', string_)

创建词云图

  1. wc = wordcloud.WordCloud(
  2. width=1000, # 图片的宽
  3. height=800, # 图片的高
  4. background_color='white', # 图片的背景色
  5. font_path='msyh.ttc', # 微软雅黑
  6. scale=15, # 词云图默认的字体大小
  7. # mask=img, # 指定词云图的图片
  8. # 停用词< 语气词, 助词,....
  9. stopwords=set([line.strip() for line in open('cn_stopwords.txt', mode='r', encoding='utf-8').readlines()] )
  10. )
  11. print('正在绘制词云图...')
  12. wc.generate(string_) # 绘制词云图
  13. wc.to_file('out.png') # 保存词云图
  14. print('词云图绘制完成...')

最后效果

到点了开始网抑云(悲)但是用python(整活)的更多相关文章

  1. 这个网易云JS解密,老网抑云看了都直呼内行

    最近更新频率慢了,这不是因为CK3发售了嘛,一个字就是"肝".今天来看一下网易云音乐两个加密参数params和encSecKey,顺便抓取一波某歌单的粉丝,有入库哦,使用mysql ...

  2. Android Jetpack 架构组件最佳实践之“网抑云”APP

    背景 近几年,Android 相关的新技术层出不穷.往往这个技术还没学完,下一个新技术又出来了.很多人都是一脸黑人问号? 不少开发者甚至开始哀嚎:"求求你们别再创造新技术了,我们学不动了!& ...

  3. 平分的直线 牛客网 程序员面试金典 C++ Python

    平分的直线 牛客网 程序员面试金典 C++ Python 题目描述 在二维平面上,有两个正方形,请找出一条直线,能够将这两个正方形对半分.假定正方形的上下两条边与x轴平行. 给定两个vecotrA和B ...

  4. 奇偶位交换 牛客网 程序员面试金典 C++ Python

    奇偶位交换 牛客网 程序员面试金典 C++ Python 题目描述 请编写程序交换一个数的二进制的奇数位和偶数位.(使用越少的指令越好) 给定一个int x,请返回交换后的数int. 测试样例: 10 ...

  5. 字符串压缩 牛客网 程序员面试金典 C++ Python

    字符串压缩 牛客网 程序员面试金典 C++ Python 题目描述 利用字符重复出现的次数,编写一个方法,实现基本的字符串压缩功能.比如,字符串"aabcccccaaa"经压缩会变 ...

  6. 回文链表 牛客网 程序员面试金典 C++ Python

    回文链表 牛客网 程序员面试金典  C++ Python 题目描述 请编写一个函数,检查链表是否为回文. 给定一个链表ListNode* pHead,请返回一个bool,代表链表是否为回文. 测试样例 ...

  7. 另类加法 牛客网 程序员面试经典 C++ Python

    另类加法  牛客网 程序员面试经典 C++ Python 题目描述 请编写一个函数,将两个数字相加.不得使用+或其他算数运算符. 给定两个int A和B.请返回A+B的值 测试样例: 1,2 返回:3 ...

  8. 双栈排序 牛客网 程序员面试金典 C++ Python

    双栈排序 牛客网 程序员面试金典 C++ Python 题目描述 请编写一个程序,按升序对栈进行排序(即最大元素位于栈顶),要求最多只能使用一个额外的栈存放临时数据,但不得将元素复制到别的数据结构中. ...

  9. 原串反转 牛客网 程序员面试金典 C++ Python

    原串反转 牛客网 程序员面试金典 C++ Python 题目描述 请实现一个算法,在不使用额外数据结构和储存空间的情况下,翻转一个给定的字符串(可以使用单个过程变量). 给定一个string iniS ...

随机推荐

  1. 史上最全log4j2远程命令执行漏洞汇总报告

    已投稿信安之路公众号,文章链接

  2. acwing刷题-放养又没有完全放养

    题目 一个鲜为人知的事实是,奶牛拥有自己的文字:「牛文」. 牛文由 26 个字母 a 到 z 组成,但是当奶牛说牛文时,可能与我们所熟悉的 abcdefghijklmnopqrstuvwxyz 不同, ...

  3. Java语言学习day11--7月10日

    今日内容介绍1.自定义类型的定义及使用2.自定义类的内存图3.ArrayList集合的基本功能4.随机点名器案例及库存案例代码优化 ###01引用数据类型_类 * A: 数据类型 * a: java中 ...

  4. IO ——字节流

    什么是流? 概念:内存与存储设备之间传输数据的通道.程序运行后保存在内存,文件一般在硬盘中,在程序中读写文件,需要在内存和存储设备中建立通道.数据借助流传输 流的分类: 按流向: 输入流:将存储设备中 ...

  5. Photoshop图片处理在线网页使用无需下载绿色

    今天给大家推荐一个ps在线版网页 实测使用效果不错,绿色简介,无需下载,不卡顿一般的电脑配置都可以带起来 因为是在线的所以是精简版的,但是一般ps软件有的工具,功能他都有,比较适合及时性使用 废话不多 ...

  6. JavaWeb和WebGIS学习笔记(三)——GeoServer 发布shp数据地图

    系列链接: Java web与web gis学习笔记(一)--Tomcat环境搭建 Java web与web gis学习笔记(二)--百度地图API调用 JavaWeb和WebGIS学习笔记(三)-- ...

  7. GO语言学习——切片三 append()方法为切片添加元素、切片的扩容策略、使用copy()函数复制切片、从切片中删除元素

    append()方法为切片添加元素 注意:通过var声明的零值切片可以在append()函数直接使用,无需初始化. var s []int s = append(s, 1, 2, 3) append( ...

  8. 初探webpack之编写loader

    初探webpack之编写loader loader加载器是webpack的核心之一,其用于将不同类型的文件转换为webpack可识别的模块,即用于把模块原内容按照需求转换成新内容,用以加载非js模块, ...

  9. 一个Python中优雅的数据分块方法

    背景 看到这个标题你可能想一个分块能有什么难度?还值得细说吗,最近确实遇到一个有意思的分块函数,写法比较巧妙优雅,所以写一个分享. 日前在做需求过程中有一个对大量数据分块处理的场景,具体来说就是几十万 ...

  10. 蓝桥杯Web练习题:多个斜线开始的路径重定向问题

    多个斜线开始的路径重定向问题 需求说明 在 vue-router v3.5.2 版本代码中存在一个 Bug,一个以多个斜线(///)开始的路径实际上可能会重定向到另一个域.这是因为 cleanPath ...