本篇主要是通过对豆瓣图书<平凡的世界>短评进行抓取并进行分析,并用snowNLP对其进行情感分析. 用到的模块有snowNLP,是一个python库,用来进行情感分析. 1.抓取数据 我们把抓取到的数据存储到sqlite,先建表,结构如下: CREATE TABLE comment( id integer PRIMARY KEY autoincrement NOT NULL, commentator VARCHAR(50) NOT NULL, star INTEGER NOT NULL, ti…
豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作 需要安装requests.lxml.csv库 爬取目标:https://book.douban.com/top250 二.分析页面源码 打开网址,按下F12,然后查找书名,右键弹出菜单栏 Copy==> Copy Xpath 以书名“追风筝的人” 获取书名的xpath是://*[@id="content"…
文化         经管 ....略 结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的…
一.事件背景 今天是2021.12.2日,距离李子柒断更已经4个多月了,这是我在YouTube李子柒油管频道上,观看李子柒2021年7月14日上传的最后一条视频,我录制了视频下方的来自全世界各国网友的评论,全世界的网友们集体期待李子柒回归,瞬间泪奔. https://zhuanlan.zhihu.com/p/440462123 针对全世界网友的热门评论,怎么分析出网友的评论态度和舆论导向呢?于是我试着用python做了情感分析,得出了一些舆情导向的结论. 二.python代码讲解 下面,通过py…
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足的.无服务器的.零配置的.事务性的 SQL 数据库引擎.它是一个零配置的数据库,这意味着与其他数据库一样,您不需要在系统中配置. 就像其他数据库,SQLite 引擎不是一个独立的进程,可以按应用程序需求进行静态或动态连接.SQLite 直接访问其存储文件. 在Mac是自带sqlite的,不需要重新安…
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化 已经正确地实现豆瓣图书Top250的抓取工作,并存入excel中,但是很不幸,由于采用的串行爬取方式,每次爬完250页都需要花费7到8分钟,显然让人受不了,所以必须在效率上有所提升才行. 仔细想想就可以发现,其实爬10页(每页25本),这10页爬的先后关系是无所谓的,因为写入的时候没有依赖关系,各写各的,所以用串…
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.BeautifulSoup.xlwt模块 开始动手 首先查看目标网页的url: https://book.douban.com/top250?start=0, 然后我尝试了在代码里直接通过字符串连接仅改变”start=“后面的数字的方法来遍历所有的250/25 = 10页内容,但是后来发现不行,那样的话出…
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(str(i) for i in range(0, 226, 25))] 2.模块 requests获取网页源代码 lxml 解析网页 xpath提取 3.提取信息 4.可以封装成函数 此处没有封装调用 python代码: #coding:utf-8 import sys reload(sys) sys.…
项目名称: 豆瓣图书个性化推荐 需求简述:从给定的豆瓣用户名中,获取该用户所有豆瓣好友列表,从豆瓣好友中找出他们读过的且评分5星的图书,如果同一本书被不同的好友评5星,评分人数越多推荐度越高. 输入:豆瓣用户名 输出:豆瓣好友中评分最高,评分人数最多,且我没读过的10本书 步骤构想:1. 通过给定的用户名,将下面链接douban_id替换后可查看该用户关注的好友列表(访问该路径需要先登录)https://www.douban.com/people/douban_id/contacts 但如果是查…
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf-8') class Spider(object): def __init__(self): print('开始爬取豆瓣图书top250的内容......') # 传入url,返回网页源代码 def getSourceCode(self, url): html = requests.get(url)…
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com/").text #注:此时我们打印输出结果,可以看到输出我们的网页字符串: # print(content) #然后我们编辑匹配豆瓣图书网站抓取图书所用到的正则表达式. pattern = re.compile(r'<li.*?class="cover".*?href=&…
一.项目背景 随着时代的发展,国人对于阅读的需求也是日益增长,既然要阅读,就要读好书,什么是好书呢?本项目选择以豆瓣图书网站为对象,统计其排行榜的前250本书籍. 二.项目介绍 本项目使用Python爬虫技术统计豆瓣图书网站上排名前250的书籍信息,包括书名.作者.出版社.出版日期.价格.评星.简述信息 将获取到的信息存储在Mysql数据库中 三.项目流程 3.1 分析第一页 第一页地址为:https://book.douban.com/top250,打开后页面呈现为如下: 我们需要获得的信息为…
Python简介 Python是一种计算机程序设计语言.是一种动态的.面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的.大型项目的开发. --摘自360百科 Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构. Python 是一种解释型语言: 这意味着开发过程中没有了…
对之前我的那个豆瓣的短评的爬虫,进行了一下架构性的改动.尽可能实现了模块的分离.但是总是感觉不完美.暂时也没心情折腾了. 同时也添加了多线程的实现.具体过程见下. 改动 独立出来的部分: MakeOpener MakeRes GetNum IOFile GetSoup main 将所有的代码都置于函数之中,显得干净了许多.(*^__^*) 嘻嘻-- 使用直接调用文件入口作为程序的起点 if __name__ == "__main__": main() 注意,这一句并不代表如果该if之前…
最近微信小程序被炒得很火热,本人也抱着试一试的态度下载了微信web开发者工具,开发工具比较简洁,功能相对比较少,个性化设置也没有.了解完开发工具之后,顺便看了一下小程序的官方开发文档,大概了解了小程序的开发流程和一些常用的API. 了解了小程序之后,自己就有了想要做一个小demo的冲动,虽然自己对小程序还没有做过很多实践,只是在官方例子上徘徊,但是还是想做出点小东西.既然要做一个demo,自然需要到数据,自己有又不想独自搭建服务端,所以在网上搜索可以用来提供测试数据的免费api,最后我选择了豆瓣…
python系列 python--基础学习(一)开发环境搭建,体验HelloWorld python--基础学习(二)判断 .循环.定义函数.继承.调用 python--基础学习(三)字符串单引号.双引号.三引号 python--基础学习(四)自然字符串.重复字符串.子字符串 python--基础学习(五)参数位置传递.关键字传递.包裹传递及解包裹 python--基础学习(六)sqlite数据库基本操作 python--爬虫入门(七)urllib库初体验以及中文编码问题的探讨 python--…
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 python系列课程也有段时间了,我们坚持,一步步来,今天是最后一课的分享,看看接口测试框架的神秘,小怪带领着大家一起完成第7课,希望能看完知识点,自己动手练习,然后和给出的例子代码对比,最后看看作业…
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 我们清楚的知道自动化测试包含UI自动化.接口自动化.单元自动化,其中接口自动化测试可以说是性价比比较高的,我们今天不讲如何开展接口自动化测试,而是来看看接口测试框架的神秘.小怪带领着大家一起简单轻松的…
点击标题下「微信」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 我们清楚的知道自动化测试包含UI自动化.接口自动化.单元自动化,其中接口自动化测试可以说是性价比比较高的,我们今天不讲如何开展接口自动化测试,而是来看看接口测试框架的神秘.小怪带领着大家一起简单轻松的完成接…
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 看看接口测试框架的神秘,小怪带领着大家一起开始第4课,希望能看完知识点,自己动手练习,然后和给出的例子代码对比,最后看看作业感悟篇,本期是第4课,对应的作业是第3题,想学的就往下看吧 1作业内容 题目…
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 看看接口测试框架的神秘,小怪带领着大家一起开始第5课,希望能看完知识点,自己动手练习,然后和给出的例子代码对比,最后看看作业感悟篇,本期是第5课,对应的作业是第4题,想学的就往下看吧 1作业内容 题目…
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期待的方向,有更多兴趣的欢迎切磋,我们微信订阅号,联系方式如下: 更多书籍,敬请期待 背景说明 这是python系列的第6课了,不知道前面的知识大家掌握的怎么样,是否有感觉到已经接触到了接口测试的框架了呢?话不多说,接着练习. 1作业内容 题目5:写一个网络请求,通过传入CityName  和…
最近微信小程序被炒得很火热,本人也抱着试一试的态度下载了微信web开发者工具,开发工具比较简洁,功能相对比较少,个性化设置也没有.了解完开发工具之后,顺便看了一下小程序的官方开发文档,大概了解了小程序的开发流程和一些常用的API. 了解了小程序之后,自己就有了想要做一个小demo的冲动,虽然自己对小程序还没有做过很多实践,只是在官方例子上徘徊,但是还是想做出点小东西.既然要做一个demo,自然需要到数据,自己有又不想独自搭建服务端,所以在网上搜索可以用来提供测试数据的免费api,最后我选择了豆瓣…
python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 #coding=utf-8 import urllib import urllib2 import re import time def SaveTop20Music(currtime): rex=r'<a href="javascript:;">(.*?)</a>'…
资源都放在百度网盘里了. Python视频教程(Python Django视频教程全集—台湾辅仁大学):http://pan.baidu.com/s/1dDgiWIt Python视频教程(let's python系列视频教程(中文全集01-17):http://pan.baidu.com/s/1eQefah0 112本Python电子书教程合集:http://pan.baidu.com/s/1mg4XhC8…
Python系列之入门篇--HDFS 简介 HDFS (Hadoop Distributed File System) Hadoop分布式文件系统,具有高容错性,适合部署在廉价的机器上.Python 提供了两种接口方式,分别是hdfscli(Restful Api Call),pyhdfs(RPC Call),这一节主要讲hdfscli的使用 代码示例 安装 pip install hdfs 引入相关模块 from hdfs import * 创建客户端 """ It has…
Python系列之入门篇--MYSQL 简介 python提供了两种mysql api, 一是MySQL-python(不支持python3),二是PyMYSQL(支持python2和python3) 代码示例 安装 pip install MySQL-python 引入相关模块 import MySQLdb 创建客户端 conn = MySQLdb.connect(host, user, passwd, database, charset='utf8') cur = conn.cursor()…
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER'} response = requests.get(url,headers=head…
chartkick 能够画 javascript 报表, 并且比較美观.可是网上搜了下.非常难找到 python 版本号的,于是查了些资料,摸索了下. 对 Flask 也不非常熟悉,这里就仅仅抛砖引玉了,假设有对这方面比較熟悉,还希望能贴点资料的链接. chartkick简单介绍 Chartkick是一个图表绘制工具,特点是UI美观.使用简单,而且支持IE6在内的大多数浏览器. 之所以说它使用简单,是由于仅仅须要一行Ruby代码就可以绘制出美丽的图表! Flask简单介绍 Flask是一个轻量级…
盘一盘 Python 系列 1 & 2 - 入门篇 https://mp.weixin.qq.com/s?__biz=MzIzMjY0MjE1MA==&mid=2247486473&idx=1&sn=e9228958bb5c425b8981261f14bd2f8c&chksm=e8908f00dfe70616fb3b87db7fcd054738322acbbacb1a08dbd81d36ab2c41cc56b7cc146394&scene=21#wechat…