吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中

1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加到path中,如下图: 在安装路径下自己创建一个文件mongo.conf,配置内容如下: #数据库路径dbpath=E:\mongodb\data#日志输出文件路径logpath=E:\mongodb\log\mongo.log#错误日志采用追加模式logappend=true#启用日志文件,默认启…

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据

import requests from bs4 import BeautifulSoup url = "http://www.cntour.cn/" strhtml = requests.get(url) soup = BeautifulSoup(strhtml.text,"lxml") #下面的参数由网站开发者模式中Copy->copy selector复制而来 data = soup.select("#main > div > di…

吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据

用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urllib2无法抓取这些动态加载的内容,此时就需要使用Selenium了. 使用Selenium需要选择一个调用的浏览器并下载好对应的驱动,我使用的是Chrome浏览器. 将下载好的chromedrive.exe文件复制到系统路径:E:\python\Scripts下,如果安装python的时候打path…

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情

Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Downloader).解析器selector和twisted(异步处理)等.对于网站的内容爬取,其速度非常快捷. 下面将使用Scrapy框架抓取某证券网站A股行情,爬取过程分为以下五步: 一:创建Scrapy爬虫项目: 二:定义一个item容器: 三:定义settings文件进行基本爬虫设置: 四:编…

吴裕雄--天生自然PYTHON爬虫：爬虫攻防战

我们在开发者模式下不仅可以找到URL.Form Data,还可以在Request headers 中构造浏览器的请求头,封装自己.服务器识别浏览器访问的方法就是判断keywor是否为Request headers下的User-Agent,因此我们只需要构造这个请求头的参数.创建请求头部信息即可. headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like…

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（效率优化以及代码容错处理）

这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率. 可以根据出发地同时调用多个CPU,每个CPU运行一个出发地的脚本,如果你的电脑有8个CPU,那么将会每次同时获取8个出发地的数据. 代码如下: import time import json import pymongo import requests import urllib.request #使用MongoDB创建数据库.表 client…

吴裕雄--天生自然PYTHON爬虫：用API爬出天气预报信息

天气预报网址:https://id.heweather.com/,这个网站是需要注册获取一个个人认证后台密钥key的,并且每个人都有访问次数的限制,这个key就是访问API的钥匙. 这个key现在是要自己创建的,名称自己写,key值可以不写,创建的时候会自动生成. 接下来就是要阅读这个API文档. 包括上面怎么创建获取这个key这个API文档也有介绍的. 选择API这部分来阅读. 接口地址: #获取城市列表 import requests url = 'https://cdn.heweather…

吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据

import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' #post请求需要写请求访问,请求内容可以在对应网页的开发者模式中获取,谷歌浏览器显示不出来,我使用的是IE浏览器 Form_data = { 'action':…

吴裕雄--天生自然python学习笔记：pandas模块读取 Data Frame 数据

读取行数据读取一个列数据的语法为: 例如,读取所有学生自然科目的成绩 : import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学&qu…

吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB

本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明: 创建一个数据库test create DATABASE taobao; 下面将要安装一个navicat for mysql这样的软件,下载链接:https://www.pcsoft.com.cn/soft/20832.html?…

吴裕雄--天生自然 python开发学习：在Cenos 7 系统上安装配置python3.6.5

安装相关依赖包. 在终端下输入命令:sudo yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel 使用wget从官网下载安装包.在终端下输入命令: wget https://www.python.org/ftp/python/3.6.5/Python-3.6…

吴裕雄--天生自然python学习笔记：python下载安装各种模块的whl文件网址

python下载安装各种模块的whl文件网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml…

吴裕雄--天生自然python学习笔记：python爬虫PM2.5 实时监测显示器

PM2.5 对人体的健康影响很大,所以空气中的 PM2.5 实时信息受到越来越多的关注. Python 的 Pandas 套件不但可以自动读取网页中的表格数据 , 还可对数据进行修改.排序等处理,也可绘制统计图表,对于信息抓取.整理以及显示是不可多得的好工具. 将开发一个 PM2.5 实时监测显示器程序 . 本程序可以直接读取行指定网站上的 PM2.5 数据,并在整理后显示,这样就可以方便地让用户随时看到最新的 PM2.5 监测数据. 应用程序总览执行程序后,会自动选取第 1 条数据…

吴裕雄--天生自然python学习笔记：python爬虫与网页分析

我们所抓取的网页源代码一般都是 HTML 格式的文件,只要研究明白 HTML 中的标签( Tag )结构,就很容易进行解析并取得所需数据 . HTML 网页结构 HTML 网页是由许多标签( Tag )构成,标签需用 .字符括起来 . 大部分标签成对出现,与开始标签对应的结束标签前多一个“/ ” 字符,例如 < html><斤itml>. 少数标签非成对出现 ,如 <i mg src=’’image. g”〉 . HTML 网页主要结构如下 : 比较简单的标签如“&…

吴裕雄--天生自然python学习笔记：Matplotlib 基本绘图

使用 Matplotlib 组件绘图时,经常要与 Numpy 组件搭配使用 . 使用 Matplotlib 绘图首先要导入 Matplotlib 组件 , 由于大部分绘图功能是在 matplotlib . pyplot 中 ,所以通常会在导入 matplotlib . pyplot 时设置一个简短的别名 , 以方便输入. 例如,我们可把别名取为 pit: Matplotlib 给图的主要功能是给制 x . y 坐标图 .绘图时,我们需要把 x . y 坐标保存在列表变量中并传给 Matp…

吴裕雄--天生自然 python开发学习笔记：一劳永逸解决绘图出现中文乱码问题方法

import numpy as np import matplotlib.pyplot as plt x = np.random.randint(0,20,10) y = np.random.randint(0,20,10) print(x) print(y) plt.title("散点图") plt.scatter(x,y,edgecolors="red") plt.plot(x,y) plt.show() 解决绘图中文乱码,打开python的安装路径,找到“E:…

吴裕雄--天生自然python学习笔记：Python MongoDB

MongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON). PyMongo Python 要连接 MongoDB 需要 MongoDB 驱动,这里我们使用 PyMongo 驱动来连接. pip 安装 pip 是一个通用的 Python 包管理工具,提供了对 Python 包的查找.下载.安装.卸载的功能. 安装 pymongo: $ python3 -m pip3 install pymongo 也可以指定安装的版本: $ python3 -m pip3…

吴裕雄--天生自然python学习笔记：Python CGI编程

什么是CGI CGI 目前由NCSA维护,NCSA定义CGI如下: CGI(Common Gateway Interface),通用网关接口,它是一段程序,运行在服务器上如:HTTP服务器,提供同客户端HTML页面的接口. 网页浏览为了更好的了解CGI是如何工作的,我们可以从在网页上点击一个链接或URL的流程: 1.使用你的浏览器访问URL并连接到HTTP web 服务器. 2.Web服务器接收到请求信息后会解析URL,并查找访问的文件在服务器上是否存在,如果存在返回文件的内容,否则返回错误信…

吴裕雄--天生自然python学习笔记：Beautiful Soup 4.2.0模块

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况. 快速开始下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容(以后内容中简称为爱丽丝的…

吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验

实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window10.0 实验内容和原理 (1)实验内容: 使用k近邻算法改进约会网站的配对效果.海伦使用约会网址寻找适合自己的约会对象,约会网站会推荐不同的人选.她将曾经交往过的的人总结为三种类型:不喜欢的人.魅力一般的人.极具魅力的人.尽管发现了这些规律,但依然无法将约会网站提供的人归入恰当的分类.使用KNN算…

吴裕雄--天生自然python学习笔记：python实现自动网页测试

Python 可实现的网页测试的功能十分强大,甚至能通过编程来实现让绝大多数的测试过程自动化. 这对很多开发者来说,绝对是不可多得的神器. hash lib 纽件可以判别文件是否有过更改,只需要用 md5 方法对指定的文件进行编码,即可进行比对. Selenium 是相当著名的网页自动化测试纽件,它可以通过指令自动对网页进行测试. Selenium 还能使开发网页时的大量重复性操作实现自动化,并在设直的时间内自动运行, 功能相当强大. 检查网蜡数据是否更新抓取网站的数据时通常需要把数…

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析

Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlparse 函数,可轻松解析指定网址的内容,在接收返回的 ParseResult 对象后,即可通过其属性取出网址中各项有用信息 . Python 还可进一步用 requests 函数抓取网页源代码, 再通过相关语句或正则表达式搜索得到指定的数据. 如果要抓取的数据比较复杂, Python 还可以通过功…

吴裕雄--天生自然python学习笔记：beautifulsoup库的使用

Beautiful Soup 库简介 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码.你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了.然后,你仅仅需要说明一下原始编码方式…

吴裕雄--天生自然python学习笔记：Python uWSGI 安装配置

本文主要介绍如何部署简单的 WSGI 应用和常见的 Web 框架. 以 Ubuntu/Debian 为例,先安装依赖包: apt-get install build-essential python-dev Python 安装 uWSGI 1.通过 pip 命令: pip install uwsgi 2.下载安装脚本: curl http://uwsgi.it/install | bash -s default /tmp/uwsgi 将 uWSGI 二进制安装到 /tmp/uwsgi ,你可以修…

吴裕雄--天生自然python学习笔记：python安装配置tesseract-ocr-setup-3.05.00dev.exe

下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe 点击安装,记得复制安装的路径,待会配置的时候要用到这个路径.…

吴裕雄--天生自然 python开发学习笔记：Git安装配置流程

…

吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片

我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片全部下载井保存在自己本地新建的 images 文件夹中 . import requests,os from bs4 import BeautifulSoup from urllib.request import urlopen url = 'http://www.tooopen.com/img/87…

吴裕雄--天生自然 python开发学习笔记：下载python离线安装whl文件链接

https://www.lfd.uci.edu/~gohlke/pythonlibs/…

吴裕雄--天生自然python学习笔记：Python MySQL - mysql-connector 驱动

本章节我们为大家介绍使用 mysql-connector 来连接使用 MySQL, mysql-connector 是 MySQL 官方提供的驱动器. 我们可以使用 pip 命令来安装 mysql-connector: python -m pip install mysql-connector 使用以下代码测试 mysql-connector 是否安装成功: demo_mysql_test.py: import mysql.connector 执行以上代码,如果没有产生错误,表明安装成功. 注意…

吴裕雄--天生自然python学习笔记：Python3 模块

Python3 模块在前面的几个章节中我们脚本上是用 python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了. 为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块. 模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py.模块可以被别的程序引入,以使用该模块中的函数等功能.这也是使用 python 标准库的方法. 下面是一个使用 python 标准库中模块的例子. im…

【吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中】的更多相关文章