Python3爬虫相关软件，库的安装

Anaconda

百度搜Anaconda清华，根据环境选择版本下载

安装时记得勾选添加到环境变量，不要还要手动添加

Anaconda Navigator可视化界面，可以方便地调用Jupyter等工具。

MongoDB

官网下载地址 https://www.mongodb.com/download-center?jmp=nav#production

3.4版本需要如下配置，4.0不需要

在I:MongoDB\Server\3.4\目录下建立data\db

在bin目录下，Shift+鼠标右键，打开PowerShell,输入

mongod --dbpath I:\MongoDB\Server\3.4\data\db

验证MongoDB启动成功，在浏览器输入

localhost:

启动MongoDB，打开新的cmd,输入

mongo
db
db.test.insert(('a':'b'))

将MongoDB作为服务，以管理员身份打开cmd,进入bin目录，在data目录下建立logs\mongo.log,在cmd中输入

mongod --bind_ip 0.0.0.0 --logpath I:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath

I:\MongoDB\Server\3.4\data\db --port 27017 -serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

Robomongo可视化界面

下载地址：云盘快捷传送门→robo.3t.windows-x86_64.7z：https://pan.baidu.com/s/1Y5uTvTT9rLlOrW9HnCMp7g 密码：1ycs
（备注：想下载studio.3t的请选择studioxsdaw.rar）

Redis

key-value数据库，用到的时候再安装

=====================================

库

---------------------------

查询请求库

urllib

python自带，无需安装

request

pip3 install request

import request

requests.get('http://www.baidu.com')

selenium

　　打开浏览器执行

先下载chromedriver，解压后包exe文件移动到已经配置了环境变量的目录下，如python/script,然后再执行下面的代码

pip3 install selenium

import selenium
from selenium import webdriver
driver=webdriver.Chrome(）
driver.get("http:\\www.baidu.com")
driver.page_source \\打印网页源码

phantomjs

后台静默运行，无需打开浏览器

下载地址http://phantomjs.org/download.html，解压后将bin目录添加到环境变量即可，无需安装，好像不更新了

可以用headless chrome?

lxml

pip3 install lxml
//另一种安装方式，先下载whl文件，再执行下面的命令
pip3 install whl文件名

beautifulsoup

依赖lxml库，pip安装即可,记得是beautifulsoup4,不要打错

pip3 install beautifulsoup4
python
from bs4 import BeautifulSoup
soup=BeautifulSoup('(html)(/html)','lxml')

pyquery

注意html和/html外面是尖括号，其余是圆括号

pip3 install pyquery

python

from pyquery import PyQuery as pq
doc=pq('<html>hello</html>')//只有这行有尖括号
result=doc('html').text()
result

---------------------------------------------------

存储库

pymysql

注意创建表时要用圆括号。

pip3 install pymysql

python

import pymysql

conn=pymysql.connect(host='localhost',user='root',password='yourpassword',port=3306,db='mysql')
cursor = conn.cursor()　　
cursor.execute('select * form db')　　　　返回数据大小
cursor.fetchone() 　　返回执行结果

执行到这儿的时候出错了，pymysql.err.OperationalError: (1045, "Access denied for user 'root'@'localhost' (using password: YES)")

原因：不是pymysql出错，而是用户名密码的问题，不用密码可以进入mysql数据库，使用密码后反而不能（但我已经按照https://www.cnblogs.com/Pusteblume/p/10165287.html 重设密码了，还是不能登录）

解决方案：卸载重装，虽然不是一个好的方法，但至少解决了问题

pymongo

pip3 install pymongo

python

import pymongo

client = pymongo.MongoClient('localhost')

db = client['newtestdb']

db['table'].insert({'name':'Bob'})
db['table'].find_one({'name':'Bob'})

redis 分布式爬虫用，维护爬行队列，效率高

直接执行下面的代码会提示由于目标计算机积极拒绝，无法连接，要手动下载Windows版的redis，网址https://github.com/MicrosoftArchive/redis/releases，安装后执行redis-server.exe，启动界面闪了一下就可以了，具体教程如下https://blog.csdn.net/sinat_29957455/article/details/78567194，也有的教程说执行redis-cli.exe，不过我没试过。

pip3 install redis
python

import redis

r=redis.Redis(host='localhost',port=6379)
r.set('name','a')
print(r.get('name'))

flask

pip3 install flask

django 和网站有关

pip3 install flask

Python3爬虫相关软件，库的安装的更多相关文章

Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
Mac os 下 python爬虫相关的库和软件的安装
由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑. 一. 相关软件的安装: 1. h ...
linux安装python3 大型的软件一定要安装在/ opt中规范
关闭页面特效 linux中安装python 1.首先切换目录大型的软件一定要安装在/ opt中规范 cd /opt 2.下载python3的源码 wget https://www.p ...
python3爬虫之requests库基本使用
官方文档链接(中文) https://2.python-requests.org/zh_CN/latest/ requests 基于 urllib3 ,python编写. 安装 pip insta ...
python爬虫学习记录——各种软件/库的安装
Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install py ...
python3爬虫之Urllib库（一）
上一篇我简单说了说爬虫的原理,这一篇我们来讲讲python自带的请求库:urllib 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了 ...
爬虫相关--requests库
requests的理想:HTTP for Humans 一.八个方法相比较urllib模块,requests模块要简单很多,但是需要单独安装: 在windows系统下只需要在命令行输入命令 pip ...
python3 爬虫相关-requests和BeautifulSoup
前言时间的关系,这篇文章只记录了相关库的使用,没有进行深入分析,各位看官请见谅(还是因为懒.....) requests使用发送无参数的get请求 r = requests.get('http:/ ...
python3爬虫之Urllib库（二）
在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等 ...

随机推荐

白话skynet第一篇
当你走过一个坐在自己店门前的杂货商面前.走过一个吸着烟斗的守门人面前,走过一个马车夫面前时,请你给我描绘一下这个杂货商.守门人和马车夫,他们的姿态,他们的外貌,要用画家那样的细节描绘出他们的精神本质, ...
HTMLTESTRunner自动化测试报告增加截图功能
我们都知道HTMLTESTRunner自动化测试报告,是Unittest单元测试框架报告,那么在做ui测试的时候就有点不适用了. 我们需要出错截图功能. 以下是我改的,增加了截图功能,先展示界面,再展 ...
[macOS] finder变慢提速
原文地址:http://ntfs-formac.com/fix-slow-finder-macos-sierra/ 我采取的是第二种方法,够简单,直接在终端执行 rm ~/Library/Caches ...
父网访问子网（校园网访问校园网IP路由器下的一台电脑）远程路由器下的电脑
网路由器添加转发规则,端口转发,本人仅使用Pandora Box路由器固件当然设置了这些还不够,还需要设置其他的允许端口转发的东西,例如然后远程桌面的话还需要设置某些相关设置,例如电脑允许使用远程 ...
EntityFramwork 七七八八
Tip 技术的选型受技术先进性.技术持续性.技术普及度.推行力度的影响. 我也很无奈,一大把年纪了又要重新学一种ORMapping框架. 说实话,这是我用过的最复杂的ORMapping框架了. Ent ...
问题 1672: 迷宫问题（BFS）
题目链接:https://www.dotcpp.com/oj/problem1672.html 问题 1672: 迷宫问题时间限制: 1Sec 内存限制: 32MB 提交: 663 解决: 158 ...
关于linux系统CPU篇--->上下文切换
1.什么是CPU上下文切换? linux是一个多任务操作系统,它支持远大于CPU数量的任务同时运行,当然这些任务实际上并不是真的同时在运行,而是因为系统在很短的时间内,将CPU轮流分配给它们,造成多任 ...
介绍Kubernetes监控Heapster
什么是Heapster? Heapster是容器集群监控和性能分析工具,天然的支持Kubernetes和CoreOS,Kubernetes有个出名的监控agent—cAdvisor.在每个kubern ...
java 接口详解
定义接口接口继承和实现继承的规则不同,一个类只有一个直接父类,但可以实现多个接口.Java 接口本身没有任何实现,只描述 public 行为,因此 Java 接口比 Java 抽象类更抽象化.Jav ...
Linux中DDNS配置
1.实验拓扑结构图1 实验拓扑图 2.项目要求通过系统的搭建,能够为Web Server动态更新DNS信息. 3.项目开展思路(思维导图) 图2 DDNS实验思维导图 4.实验步骤 (1) 基础网 ...

Python3爬虫相关软件，库的安装

Python3爬虫相关软件，库的安装的更多相关文章

随机推荐

热门专题