吴裕雄--python学习笔记：爬虫

【吴裕雄--python学习笔记：爬虫】的更多相关文章

吴裕雄--python学习笔记：爬虫基础

一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据库.缓存数据库来实现. 网页…

吴裕雄--python学习笔记：爬虫包的更换

python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module named 'cookielib' Python3中,import cookielib改成 import http.cookiejar,然后方法里cookielib也改成 http.cookiejar. 2. ModuleNotFoundError: No module named 'urllib…

吴裕雄--python学习笔记：爬虫

import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页 htmlCode = page.read() #获取网页源代码 print(chardet.detect(htmlCode)) #打印返回网页的编码方式 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} data = htmlCo…

吴裕雄--python学习笔记：sqlite3 模块

1 sqlite3.connect(database [,timeout ,other optional arguments]) 该 API 打开一个到 SQLite 数据库文件 database 的链接.您可以使用 ":memory:" 来在 RAM 中打开一个到 database 的数据库连接,而不是在磁盘上打开.如果数据库成功打开,则返回一个连接对象. 当一个数据库被多个连接访问,且其中一个修改了数据库,此时 SQLite 数据库被锁定,直到事务提交.timeout 参数表示连接…

吴裕雄--python学习笔记：os模块函数

os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'. os.getcwd:得到当前工作目录,即当前python脚本工作的目录路径. os.getenv()和os.putenv:分别用来读取和设置环境变量 os.listdir():返回指定目录下的所有文件和目录名 os.remove(file):删除一个文件 os.stat(file):获得文件属性 os.chmod(fil…

吴裕雄--python学习笔记：os模块的使用

在自动化测试中,经常需要查找操作文件,比如说查找配置文件(从而读取配置文件的信息),查找测试报告(从而发送测试报告邮件),经常要对大量文件和大量路径进行操作,这就依赖于os模块. 1.当前路径及路径下的文件 os.getcwd():查看当前所在路径. os.listdir(path):列举目录下的所有文件.返回的是列表类型. import os print(os.getcwd()) print(os.listdir(os.getcwd())) C:\Users\Administrator\pyt…

吴裕雄--python学习笔记：BeautifulSoup模块

import re import requests from bs4 import BeautifulSoup req_obj = requests.get('https://www.baidu.com') soup = BeautifulSoup(req_obj.text,'lxml') '''标签查找''' print(soup.title) #只是查找出第一个 print(soup.find('title')) #效果和上面一样 print(soup.find_all('div')) #查…

【吴裕雄--python学习笔记：爬虫】的更多相关文章

吴裕雄--python学习笔记：爬虫基础

吴裕雄--python学习笔记：爬虫包的更换

吴裕雄--python学习笔记：爬虫

吴裕雄--python学习笔记：sqlite3 模块

吴裕雄--python学习笔记：os模块函数

吴裕雄--python学习笔记：os模块的使用

吴裕雄--python学习笔记：BeautifulSoup模块

吴裕雄--python学习笔记：通过sqlite3 进行文字界面学生管理

吴裕雄--python学习笔记：sqlite3 模块的使用与学生信息管理系统

python学习笔记——爬虫学习中的重要库urllib