吴裕雄--python学习笔记:爬虫】的更多相关文章

一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据库.缓存数据库来实现. 网页…
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module named 'cookielib' Python3中,import cookielib改成 import http.cookiejar,然后方法里cookielib也改成 http.cookiejar. 2. ModuleNotFoundError: No module named 'urllib…
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网页 htmlCode = page.read() #获取网页源代码 print(chardet.detect(htmlCode)) #打印返回网页的编码方式 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''} data = htmlCo…
1 sqlite3.connect(database [,timeout ,other optional arguments]) 该 API 打开一个到 SQLite 数据库文件 database 的链接.您可以使用 ":memory:" 来在 RAM 中打开一个到 database 的数据库连接,而不是在磁盘上打开.如果数据库成功打开,则返回一个连接对象. 当一个数据库被多个连接访问,且其中一个修改了数据库,此时 SQLite 数据库被锁定,直到事务提交.timeout 参数表示连接…
os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'. os.getcwd:得到当前工作目录,即当前python脚本工作的目录路径. os.getenv()和os.putenv:分别用来读取和设置环境变量 os.listdir():返回指定目录下的所有文件和目录名 os.remove(file):删除一个文件 os.stat(file):获得文件属性 os.chmod(fil…
在自动化测试中,经常需要查找操作文件,比如说查找配置文件(从而读取配置文件的信息),查找测试报告(从而发送测试报告邮件),经常要对大量文件和大量路径进行操作,这就依赖于os模块. 1.当前路径及路径下的文件 os.getcwd():查看当前所在路径. os.listdir(path):列举目录下的所有文件.返回的是列表类型. import os print(os.getcwd()) print(os.listdir(os.getcwd())) C:\Users\Administrator\pyt…
import re import requests from bs4 import BeautifulSoup req_obj = requests.get('https://www.baidu.com') soup = BeautifulSoup(req_obj.text,'lxml') '''标签查找''' print(soup.title) #只是查找出第一个 print(soup.find('title')) #效果和上面一样 print(soup.find_all('div')) #查…
import sqlite3 conn = sqlite3.connect('E:\\student.db') print("Opened database successfully") c = conn.cursor() c.execute('''CREATE TABLE if not exists STUDENT (ID INT PRIMARY KEY NOT NULL, STU_NAME CHAR(20), AGE INT NOT NULL, ADDRESS CHAR(50));…
import sqlite3 cx = sqlite3.connect('E:\\student3.db') cx.execute( '''CREATE TABLE StudentTable( ID INTEGER PRIMARY KEY AUTOINCREMENT, StuId INTEGER NOT NULL, NAME TEXT NOT NULL, CLASS INT NOT NULL );''') print("Table created successfully!") Tab…
1 urllib概述 1.1 urllib库中的模块类型 urllib是python内置的http请求库 其提供了如下功能: (1)error 异常处理模块 (2)parse url解析模块 (3)request 请求模块 (4)robotparser robots.txt解析模块 1.2 模块的引用方式 以下应用引用urllib库中的模块时均以 parse模块 为例 (1)引用方式一(正确) import urllib from urllib import parse (2)引用方式二(正确)…