一.说明 解析html文件我喜欢用xpath不喜欢用BeautifulSoup,Requests的作者出了Requests-HTML后一般都用Requests-HTML. 但是Requests-HTML一开始就是针对Requests从网络请求页面计的,并不能解析本地html文件. 想用Requests-HTML解析本地html文件,我们可借助Requests-File库实现. 二.实现解析本地html文件 2.1 安装Requests-File pip install requests-file…
Python使用爬虫技术时,每运行一次,本地都会访问一次主机.为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可.现在我来分享一下爬取资料的调试过程. 一.将网页源代码存在本地 1.打开需要爬取的网页,鼠标右键查看源代码 2.复制源代码,将代码保存至本地项目文件目录下,文件后缀改为.html 二.在Python中打开本地html文件 打开并读取本地文件可使用BeautifulSoup方法直接打开 soup=BeautifulSoup(…
通常,一般读取Excel都是由后台来处理,不过如果需求要前台来处理,也是可以的.. 1.需要用到js-xlsx,下载地址:js-xlsx 2.demo: <!DOCTYPE html><html>    <head>        <meta charset="UTF-8">        <title></title>        <script src="./js/xlsx.full.min.…
准备软件环境 1. 软件环境 首先,需要使用到的软件和工具环境如下: 一个最新的chrome浏览器 编辑器vscode 2. 使用的js库 代码高亮库:prismjs https://prismjs.com/download.html markdown解析库:marked.min.js https://github.com/markedjs/marked 搭建工程 创建一个md-reader目录,进入md-reader目录 1. 目录结构 然后,创建需要的文件 md-reader |----sr…
一.使用Dom解析本地XML 1.本地XML文件为:test.xml <?xml version="1.0" encoding="UTF-8"?> <Books> <Book id="1"> <bookName>think in java</bookName> <bookAuthor>张三</bookAuthor> <bookISBN>家</bo…
前言 时间的关系,这篇文章只记录了相关库的使用,没有进行深入分析,各位看官请见谅(还是因为懒.....) requests使用 发送无参数的get请求 r = requests.get('http://httpbin.org/get') print(r.text) 发送带参数的get请求 load = {'key1': 'value1', 'key2': 'value2'} r = requests.get("http://httpbin.org/get",params = load)…
Requests库主要方法解析以及Requests库入门 1.requests.request(method,url,**kwargs) **kwargs:控制访问的参数,均为可选项 params:字典或字节序列,作为参数增加到url中.例如: import requests kv={'key1':'value1','key2':'value2'} r=requests.request('GET','http://python123.io/ws',params=kv) print(r.url)…
官方文档链接(中文) https://2.python-requests.org/zh_CN/latest/ requests  基于  urllib3 ,python编写. 安装 pip install requests  (python3) anaconda 版本 用pip安装  要在 anaconda prompt 里打入安装命令 提示Requirement already satisfied: requests in xxxxxx  表示 已经安装了 import requests re…
目录 Python3微博爬虫[requests+pyquery+selenium+mongodb] 主要技术 站点分析 程序流程图 编程实现 数据库选择 代理IP测试 模拟登录 获取用户详细信息 获取用户全部微博 运行结果 Python3微博爬虫[requests+pyquery+selenium+mongodb] 大数据时代,数据的获取对是研究的基础,而获取海量的数据自然不能通过人工获取,爬虫因运而生.微博作为新时代国内火爆的社交媒体平台,拥有大量用户行为和商户数据,学会通过爬虫获取所需数据将…
1.Requests 安装与请求方法 requests官方文档:https://docs.python-requests.org/zh_CN/latest/,官方文档不知道为什么挂了,访问不了.我找了个类似的,可以借鉴参考学习,requests文档:https://www.w3cschool.cn/requests2/requests2-gzsd3fj9.html requests模块安装 pip install requests requests模块支持的http方法 GET:当客户端向Web…