21天打造分布式爬虫-requests库（二）

【21天打造分布式爬虫-requests库（二）】的更多相关文章

21天打造分布式爬虫-requests库（二）

2.1.get请求简单使用 import requests response = requests.get("https://www.baidu.com/") #text返回的是unicode的字符串,可能会出现乱码情况 # print(response.text) #content返回的是字节,需要解码 print(response.content.decode('utf-8')) # print(response.url) #https://www.baidu.com/ # pr…

21天打造分布式爬虫-urllib库（一）

1.1.urlopen函数的用法 #encoding:utf-8 from urllib import request res = request.urlopen("https://www.cnblogs.com/") print(res.readlines()) #urlopen的参数 #def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, # *, cafile=None, capath=None,…

21天打造分布式爬虫-Spider类爬取糗事百科（七）

7.1.糗事百科安装 pip install pypiwin32 pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl pip install scrapy 创建和运行项目 scrapy startproject qsbk #创建项目 scrapy genspider qsbk_spider "qiushibaike.com" #创建爬虫 scrapy crawl qsbk_spider #运行爬虫代码 qsbk_spider.py…

21天打造分布式爬虫-Crawl类爬取小程序社区（八）

8.1.Crawl的用法实战新建项目 scrapy startproject wxapp scrapy genspider -t crawl wxapp_spider "wxapp-union.com" wxapp_spider.py # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider,…

21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）

6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time class LagouSpider(object): def __init__(self): self.driver = webdriver.Chrome() #python职位 self.url = 'https://www.lagou.com/jobs/list_python?labelWords…

Python爬虫—requests库get和post方法使用

目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formdata表单 4.requests.post()方法使用-发送json数据 Python爬虫-requests库get和post方法使用 requests库是一个常用于http请求的模块,性质是和urllib,urllib2是一样的,作用就是向指定目标网站的后台服务器发起请求,并接收服务器返回的响应内容…