商业爬虫学习笔记day3

【商业爬虫学习笔记day3】的更多相关文章

商业爬虫学习笔记day3

一. 付费代理发送请求的两种方式第一种方式: (1)代理ip,形式如下: money_proxy = {"http":"username:pwd@192.168.12.11:8080"} (2)代理的处理器 proxy_handler = urllib.request.ProxyHandler(money_proxy) (3)通过处理器创建opener opener = urllib.request.build_opener(proxy_handler) (4)o…

商业爬虫学习笔记day1

day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.net/guyuealian/article/details/52535294 2.当用户输入网址(如www.baidu.com),发送网络请求的过程是什么? 上图应该还有往回的箭头(即服务器从数据库获取得到指定的请求资源,返回给客户端) a. 通过域名服务器解析出www.baidu.com对应的ip地…

商业爬虫学习笔记day2

1. get传参 (1)url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable") (2)字典传参最终url由url和参数拼接而成,而参数(params)的类型为字典,所以拼接要将字典参数转化为字符串类型,如下: import urllib.request import urllib.parse import string def get_params(): url = &…

商业爬虫学习笔记day4

一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 import urllib.request # 确定url url = "https://weibo.com/u/5811151623/home" # 添加请求头 headers = { "User-Agent": " Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like G…

商业爬虫学习笔记day8-------json的使用

一. 简介 JSON,全称为JavaScript Object Notation(JavaScript对象标记),它通过对象和数组的组合来表示数据,是一种轻量级的数据交换格式.它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据.简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言. 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率. 二. json语法 1. json语法规则在js语言中,一切都是…

商业爬虫学习笔记day7-------解析方法之bs4

一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序. b. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为ut…

商业爬虫学习笔记day6

一. 正则解析数据解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正则并不能匹配并提取所有新闻的标题和url,如下图 target为确定值,在正则中可以写死,class也为确定值,在正则中也可写死,但class并不存在于所有的a标签中(自己的想法是写2个正则进行匹配(带class与否),最后将得到的数据汇总),mon里的数值也不一样,所以需要用正则匹配出来,到时候进行二次处理…

商业爬虫学习笔记day5

一. 发送post请求 import requests url = "" # 发送post请求 data = { } response = requests.post(url, data=data) 二. 内网认证 auth= (user,pwd) response = requests.get(url, auth=auth) 三. 代理 import requests url = "http://www.baidu.com" headers = { "U…

python网络爬虫学习笔记

python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述数据的数据 5. 异常 5.0.1. URLError 5.0.2. HTTPError 5.0.3. 处理异常 5.0.4. info和geturl 6. Opener和Handler 7. Basic Authentication 8. 代理 9. Timeout 设置 10. Cookie 1…

python网络爬虫学习笔记（二）BeautifulSoup库

Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说,Beautiful Soup库是可以解析.遍历.维护HTML/XML文件的“标签树”的功能库.本文总结了BeautifulSoup的基本使用方法. 一.Beautiful Soup库基本元素库的比较常见的引用方式如下 from bs4 import BeautifulSoup #从Beautifu…