思路整理

过程：请求豆瓣电影 top 250 url='https://movie.douban.com/'

结果：得到网页的html 源码（保存为hml文件就可以用浏览器打开）

提示：

Location

WEB 服务器告诉浏览器，试图访问的对象已经被移到别的位置了，到该头部指定的位置去取。

例如：Location：http://i0.sinaimg.cn/dy/deco/2008/0528/sinahome_0803_ws_005_text_0.gif

第一步：得到指定URL，解析url，这是准备工作

　　使用函数：parsed_url()

　　为什么解析？我们需要的是它的协议--http/https

　　　　　　　　　　　　　　他的host port path （如下图）

ok 原因我们明白了那我们怎么实现的

一会儿有空再说我们需要接着验证其他步骤去理解这个过程，这个更重要

第二步：获取 URL 这才进入主题这个主题分几个步骤完成

　　首先函数get(url)从parsed_url() 中获取到几个解析完成的关键值：protocol, host, port, path

　执行步骤A

　　　　函数 socket_by_protocol(protocol)，根据协议返回一个socket实例，什么事socket实例

　　　　（Socket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求）

　　　　由socket的作用认为此条程序在内容是进行http 和 https的判别（因为HTTPS 协议需要使用 ssl.wrap_socket 包装一下原始的 socket）

　　　　实质上是为网络访问奠定基础即创建socket

　　s.connect((host, port)): connect()用于建立与指定socket的连接。

　　执行步骤B(强行分出步骤hhhh)

　　 request = 'GET {} HTTP/1.1\r\nhost: {}\r\nConnection: close\r\n\r\n'.format(path, host) 构造一个http 请求

（其中Connection 头（header）决定当前的事务完成后，是否会关闭网络连接。如果该值是“keep-alive”，网络连接就是持久的，不会关闭，

　　使得对同一个服务器的请求可以继续在该连接上完成。）

　　执行步骤C

　　encoding = 'utf-8'

　　s.send(request.encode(encoding))

浏览器和服务器之间发送的信息是以二进制bytes格式存在的，所以发送前要先将str格式的request转化为bytes

　　执行步骤D　　

　　response_by_socket(s)

　　response.decode(encoding)

　　s就是之前构造的socket实例，发出访问请求后，接收所有服务器返回的信息，转换为str

　　(python3默认编码为unicode，由str类型进行表示。二进制数据使用byte类型表示，所以不会将str和byte混在一起。在实际应用中我们经常需要将两者进行互转)

　　执行步骤E

　　parsed_response(r)

　　对服务器传回的信息进行解析（以下为传回的信息，通过\r\n可对内容成功分解，理出条理，比较笨，但第一次这样解析过返回的源码，感觉瞬间明白了网页的一些内容）

　　b'HTTP/1.1 301 Moved Permanently

　　\r\nDate: Sat, 27 Oct 2018 14:31:33GMT\r\n

　　Content-Type: text/html

　　\r\nTransfer-Encoding: chunked\r\n

　　Connection:close

　　\r\nLocation: https://movie.douban.com/top250\r\n

　　Server: dae

　　\r\nX-Content-Type-Options:nosniff

　　\r\n\r\nb2\r\n<html>

　　\r\n<head><title>301 Moved Permanently</title></head>\r\n

　　<body bgcolor="white">

　　\r\n<center><h1>301 Moved Permanently</h1></center>\r\n

　　<hr><center>nginx</center>

　　\r\n</body>\r\n

　　</html>\r\n\r\n0\r\n\r\n

　　去掉\r\n后可清楚得到许多信息

 HTTP/1.1 301 Moved Permanently

        Date: Sun, 05 Jun 2016 12:37:55 GMT

        Content-Type: text/html

        Content-Length: 178

        Connection: keep-alive

        Keep-Alive: timeout=30

        Location: https://movie.douban.com/top250

        Server: dae

        X-Content-Type-Options: nosniff

        <html>

        <head><title>301 Moved Permanently</title></head>

        <body bgcolor="white">

        <center><h1>301 Moved Permanently</h1></center>

        <hr><center>nginx</center>

        </body>

        </html>

　　如何解析下面代码实现

header, body = r.split('\r\n\r\n', 1)

    h = header.split('\r\n')

    status_code = h[0].split()[1]

    status_code = int(status_code)

    headers = {}

    for line in h[1:]:

        k, v = line.split(':')

        headers[k] = v

这个代码我们也暂时不去关心它的正确与否，接着往下分析

　　解析出

　　　　状态码 int

　　　　headers dict

　　　　body str

　　执行步骤F

　　遇到重定向问题，所谓重定向(Redirect)就是通过各种方法（本文提到的为3种）将各种网络请求重新转到其它位置（URL）。每个网站主页是网站资源的入口，当重定向发生在网站主页时，如果不能正确处理就很有可能会错失这整个网站的内容。

status_code, headers, body = parsed_response(r)

    if status_code == 301:

        url = headers['Location']

        return get(url)

    return status_code, headers, body

这个属于服务器端重定向，在服务器端完成，一般来说爬虫可以自适应，是不需要特别处理的，如响应代码301（永久重定向）、302（暂时重定向）等。具体来说，可以通过requests请求得到的response对象中的url、status_code两个属性来判断。利用上图代码进行处理

（当status_code为301、302或其他代表重定向的代码时，表示原请求被重定向；当response对象的url属性与发送请求时的链接不一致时，也说明了原请求被重定向且已经自动处理。）

大概理解了，就是你得通过提示找到资源存放的真正地点，不知道是否完全正确

接下来

又到了我最喜欢的debug环节了哈哈哈哈哈哈（别理我，已经疯掉）

　　首先自己运行时出现了很多莫名奇妙的的错误，都指向测试代码，于是首先删掉了所有测试代码

　　可疑问为什么删掉了测试代码，发现不输出任何结果，明明我在主函数中输出了很多值

　　一个个设置输出检查，直到来到执行的第一句，函数根本没有执行啊喂！！

　　立马参考源代码，发现自己删测试函数的时候，把执行主函数的语句删掉了，，

　　我是用函数的方法写的，mian来执行这些函数，而谁来执行整个文件呢

　　（因为python不像其它函数一样是必须从 main 进入的，这个mian 其实相当于一个普通滴函数），所以如下

它来执行我写的这个.py文件

暂时是这么理解的，但这个奇怪的函数我查了资料

def cs():

    print('已打开cs！')

if __name__ == '__main__':

    print('cs主函数！')

如图将原本单独的print（‘cs主函数！’）之前加入一句if_name_ == '_main_':

就会使另一文件调用它时不执行print（‘cs主函数！’）只执行 print('已打开cs！')

这样既可以让“模块”文件运行，也可以被其他模块引入，而且不会执行函数2次。这才是关键。

总结一下：

如果我们是直接执行某个.py文件的时候，该文件中那么”__name__ == '__main__'“是True,

但是我们如果从另外一个.py文件通过import导入该文件的时候，这时__name__的值就是我们这个py文件的名字而不是__main__。

这个功能还有一个用处：调试代码的时候，在”if __name__ == '__main__'“中加入一些我们的调试代码，我们可以让外部模块调用的时候不执行我们的调试代码，但是如果我们想排查问题的时候，直接执行该模块文件，调试代码能够正常运行！
---------------------
（总结转自：https://blog.csdn.net/qq_27231343/article/details/51184389 ）

函数可以执行后

最终又改掉了两个错误：

 headers = {}

    for line in h[1:]:

        k, v = line.split(': ')#自己写的时候‘： ’ 冒号后少打一个空格 一直报too many values to unpack 的错误

        headers[k] = v

    return status_code, headers, body

 if status_code == 301:

        url = headers['Location']#自己重新打发现L时大写，自己一直是小写，，，汗

        return get(url)

都是很小的错误，但要老命了

最后附上成功的爬到的源码：单独放文章了，有点多，，，

搞定，喜大普奔，终于结束了，junkdog gogogog!

python web 2的更多相关文章

Redis的Python实践，以及四中常用应用场景详解——学习董伟明老师的《Python Web开发实践》
首先,简单介绍:Redis是一个基于内存的键值对存储系统,常用作数据库.缓存和消息代理. 支持:字符串,字典,列表,集合,有序集合,位图(bitmaps),地理位置,HyperLogLog等多种数据结 ...
Python Web 方向（一）
Python Web 方向(一) --------Django站点创建文章地址:http://www.cnblogs.com/likeli/p/5821744.html Python版本:2.7 推 ...
浅谈五大Python Web框架
转载:http://feilong.me/2011/01/talk-about-Python-web-framework 说到Web Framework,Ruby的世界Rails一统江湖,而Pytho ...
nginx上部署python web
nginx上部署python web http://uwsgi-docs.readthedocs.io/en/latest/tutorials/Django_and_nginx.html
全面解读python web 程序的9种部署方式
转载自鲁塔弗的博客,本文地址http://lutaf.com/141.htm python有很多web 开发框架,代码写完了,部署上线是个大事,通常来说,web应用一般是三层结构 web serve ...
Python Web 开发的十个框架【转载】
Python 是一门动态.面向对象语言.其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性.除了语言本身的设计目的之外,Python标准库也是值得大家称赞的,Python甚至还 ...
tornado 学习笔记2 Python web主流框架
2.1 Django 官方网址:https://www.djangoproject.com/ 简介:Django is a high-level Python Web framework that e ...
python web框架——扩展Django&tornado
一 Django自定义分页目的:自定义分页功能,并把它写成模块(注意其中涉及到的python基础知识) models.py文件 # Create your models here. class Us ...
5个最好的Python Web开发框架
Python是最受欢迎的和最有效率的开发语言之一．Python能让你更快完成工作,并且更有效地集成系统．Python是动态的面向对象的语言．即便你刚刚开始学习Python,也立即就能获得生产力上的提升 ...
The Python web services developer: XML-RPC for Python
原文地址:http://www.ibm.com/developerworks/webservices/library/ws-pyth10/index.html 摘要:概括地说,您可以将 XML-RPC ...

随机推荐

20175208 《Java程序设计》第七周学习总结
20175208<Java程序设计>第七周学习总结第八章-常用实用类String类构造String对象 string类: (1)常量对象:常量池中的数据在程序运行期间再也不允许改变. ...
创建我的vue项目
vue-cli 全局安装 1.命令行执行:npm install --global vue-cli: ------也可以用这个命令下载新版本 2.安装完成以后可以输入命令 :vue 回车,可以看到针 ...
ES6 解构
{ "code": 200, "msg": "success", "data": { "total" ...
前向传播算法(Forward propagation)与反向传播算法(Back propagation)
虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解.因此特意先对深度学习中的相关基础概念做一下总结.先看看前向传播算法(Forward propagation)与 ...
Price Channel Breakout 交易系统简价及源码
Price Channel Breakout 交易系统简价及源码既然这个版有交易系统的模型报告,小弟先在这裡野人献曝一下,把目前正在用的系统拿来请大家批评指教一下. ================ ...
Navicat Premium 12
1.win 客户端软件下载: https://www.navicat.com.cn/download/navicat-premium 2.安装双击安装--点击下一步我同意--下一步选择安装路径- ...
单元测试系列之九：Sonar 常用代码规则整理（一）
更多原创测试技术文章同步更新到微信公众号 :三国测,敬请扫码关注个人的微信号,感谢! 摘要:公司部署了一套sonar,经过一段时间运行,发现有一些问题出现频率很高,因此有必要将这些问题进行整理总结和分 ...
Vue学习(一)Vue目录结构
安装教程网上一大把,可以自己搜索.记录下学习过程. 认识下Vue的目录结构,取自:https://www.cnblogs.com/dragonir/p/8711761.html vue 文件目录结构详 ...
Java集合源码分析之LinkedList
1. LinkedList简介 public class LinkedList<E> extends AbstractSequentialList<E> implements ...
visual studio code——运行python
How to run Python in Visual Studio Code Getting Started with Python in VS Code python教程 vs code 安装py ...

python web 2

思路整理

过程：请求豆瓣电影 top 250 url='https://movie.douban.com/'

结果：得到网页的html 源码 （保存为hml文件 就可以用浏览器打开）

提示：

Location

WEB 服务器告诉浏览器，试图访问的对象已经被移到别的位置了，到该头部指定的位置去取。

例如：Location：http://i0.sinaimg.cn/dy/deco/2008/0528/sinahome_0803_ws_005_text_0.gif

第一步：得到指定URL，解析url，这是准备工作

第二步：获取 URL 这才进入主题 这个主题分几个步骤完成

执行步骤A

执行步骤B(强行分出步骤hhhh)

执行步骤C

执行步骤D

执行步骤E

执行步骤F

又到了我最喜欢的debug环节了 哈哈哈哈哈哈（别理我，已经疯掉）

搞定，喜大普奔，终于结束了，junkdog gogogog!

python web 2的更多相关文章

随机推荐

热门专题

结果：得到网页的html 源码（保存为hml文件就可以用浏览器打开）

第二步：获取 URL 这才进入主题这个主题分几个步骤完成

　执行步骤A

　　执行步骤B(强行分出步骤hhhh)

　　执行步骤C

　　执行步骤D　　

　　执行步骤E

　　执行步骤F

又到了我最喜欢的debug环节了哈哈哈哈哈哈（别理我，已经疯掉）