路飞学城-Python爬虫集训-第一章】的更多相关文章

自学Python的时候看了不少老男孩的视频,一直欠老男孩一个会员,现在99元爬虫集训果断参与. 非常喜欢Alex和武Sir的课,技术能力超强,当然讲着讲着就开起车来也说明他俩开车的技术也超级强! 以上是闲扯,开始正式话题. -----------------------------------------------华丽的分割线-------------------------------------------------- 爬虫是什么 百度上是这样讲的. 网络爬虫(又被称为网页蜘蛛,网络机器…
前言 原创文章,转载引用务必注明链接.水平有限,如有疏漏,欢迎指正. 之前看阮一峰的博客文章,介绍到路飞学城爬虫课程限免,看了眼内容还不错,就兴冲冲报了名,99块钱满足以下条件会返还并送书送视频. 缴纳99元保证金即可参与,只要完成3次作业和参与直播,提交学习笔记,就可以退还保证金,还可获得<Python全栈开发实战>及内部教材书籍,视频课程.定制文化衫等作为奖励.另外,还会有1对1的导师逐行批改你的代码.讲师3次直播答疑,还有班主任组队小伙伴共同学习. 好像打了一次广告,麻烦luffy的工作…
本次爬虫集训的第二次作业是web微信. 先贴一下任务: 作业中使用到了Flask. Flask是一个使用 Python 编写的轻量级 Web 应用框架.其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 .Flask使用 BSD 授权. Flask也被称为 “microframework” ,因为它使用简单的核心,用 extension 增加其他功能.Flask没有默认使用的数据库.窗体验证工具. Flask和Django相比更小巧灵活. 贴一下完成的作业: 其中使用到j…
这个爬虫集训课第三章的作业讲得是Scrapy 课程主要是使用Scrapy + Redis实现分布式爬虫 惯例贴一下作业: Python爬虫可以使用Requests库来进行简单爬虫的编写,但是Requests的性能很差,一个请求耗时在2秒左右,毫无性能. 当然也可以使用gevent和asyncio来实现协程提升性能.但是要实现分布式爬虫的话,还是要用Scrapy, Scrapy内部是使用的 twisted实现的异步功能. 贴下作业目录. 下边记录下作业完成中遇到的问题 作业实现过程:1.windo…
路飞学城—Python爬虫实战密训班 第三章 一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫: - 定义调度器 - 定义去重规则: 本质利用redis 集合元素不重复(被调度器使用) # 看源码request_seen函数 安装: pip3 install scrapy-redis 1. redis配置文件settings.py #from scrapy_redis import defaults # 查看默认…
路飞学城—Python爬虫实战密训班 第二章 一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip install selenium 2.优缺点 - 无需查看和确定请求头请求体等数据细节,直接模拟人点击浏览器的行为 - 效率不高 3.依赖驱动: - Firefox https://github.com/mozilla/geckodriver/releases - Chrome http://chromedri…
学习心得: 通过这一章的作业,使我对正则表达式的使用直接提升了一个level,虽然作业完成的不怎么样,重复代码有点多,但是收获还是非常大的,有点找到写代码的感觉了,遗憾的是,这次作业交过,这次集训就结束了,后面视频中的作业和内容将不再做讲解,也没有作业批改,不论如何这次集训对于自己提升还是蛮多的,真的要感谢路飞这个学习平台. 学习笔记: 三元运算: 三元运算又称三目运算,是对简单的条件语句的简写. #简单条件语句 if 条件成立: val=1 else: val=2 #改成三元运算 val=1…
学习体会: 在参加这次集训之前我自己学过一段时间的Python,看过老男孩的免费视频,自我感觉还行,老师写的代码基本上都能看懂,但是实际呢?....今天是集训第一次交作业的时间,突然发现看似简单升级需求,自己硬是一点思路没有,慢慢的想了想,有了点思路,但是发现想用列表时,却忘了有哪些方法,想到用文件存储用户信息,文件操作竟然也忘了,通过查找之前笔记和网上资料,最后终于磕磕绊绊把程序写完了,虽然写完了,但思路感觉还不太清晰,看来以后真的要多练了,光看不练真的不行. 另外之前也记过一些笔记,之前有记…
学习心得: 这章对编码的讲解超级赞,现在对于编码终于有一点认知了,但还没有大彻大悟,还需要更加细心的琢磨一下Alex博客和视频,以前真的是被编码折磨死了,因为编码的问题而浪费的时间很多很多,现在终于感觉看到了一点光明,哈哈! 笔记: print(bin(343)) #0b101010111   返回整数的二进制表示 python2默认支持的编码是ASCII python3默认支持的编码是UTF8 科学计数法: print(1.2395e8) #123950000.0 e8代表10的8次方,这个e…
学习心得: 学习笔记: 在python中一个py文件就是一个模块 模块好处: 1.提高可维护性 2.可重用 3.避免函数名和变量名冲突 模块分为三种: 1.内置标准模块(标准库),查看所有自带和第三方模块总数的方法:help("modules"),带下划线的是系统调用的,我们用的主要是不带下划线的. 2.第三方开源模块,可通过pip install 模块名  联网安装 3.自定义模块 模块调用: import module from module import xx from xx.x…
面向过程:核心是过程二字,过程是解决问题的步骤,相当于设计一条流水线,是机械式的思维方式 优点:复杂的问题流程化,进而简单化 缺点:可扩展性差 面向对象:核心是对象二字,对象就是特征与技能的结合体. 优点:可扩展性强 缺点:编程复杂性高 应用场景:用户需求经常变化,互联网应用,游戏,企业内部应用. 类中的函数属性:是绑定给对象使用的,绑定到不同的对象是不同的绑定方法,对象调用绑定方法时,会把对象本身当做第一个参数传入,传给self 类里面的函数本质上是给对象使用的.…
# 数据结构: # goods = [ # {"name": "电脑", "price": 1999}, # {"name": "鼠标", "price": 10}, # {"name": "游艇", "price": 20}, # {"name": "美女", "price&q…
# 基础需求: # 让用户输入用户名密码 # 认证成功后显示欢迎信息 # 输错三次后退出程序 username = 'pandaboy' password = ' def Login(username,password): i=0 while i<3: U = input('Please input username>>>') P = input('Please input password>>>') if U == username and P == passw…
''' 数据结构: menu = { '北京':{ '海淀':{ '五道口':{ 'soho':{}, '网易':{}, 'google':{} }, '中关村':{ '爱奇艺':{}, '汽车之家':{}, 'youku':{}, }, '上地':{ '百度':{}, }, }, '昌平':{ '沙河':{ '老男孩':{}, '北航':{}, }, '天通苑':{}, '回龙观':{}, }, '朝阳':{}, '东城':{}, }, '上海':{ '闵行':{ "人民广场":{…
前置操作 软件名:anaconda  版本:Anaconda3-5.0.1-Windows-x86_64清华镜像  下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 软件名:Pycharm  版本:pycharm-professional-2017.3.2  下载地址:百度即可 软件名:python    版本:3.6      下载地址:python.org conda安装 Step 1: anaconda安装及注意事项 默…
昨日内容回顾 1. 为什么要做前后端分离? - 前后端交给不同的人来编写,职责划分明确. - API (IOS,安卓,PC,微信小程序...) - vue.js等框架编写前端时,会比之前写jQuery更简单快捷. 2. 对于后端人员,主要为前端提供:API(接口) 以前的你的接口: http://127.0.0.1:8000/index/ http://127.0.0.1:8000/users/ http://127.0.0.1:8000/add_users/ http://127.0.0.1:…
1. 路飞学城第一天: 知识点 使用的是序列化与反序列化的使用: 1.创建一个公共相应的Json方法: #创建一个公共响应的类: class LuffyResponse(): def __init__(self): self.status=' self.msg=None self.data=None @property def get_dic(self): return self.__dict__ #公共异常类 class CommonException(Exception): def __in…
环境依赖 yum install gcc patch libffi-devel python-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel -y wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyu…
vue+uwsgi+nginx部署路飞学城 有一天,老男孩的苑日天给我发来了两个神秘代码,听说是和mjj的结晶 超哥将这两个代码,放到了一个网站上,大家可以自行下载 路飞学城django代码#这个代码部署到资源服务器Django https://files.cnblogs.com/files/pyyu/luffy_boy.zip vue代码#这个代码部署到反向代理服务器 nginx https://files.cnblogs.com/files/pyyu/07-luffy_project_01.…
一.前端 vue 部署 1.下载项目的vue 代码(路飞学城为例), wget https://files.cnblogs.com/files/pyyu/07-luffy_project_01.zip 解压缩 unzip -luffy_project_01.zip 2.配置 node环境 ①下载node 的代码包 wget https://nodejs.org/download/release/v8.6.0/node-v8.6.0-linux-x64.tar.gz ②解压缩 tar -zxvf…
HTML部分 <!DOCTYPE html> <html lang="en"> <head> <!--head标签的主要作用:文档的头部主要描述了文档的各种属性和信息, 包括文档的标题.编码方式以及URL等信息, 这些信息大部分是用于提供索引的,辨认和识别其他方面的应用(移动端)--> <meta charset="UTF-8" http-equiv="refresh" content=&qu…
转载:python之路-路飞学城-python-book [25.常用模块-logging模块详解] [26.常用模块-logging模块详解2] [27.常用模块-logging模块日志过滤和日志文件截取] 很多程序都有记录日志的需求,并且日志中包含的信息即有正常的程序访问日志,还可能有错误.警告等信息输出,python的logging模块提供了标准的日志接口,你可以通过它存储各种格式的日志,logging的日志可以分为 debug(), info(), warning(), error()…
Moudle 2 1.鸡汤中国人均阅读4.35本:日本40本:韩国17本:法国20本:以色列60本成长的路上需要读书,坚持读书内心会得到升华的想法不要太多,尽量多读书,多充电多读书,多看报,少吃零食,多睡觉 [2.三元运算]三元运算又称为三目运算,是对简单的条件语句的简写,节省代码量,但是不易读简单条件语句if 条件成立: val = 1else: val = 2改成三元运算: val = 1 if 条件成立 else 2 [3.文件处理]在平时,假如给你一个文件你会怎么去操作,如何查看内容?用…
docker部署路飞学城blog来啦 部署需求分析: 之前是将nginx.django.vue直接部署在服务器上,既然学了docker,试试怎么部署在docker中 1.环境准备 一台linux服务器 centos7 安装好docker systemctl start docker vue代码 django后端代码 3.注意修改vue提交axaj请求的地址 修改vue接口代码文件/opt/07-luffy_project_01/src/restful/api.js vue.js需要发送请求给dj…
HTML div标签是块级标签,单独一行,可以作为其他标签的容器,没有特定含义 span是内联标签,可以作为文本内容的容器,没有特定含义 1. 查询一下对div和span标签的理解 不同的标签有自己含义,一般搭建网站的结构的时候需要用到标签的嵌套来完成不同的结构 规则 1.块元素可以包含内联元素或某些块元素,但内联元素却不能包含块元素,它只能包含其它的内联元素 2. 块级元素不能放在<p>里面 3. 有几个特殊的块级元素只能包含内嵌元素,不能再包含块级元素,这几个特殊的标签是h1.h2.h3.…
01-jquery的介绍 JS在做项目或者是实现功能的时候,用JS去操作DOM元素非常复杂,代码量大,重复性代码也多 多个元素使用for循环遍历也是非常麻烦的,对于JS使用来说加大了难度 jQuery框架是用来查询JS的,write less do more! 特点 1.容量小,轻量级框加,目前只有30KB 2.支持CSS3的选择器 3.兼容各种浏览器 What is jQuery? jQuery is a fast, small, and feature-rich JavaScript lib…
16-如何正确的使用类选择器及总结 一般情况下尽量不要去使用id选择器,因为id选择器有很大的限制性,id一般都是JS配合使用的,类选择器都是和CSS配合使用的,特殊性情况可以用id选择器. 类的使用想要用好首先要找共有的属性 一定要有“公共类”的概念,不要试图用一个类去写所有的属性,标签要携带多个类,共同设置标签的样式,每个类要尽可能的小,最好只有一个样式 17-高级选择器   名称 说明 并集选择器 多个选择器通过逗号连接而成,同时声明多个风格相同样式 交集选择器 由两个选择器连接而成,选中…
前端                                                                                                                                  01-前端介绍 web1.0时代的网页制作一般都是静态的网页页面 web1.0时代网页三剑客 Dreamweaver+Fireworks+Flash 什么是静态页面? 没有与用户进行交互的,而是仅仅是给读者或者用户去浏览的一个网页,称为…
目录 1.Git 2.路飞学城项目页面效果 0.安装elements UI 1.顶部导航栏效果 2.轮播图效果 1.Git 什么是git?分布式版本管理工具 1.git操作 # 1 创建git本地仓库 # 创建文件夹,cd到文件夹中,执行 git init # 2 查看仓库状态 git status # 3 将想要上传的文件添加进去 git add 文件名称(.表示所有文件和目录) # 4.commit之前必须配置用户 git config --global user.name chao git…
目录 1.Xadmin 1.Xadmin介绍 2.Xadmin安装 3.Xadmin的使用 2.项目环境搭建 1.外部依赖 2.依赖包安装 3.搭建项目 3.Git 4.日志配置 5.异常处理 6.创建数据库 1.Xadmin 1.Xadmin介绍 xadmin是Django的第三方扩展,比使用Django的admin站点更强大也更方便. 文档:https://xadmin.readthedocs.io/en/latest/index.html GitHub地址:https://github.c…