Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install python3-pip(apt install python-pip安装的是python2b版本的pip) 安装mongodb: apt-get install mongodb. 执行mongod命令之后创建了一个/data/db. mongo进入mongodb的命令行操作. 这篇关于mongodb的安…
引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先参考学习.传送门:请点击 本篇文章是自己同步跟着视频学习的记录,欢迎阅读~~~ 实验:新浪新闻首页爬虫实践 http://news.sina.com.cn/china/ 一.准备 浏览器内建的开发人员工具(以Chrome为例) Python3 requests 库 Python3 BeautifulSoup4…
爬虫基础 urllib,urllib2,re都是python自带的模块 urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏览器访问url 而urllib仅可以技术url,不可以伪装user-agent字符串等,urllib提供的urlencode方法用来get查询字符串的产生,所以要搭配使用,但urllib2使用的更广泛 re是正则表达式模块,用来分析网站信息 (.*?)是常用的匹配模式,匹配出了换行符以外的字符,是非…
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老师讲的,感觉讲的很清晰,课件也很详细. 学习爬虫,怎么也绕不开requests库和BeautifulSoup库,先说下BeautifulSoup库: BeautifulSoup库通俗来说是[解析.遍历.维护“标签树”(例如html.xml等格式的数据对象)的功能库 ]一个简单的使用BeautifulSoup库…
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实例环境:python3.7  BeautifulSoup库.xlwt库(需手动安装)  urllib库.re库(内置的python库,无需手动安装) 实例网站: 第一步,点击链接http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html进入网站,查看网站基本…
urllib 是python内置的基本库,提供了一系列用于操作URL的功能,我们可以通过它来做一个简单的爬虫. 0X01 基本使用 简单的爬取一个页面: import urllib2 request = urllib2.Request("http://www.cnblogs.com") response = urllib2.urlopen(request) print response.read() GET方式 import urllib import urllib2 values =…
Requests是Python的一个优雅而简单的HTTP库,它比Pyhton内置的urllib库,更加强大. 0X01 基本使用 安装 Requests,只要在你的终端中运行这个简单命令即可: pip install requests 基本HTTP 请求类型: r = requests.get('http://httpbin.org/get') r = requests.post("http://httpbin.org/post") r = requests.put("htt…
1.首先分析请求,打开4399网站. 右键检查元素或者F12打开开发者工具.然后找到network选项, 这里最好勾选perserve log 选项,用来保存请求日志.这时我们来先用我们的账号密码登陆一下,然后查看一下截获的请求 可以很清楚的看到这里有个login,而且这个请求是post请求,下拉查看一下Form data,也就是表单数据 可以很清楚的看到我们的刚才登录发送给服务器的表单数据,更重要的是,除了uername和password之外,所有的数据都是一成不变的,这意味着我们不需要解析网…
0. 前言 如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力 因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫 所以建议先学习一下cuiqingcai大神的 Python爬虫学习系列教程 的入门部分. 它的整个系列教程我觉得写得非常好,值得一看! 当然,即便是你什么都不会,也没关系. 只要有一颗上进的心,没什么是学不会的. 希望我的文章能给你些许帮助! 1. 扒下一个网页 什么都不讲,直接上一段代码 import urllib2 html = urllib2.u…
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. 一.Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四…