一,安装编程工具并进入编程界面

首先去https://www.continuum.io/downloads/网站下载Anaconda工具并安装;打开cmd,输入jupyter notebook并回车(win7),他会自动帮你打开编辑界面(基于浏览器的);点击new按钮新建一个Python3的编辑框,他会弹出一个新窗口,好了现在可以敲代码了。

二,爬取整个页面

  1. import requests          #导入requests模块
  2. res = requests.get('http://study.163.com/')        #调用模块中的get方法,以网易云课堂为例
  3. print(res.text)         #打印整个页面内容

三,爬取指定标签的文本

  1. from bs4 import BeautifulSoup         #导入BeautifulSoup模块
  2. html_sample = '<!DOCTYPE html><html><head><meta charset="utf-8">\
  3. <title>文档标题</title></head><body><a id="a1" class="c" href="#">测试数据1</a>\
  4. <a id="a2" class="c" href="##">测试数据2</a>\
  5. </body></html>'        #html_sample变量模拟你读取的整个页面内容,“\”符号在编辑框换行时链接字符串
  6. soup = BeautifulSoup(html_sample,'html.parser')        #爬取页面的所有文本
  7. a=soup.select('a')      #筛选出所有的a标签和对应内容,返回的是个数组
  8. b=soup.select('#a1')      #筛选id为a1的标签和对应内容
  9. c=soup.select('.c')      #筛选class为c的标签和对应内容,返回的是个数组
  10. print(a)         #打印a标签文本,带标签
  11. print(a[0])         #打印第一条a标签文本,带标签
  12. print(a[0].text)         #打印第一条a标签文本,不带标签
  13. for aa in a:
  14. print(aa.text)        #逐条打印a中的文本,不带标签
  15. print(aa['href'])       #逐条打印a中的链接

四,常见的一些代码

a=soup.select('a')
l=len(a)         #数组a的长度
aa=a[0].contents         #第一个a标签的内容
aa.strip()        #去掉收尾空格
type(a)       #a的数据类型
dt =datetime.strptime(timestr,'%Y年%m月%d日%H:%M')        #字符串转时间
dt.strftime('%Y-%m-%d')        #时间转字符串
soup.select('#div p')[:-1]         #选取id为div标签下除了最后一项P元素的所有P元素
article = []       #定义一个list
article.append(a[0].text)       #给list追加元素
'@'.join(article)        #将article中元素用‘@’符号隔开并转换为字符串
[p.text.strip() for p in soup.select('#artibody p')]        #返回一个list,内容为p.text
newsurl.split('/')        #字符串分割
newsurl.rstrip('.html')         #去掉字符串末尾指定字符
newsurl.lstrip('aaa')         #去掉字符串首指定字符
re.search('aaa(.+).html')         #截取字符串,需引入re
jd = json.loads(comments.text.strip('var data='))       #读取json,需要引入json
commentURL .format('gda')         #将commentURL中的‘{}’替换为'gda'
def getNewsDetial(newsurl)         #定义一个函数,参数为newsurl

建议先到网络上找一些视频教程学习一些python语言基础,治标不治本没用的。。。

Python爬虫初学者学习笔记(带注释)的更多相关文章

  1. Requests:Python HTTP Module学习笔记(一)(转)

    Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...

  2. Python Built-in Function 学习笔记

    Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...

  3. scrapy爬虫框架学习笔记(一)

    scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...

  4. Python爬虫系统化学习(2)

    Python爬虫系统学习(2) 动态网页爬取 当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用.因此我们需要用动态网页抓取的两种技术:通过浏览 ...

  5. Python爬虫系统学习(1)

    Python爬虫系统化学习(1) 前言:爬虫的学习对生活中很多事情都很有帮助,比如买房的时候爬取房价,爬取影评之类的,学习爬虫也是在提升对Python的掌握,所以我准备用2-3周的晚上时间,提升自己对 ...

  6. Python爬虫系统化学习(4)

    Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两 ...

  7. Python爬虫系统化学习(5)

    Python爬虫系统化学习(5) 多线程爬虫,在之前的网络编程中,我学习过多线程socket进行单服务器对多客户端的连接,通过使用多线程编程,可以大大提升爬虫的效率. Python多线程爬虫主要由三部 ...

  8. 一个Python爬虫工程师学习养成记

    大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...

  9. Python快速入门学习笔记(二)

    注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb49318210 ...

随机推荐

  1. Java面试题之多线程打印

    概述 作为程序员经常在面试的时候遇到多线程的问题,我印象比较深刻的就是下面这道题:写两个线程,一个线程打印 1~52,另一个线程打印字母A-Z.打印顺序为12A34B56C……5152Z.看这个题目已 ...

  2. PCA降维—降维后样本维度大小

    之前对PCA的原理挺熟悉,但一直没有真正使用过.最近在做降维,实际用到了PCA方法对样本特征进行降维,但在实践过程中遇到了降维后样本维数大小限制问题. MATLAB自带PCA函数:[coeff, sc ...

  3. Python机器学习(基础篇---监督学习(支持向量机))

    支持向量机(分类) 支持向量机分类器根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个.我们会发现决定其直线位置的样本并不是所有训练数据,而是其中的两个空间间隔最小的两个不同类别的数据点,而我们 ...

  4. 2017-10-6模拟赛T1 手工(handicraft.*)

    题目 题解 题意很明显,就不讲了. 我们发现从一个A边形切出一个B边形有几种情况: 1. 得到一个(A-B+2)边形和一个B边形(直线过两顶点): 2. 得到一个(A-B+3)边形和一个B边形(直线过 ...

  5. 代码精简工具lombok

    Lombok是一种通过注解的方式减少JAVA实体类中大量冗余代码,诸如get.set以及构造方法等的Java库 一.安装Lombok 步骤一 项目引入lombok插件 1 - 非maven依赖托管项目 ...

  6. windows下端口占用处理工具

    一.通用方法 经常,我们在启动应用的时候发现系统需要的端口被别的程序占用,笔者在最近使用tomcat时,老是会遇到这种端口占用的问题,如何知道谁占有了我们需要的端口,很多人都比较头疼,以下是通用方法: ...

  7. Archlinux安装指南~小米笔记本Air 13.3英寸版本

    小米笔记本Air 13.3英寸版本,配置为:Intel Core i5-6200U处理器.8GB内存.256GB固态硬盘.NVIDIA GeForce 940MX独立显卡,13.3英寸1920X108 ...

  8. 面试知识点准备-C++常见问题

    博客园写写格式简单的文章还行,格式一复杂就不行了,可能是我不会用吧,我有强迫症,有道云格式很好用,以后去有道写这种东西了 有道云笔记链接:http://note.youdao.com/noteshar ...

  9. entrySet用法 以及遍历map的用法

    entrySet用法 以及遍历map的用法   keySet是键的集合,Set里面的类型即key的类型entrySet是 键-值 对的集合,Set里面的类型是Map.Entry   1.keySet( ...

  10. canvas绘制随机验证码

    效果图: 思路: 1, 绘制canvas画布,进行基础设置 2.绘制一个矩形 3.设置验证码的随机数 4.设置验证码随机数的随机颜色 5.绘制随机干扰线 6,绘制随机干扰点 经过以上六个步骤,验证码的 ...