python学习笔记(四):pandas基础】的更多相关文章

迭代器 __iter__方法返回一个迭代器,它是具有__next__方法的对象.在调用__next__方法时,迭代器会返回它的下一个值,若__next__方法调用迭代器 没有值返回,就会引发一个StopIteration异常.    特点: 访问者不需要关心迭代器内部的结构,仅需通过__next__方法不断去取下一个内容 不能随机访问集合中的某个值 ,只能从头到尾依次访问 访问到一半时不能往回退 便于循环比较大的数据集合,节省内存 name = iter(['koka','lolo','lala…
目录 输入输出 数据类型和变量 整数 浮点数 字符串 布尔值 空值 变量 常量 小结 欢迎关注我的博客我在马路边 说明:此笔记不是从零开始,在学习的过程中感觉需要记录一些比较重要和需要重复浏览的信息,然后才有此笔记. 学习详细内容可参考博客:廖雪峰的官方网站 输入输出 创建python文件:demo.py,文件第一行设置linux可直接执行注释: #!/usr/bin/env pyhton3 添加上述注释后即可在linux或mac上直接用python demo.py来执行文件中的内容. 在文件第…
知识点一:正则表达式详解及其基本使用方法 什么是正则表达式 正则表达式对子符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达对字符串的一种过滤逻辑. (非Python独有,re模块实现) 测试正则表达式的网站 测试官网: 在线正则表达式测试 学习教程:菜鸟教程RE模块详解 基本对照表 (截的图,不清楚!可以看菜鸟教程正则表达式元字符页面) re库的用法详解 re.match()方法的使用re.match尝试从字符串的起始…
一.什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网页解析器.应用程序(爬取的有价值数据). 调度器:相当于一台电脑的CPU,主要负责调度URL管理器.下载器.解析器之间的协调工作. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存.数据库.缓存数据库来实现. 网页…
Python的函数除了正常使用的必选参数外,还可以使用默认参数.可变参数和关键字参数. 默认参数 基本使用 默认参数就是可以给特定的参数设置一个默认值,调用函数时,有默认值得参数可以不进行赋值,如: def power(x, n=2): s=1 while n > 0: n = n - 1 s = s * x return s 这样调用power(5)时,相当于调用power(5, 2). 设置默认参数时的注意事项: 一是必选参数必须在前,默认参数在后,否则Python的解释器会报错: 二是如何…
数组 数组的需求 现在需要统计某公司员工的工资情况,例如计算平均工资.最高工资等.假设该公司有50名员工,用前面所学的知识完成,那么程序首先需要声明50个变量来分别记住每位员工的工资,这样做会显得很麻烦. 数组的概述 数组是指一组数据的集合,数组中的每个数据被称作元素.在数组中可以存放任意类型的元素,但同一个数组里存放的元素类型必须一致. 数组的定义 格式: 数据类型[] 数组名 = new 数据类型[元素个数或数组长度]; 举例:int[] x = new int[100]; 要点说明 数据类…
一.装饰器 1.知识储备 函数对象 函数可以被引用 函数可以当参数传递 返回值可以是函数 可以当作容器的元素 def func1(): print (666) def func2(): print (666) def func3(): print (666) list1=[func1,func2,func3] for i in list1: i() *args:接收溢出的位置参数 **kwargs:接收溢出的关键字参数 名称空间与作用域 2.闭包函数 闭包函数的定义:定义在函数内部的函数,特点是…
一:定义类并创建实例 Python中定义类,通过class关键字,类名开头大写,参数列表为所继承的父类.如果没有需要明确继承的类,则继承object. 使用类来创建对象,只需 类名+() 形式即可,python中没有new创建对象的. class Person(object): pass xiaoming = Person() xiaohong = Person() 二:动态改变的类属性 Python可以在创建实例后,通过实例来添加属性.而不是直接在类中定义好所有属性,并且同一个类的不同对象,可…
一.zip的坑 zip()函数接收多个可迭代数列,将数列中的元素重新组合,在3.0中返回迭代器指向 数列首地址,在3.0以下版本返回List类型的列表数列.我用的是3.5版本python, 所以zip返回的是指向地址. 先看几个例子 结果: 可见,在3.0以上版本,对zip函数返回的结果采用list函数可以转化为列表. 通过列表生成式同样可以将zip结果化为列表. 结果: 当zip操作的对象为一个列表,那么生成的列表中每个元素(元祖)中 为(n,)形式. 当zip操作的多个列表长度不一样,那么z…
1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matlab也可以用cell存放多类型数据),DataFrame的单元格可以存放数值.字符串等,这和excel表很像. 同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,具体方法在后面细说. 2 创建DataFrame 首先声…
一.函数是什么? 函数一词来源于数学,但编程中的「函数」概念,与数学中的函数是有很大不同的,编程中的函数在英文中也有很多不同的叫法.在BASIC中叫做subroutine(子过程或子程序),在Pascal中叫做procedure(过程)和function,在C中只有function,在Java里面叫做method. 定义: 函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可. 二.使用函数的好处: 1.简化代码2.提高代码的复用性3.代码可扩展 三.p…
一.生成器 生成器是什么?其实和list差不多,只不过list生成的时候数据已经在内存里面了,而生成器中生成的数据是当被调用时才生成呢,这样就节省了内存空间. 1. 列表生成式,在第二篇博客里面我写了三元运算符,和那个有点像,如果要生成列表[‘01’, ‘02’, ‘03’, ..., ‘10’]怎么做?除了循环还可以用一行语句代替循环生成. list = [str(i).zeffill() for i in range(1,11)] 生成器:要创建一个generator,有很多种方法.第一种方…
图表部分,很多要记忆的.以下来自于培训材料的记录. 但我个人觉得更重要的是要根据业务特点确定用什么样的图表,然后再去查具体的参数,光记住参数意义不是很大. import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline 一.数据读取 data = pd.read_csv('文件名.csv',engine = 'python',encoding = 'utf-8') 二.绘制图表…
用 Python 进行数据分析处理,其中最炫酷的就属 Pa ndas 套件了 . 比如,如果我 们通过 Requests 及 Beautifulsoup 来抓取网页中的表格数据 , 需要进行较复 杂的搜寻才能抓取 , 但通过 Pandas 不但可以自动读取网页中的表格数据,还能对数 据进行修改.排序等处理,以及给制统计图表 . Pandas 主要的数据类型有两种: Series 是一维数据结构, 其用法与列表类 似: DataFrame 是 二维数据结 构, 表格 即为 DataFrame 的典…
在能够获取到网页内容之后,发现内容很多,那么下一步要做信息的筛选,就和之前的筛选图片那样 而在python中可以通过正则表达式去筛选自己想要的数据 1.首先分析页面内容信息,确定正则表达式.例如想获取下面这些内容的链接 可以通过筛选出符合<li><a href="xxx"的内容,获取到href中的链接,设置正则:reg = r'<li><a href="(.+?)"'去筛选数据就OK了: 2.在python中用正则表达式去筛选数据…
字典是Python中唯一的映射类型.所谓映射即指该数据类型包含哈希值(key)和与之对应的值(value)的序列.字典是可变类型.字典中的数据是无序排列的. 4.1.1字典的创建及赋值 dict1={} dict2={'name':John,'age':24} 使用dict()函数创建字典. dict()函数接受序列,或关键字参数作为参数创建字典.若不提供参数则创建空字典. dict1=dict([['x',1],['y',2]])#接受list作为参数创建字典 dict2=dict(x=1.y…
1.Python的文件类型: 源代码:扩展名以py结尾.python写的程序不需要编译成二进制代码,可以直接运行.pyw是Windows下开发图形界面的源文件. 字节代码:扩展名以pyc结尾,是编译过的字节文件,不能使用文本编辑工具打开或者修改. 优化代码:扩展名以pyo结尾,是优化过的源文件,需要用命令行工具生成.下面把hello.py编译成hello.pyo. python -O -m py_compile hello.py PS: 参数-O表示生成优化代码,-m表示吧导入的py_compi…
1 再谈print和import 1.1 打印多个参数 print 能够同时打印多个表达式,并且能自定义分隔符.如下: print('a','b','c') ——> a b c print('a','b','c',sep="_") ——> a_b_c 1.2 import 导入模块时,能够给导入的模块取一个别名(相对于生活中的小名,不管怎么叫,还是你而已),方法是在语句末尾添加 as 子句并指定别名. import math as foobar from pi import…
模块与包 python模块,一个.py文件 导入模块的语法: import importable  importable#可以是包或包中的模块 import importable1,....,importableN import importable as preferred_Name 第三种语法可能导致名称冲突 一般写在.py文件的起始位置:顺序导入-标准库,第三方库,自己的库 from importable import object as preferred_name from impor…
3.3.3 break 和 continue语句 break:跳出整个循环 continue:跳出当前循环继续后面的循环 例: x=int(input("please input the 'x':")) y=0 for y in range(0,100): if(x==y): print("the number is :",x) break else: print("The number was not found") x=0 for i in…
程序输入 >>> print('%s is number %d'%('Python', 1))Python is number 1 输出重定向有问题(待定) 文本输入>>> user = input('Enter login name:')Enter login name:root>>> print('Your login is:', user)Your login is: root 数值字符串输入>>> num = input('N…
一.定义 lambda arg1,arg2... : returnValue 二.示例 #!/usr/bin/python def f(x,y): return x*y print f(2,3) g = lambda x,y:x*y print g(2,3) 三.switch的一种实现方案 #!/usr/bin/python from __future__ import division #a=int(raw_input('please input num1:')) #b=int(raw_inp…
案例一:在某随机序例中,找到出现频度最高的3个元素,它们出现的次数是多少? from random import randint # 利用列表解析器生成随机序列,包含有30个元素 data = [randint(0, 20) for _ in range(30)] # 以data中的元素作为字典的键,以0作为值创建一个字典 my_dict = dict.fromkeys(data,0) # 对序列data进行迭代循环 for x in data: my_dict[x] += 1 # 对迭代的每个…
有时候,手工生成 Pandas 的 DataFrame 数据是件非常麻烦的事情,所以我们通 常会先把数据保存在 Excel 或数据库中,然后再把数据导入 Pandas . 另 一种情况是抓 取网页中成千上万的表格数据导入 Pandas ,作为 DataFrame 数据. Pandas 常用的导入数据方法有: 下面,我们示范用 read html 方法抓取网页中的表数据. Pandas 的 read_html 方法会用到 html5lib 套件,可通过命令来安装:pip install html5…
Pandas 通过 drop 函数删除 DataFrarne 数据,语法为: 例如,删除陈聪明(行标题)的成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文…
import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学", "英文", "自然", &…
用 df.va lue s 读取数据的前提是必须知道学生及科目的位置,非常麻烦 . 而 df.loc 可直接通过行.列标题读取数据,使用起来更为方便 . 使用 df.loc 的语法为: 行标题或列标题若是包含多个项目,则用小括号将项目括起来,项目之间以逗 号分隔,如“( ” 数学 ” , ” 自然 ”) ”:若要包含所有项目,则用冒号“.”表示. 例如读取学生陈聪明的所有成绩: import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93…
读取行数据 读取一个列数据的语法为: 例如,读取所有学生自然科目的成绩 : import pandas as pd datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]] indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"] columns = ["语文", "数学&qu…
IDEA 安装 1.下载IDEA   官网下载地址: https://www.jetbrains.com/idea/ 2.安装的时候配置基本选择默认配置就行 参考链接:https://blog.csdn.net/Haidaiya/article/details/81230636     Python安装 1.下载Python 官网地址:https://www.python.org 目前python已更新至3.x的版本  建议选择3.X版本   2.下载完后,运行exe直接安装 安装完成配置环境变…
1.编码 默认情况下,Python 3 源码文件以 UTF-8 编码,所有字符串都是 unicode 字符串. 你也可以为源文件指定不同的字符编码.在 #! 行(首行)后插入至少一行特殊的注释行来定义源文件的编码: # -*- coding: utf-8 -*- 或 # -*- coding: cp-1252 -*- 2.标识符 第一个字符必须是字母表中字母或下划线 _ . 标识符的其他的部分由字母.数字和下划线组成. 标识符对大小写敏感. 3.python保留字 保留字即关键字,我们不能把它们…