重拾Python(5):数据读取】的更多相关文章

本文主要对Python如何读取数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容. 约定: import numpy as np import pandas as pd 1.从文本文件中读取 (1)使用Python标准库中的read.readline.readlines方法读取 a. 一般流程: step1: 通过open方法创建一个文件对象 setp2: 通过read.readline.readlines方法读取…
前言:因为有一段时间没有用python了,最近需要用到,只能回头过去看B站视频补一补,因为语言都是相通的,而且一些细节都可以去查表解决,所以呢,我们只需要知道一些python与其他语言的不同和常见的优势函数.这篇博客也是为了让我以后直接复习python整个概括而不用去看视频,可以直接上手python. 格式 1.python格式化位数不一定是四舍五入的. 2.python我们要很熟悉他的加法重载,灵活使用达到拼接的效果. >>>print('hello','world!') hello…
前一段碰到几次关于日期计算的题:给出一个日期,计算下一天的日期.虽然不限语言,可是我就C/C++还算熟悉,别的都是刚了解皮毛,根本不会用现成的库啊,无奈啊...只好用c语言一点点实现了,当时真是无比怀念python啊. 然后就决定把python重新“拾起来”.曾经学过python一段时间,后来就不了了之了,慢慢就把python给忘了,其实还是听喜欢python的风格的.刚还有同学在看<Learn python the hard way>,我也就看了一下,好歹曾经看过,还是有点印象的,基础部分看…
Pandas是Python下最强大的数据分析和探索库,是基于Numpy库构建的,支持类似SQL的结构化数据的增.删.查.改,具有丰富的数据处理函数.Pandas有两大数据结构:Series和DataFrame,本文主要对Series的常用用法进行总结梳理. 约定: import pandas as pd 1.什么是Series对象? Series对象本质上类似于一个一维数组,由一列元素(由值和对应的索引)组成. 2.Series对象的创建 Series对象的创建主要是使用pd.Series方法.…
data.xlsx 数据如下: import xlrd#1.读取Excel数据# table = xlrd.open_workbook("data.xlsx","r")# print("获取excel的所有标签:",table.sheets())# for sheet in table.sheets():# print(sheet)#2.读取第一个标签 第二个标签 ....# table = xlrd.open_workbook("da…
使用python进行数据分析或者数据处理时,往往需要使用一些库,而使用库之前必须安装它.Anaconda内置了很多常用的第三方库,可以满足绝大部分需求,比如numpy.pandas.matplotlib等等,因此不需要用户再进行安装.但是一些不常用的.或者小众的库则需要我们手动安装. 1.如何判断一个库是否已经安装? 有两种方法: 1)在spyder或者Jupyter中import,如果提示导入错误,则代表该库未安装: 2)安装有Anaconda时,在Anaconda Navigator中搜索并…
1.为什么选择Anaconda? Anaconda解决了Python使用痛点. Python好用但是令人头疼的就是库管理与Python不同版本的问题,特别是Windows环境下. 2.什么是Anaconda? Anaconda具有强大而方便的库管理与环境管理的功能,正好解决了Python使用的痛点. Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了库管理与环境管理的功能,可以很方便地解决多版本python并存.切换以及各种第三方库安…
Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍(链接),本文主要对DataFrame对象的常用用法进行总结梳理. 约定: import pandas as pd 1.什么是DataFrame对象? 一个二维表,有行索引(index)和列索引(columns),列的数据类型可以不同. 2.DataFrame对象的创建 DataFrame对象的创建主要是使用pd.DataFrame方法.主要包括以下三种: (1)方法1:通过等长列表组成的字典创建 d…
文件及目录操作 python中对文件.文件夹(文件操作函数)的操作需要涉及到os模块,主要用到的几个函数是, import os 返回指定目录下的所有文件和目录名: os.listdir() 重命名:os.rename(old, new) 创建多级目录:os.makedirs() 创建单个目录:os.mkdir() 获取文件属性:os.stat(file) 修改文件权限与时间戳:os.chmod(file) 终止当前进程:os.exit() 获取文件大小:os.path.getsize(file…
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…