1. 数据分析的任务:数据读写,数据准备(清洗,修整,规范化,重塑,切片切块,变形),转换,建模计算,呈现(模型/数据) 2. 数据集: bit.ly的1.usa.gov数据:URL缩短服务bit.ly和美国政府usa.gov合作从.gov或.mil用户那里收集的匿名数据 # -*- coding:utf-8 -*- #导入json模块,将json字符串转换为python字典 import json from collections import defaultdict from colle…
da array: 一个快速而灵活的同构多维大数据集容器,可以利用这种数组对整块的数据进行一些数学运算 数据指针,系统内存的一部分 数据类型 data type/dtype 指示数据大小的元组 stride: strides中保存的是当每个轴的下标增加1时,数据存储区中的指针所增加的字节数 In [6]: np.ones((3,4,5),dtype=np.float64).strides Out[6]: (160, 40, 8) ndarray数据结构: reshape()函数 -1参数,该维度…
1. 什么是IPython IPyhton 本身没有提供任何的计算或者数据分析功能,在交互式计算和软件开发者两个方面最大化地提高生产力,execute-explore instead of edit-compile-run. 2.TAB键的功能 Tab: 输出当前空间中任何与输入的字符串相匹配的变量 .<Tab>: 输出对象方法和属性,默认隐藏下划线开头的方法和属性和内部私有的方法和属性 .__<Tab>: 输出下划线开头的方法和属性和内部私有的方法和属性 路径搜索: 文件夹和文件…
1. python中数据结构:矩阵,数组,数据框,通过关键列相互联系的多个表(SQL主键,外键),时间序列 2. python 解释型语言,程序员时间和CPU时间衡量,高频交易系统 3. 全局解释器锁GIL, Global Interpreter Lock防止解释器同时执行多个python字节码指令的机制 Cpython 可以继承OpenMP 实行并行处理循环而大幅度提高数值算法的速度 4. Numpy, pandas,matplotlib,Ipython,Scipy Numpy:Python科…
Numpy:高性能计算和数学分析的基础包 ndarray, 一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对数组数据进行快速运算的标准数学函数 用于读写磁盘数据的工具和用于操作内存映射文件的工具 线性代数,随机数生成,傅里叶变换 用于集成C,C++,Fortran等语言编写的代码工具(很容易将数据传给低级语言编写的外部库,外部库也能以Numpy数组形式将数据返回给python,使得python成为包装c/c++/Fortran历史代码库选择) ndarray: N维数组对象,…
pandas: 基于Numpy构建的数据分析库 pandas数据结构:Series, DataFrame Series: 带有数据标签的类一维数组对象(也可看成字典) values, index 缺失数据检测:pd.isnull(), pd.notnull(), Series对象的实例方法 Series对象本身及其索引都有一个name属性,和pandas其他关键功能关系很密切 DataFrame: 表格型数据结构,列和行都有索引 获取DataFrame列:字典标记方式,或者属性方式(frame2…
ipython3 --pyplot pyplot: matplotlib 画图的交互使用环境…
resample: 重采样函数,可以按照时间来提高或者降低采样频率,fill_method可以使用不同的填充方式. pandas.data_range 的freq参数枚举: Alias Description B business day frequency C custom business day frequency D calendar day frequency W weekly frequency M month end frequency SM semi-month end freq…
<Linux内核设计与实现>读书笔记--第一. 二章 标签(空格分隔): 20135321余佳源 第一章 Linux内核简介 1.Unix内核特点 十分简洁:仅提供几百个系统调用并且有明确的目的: 在Unix中,大部分东西都被(或者正致力于)被当做文件对待: Unix内核即相关系统工具软件都是用C语言编写的,这使得系统有着强大的可移植性: Unix进程创建非常迅速,目标在于一次执行保质保量地完成一个任务 进程创建迅速:有独特的fork()系统调用,一次执行保质保量地完成一个任务.简单的进程间通…
转自:http://www.cnblogs.com/wang_yb/archive/2013/05/23/3095907.html 内核的内存使用不像用户空间那样随意,内核的内存出现错误时也只有靠自己来解决(用户空间的内存错误可以抛给内核来解决). 所有内核的内存管理必须要简洁而且高效. 主要内容: 内存的管理单元 获取内存的方法 获取高端内存 内核内存的分配方式 总结 1. 内存的管理单元 内存最基本的管理单元是页,同时按照内存地址的大小,大致分为3个区. 1.1 页 页的大小与体系结构有关,…