python 学记笔记 SQLalchemy】的更多相关文章

数据库表是一个二维表,包含多行多列.把一个表的内容用Python的数据结构表示出来的话,可以用一个list表示多行,list的每一个元素是tuple,表示一行记录,比如,包含id和name的user表: [ ('1', 'Michael'), ('2', 'Bob'), ('3', 'Adam') ] Python的DB-API返回的数据结构就是像上面这样表示的. 但是用tuple表示一行很难看出表的结构.如果把一个tuple用class实例来表示,就可以更容易地看出表的结构来: class U…
在IO编程中,我们知道CPU的速度远远快于磁盘,网络IO,在一个线程中,CPU执行速度的代码非常快,然而遇到IO操作就需要阻塞 需要等待IO操作完成才能继续下一步的动作.这种情况叫做同步IO 在IO操作的过程中,当前线程被挂起,而其他需要CPU执行的代码就无法被当前线程执行. 因为一个IO阻塞了当前线程,导致后边的代码无法运行,我们必须使用多线程或者多进程来并发执行代码,为多个用户服务, 每个用户分配一个线程,如果遇到IO导致线程被挂起,其他用户的县城不受影响 多线程和多进程模型确实解决了并发问…
最近泛做了期望的相关题目,大概\(Luogu\)上提供的比较简单的题都做了吧\(233\) 好吧其实是好几天之前做的了,不过因为太颓废一直没有整理-- \(Task1\) 期望的定义 在概率论和统计学中,数学期望(\(mean\))(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一.它反映随机变量平均取值的大小. 需要注意的是,期望值并不一定等同于常识中的"期望"--"期望值"也许与每一个结果都不相等.期望值是该变量输出值的平均…
kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门 图中有四个分区,每个图形对应一个consumer,任意一对一即可 获取topic的分区数,每个分区创建一个进程消费分区中的数据. 每个进程的实例中,先要创建连接kafka的实例,然后指定连接到哪个topic(主图),哪个分区 之后要设置kafka的偏移量,kafka中每条消息都有偏移量,如果消费者突然宕机了,则可以从上个偏移量继续消费 提交偏移量的工作客户端都会默认操作,因此提交偏移量可选 后续…
Hive主要为了简化MapReduce流程,使非编程人员也能进行数据的梳理,即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据(表明,字段信息等)存于关系型数据库中,数据存于HDFS中. 此元数据与HDFS中的元数据需要区分清楚,HDFS中元数据(文件名,文件长度等)存于Namenode中,数据存于Datanode中. 本次使用的是hive1.2.2版本 下载完毕之后解压: 将default文件复制一份成site文件,然后打开site文件,清空其内容,然后配置如下参数: h…
master为主节点 一个集群中可能运行多个application,因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个SparkEnv 客户端提交请求,然后master生成driver,生成对应的SparkContext,然后将任务拆分为多个RDD,对应上述流程 用户自定义Spark程序并且提交后,生成Driver Program,然后生成多个Job,每个JOB根据RDD的宽依赖关系来生成多个stage,一个stage对…
spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Yran Tachyon是分布式内存文件系统 Spark是核心计算引擎,能够将数据并行大规模计算 Spark Streaming是流式计算引擎,将每个数据切分成小块采用spark运算范式进行运算 Spark SQL是Spark的SQL ON Hadoop,能够用sql来对数据进行查询等功能 Graph…
这些场景的共同点就是数据由上层框架产生,需要由下层框架计算,其中间层就需要有一个消息队列传输系统 Apache flume系统,用于日志收集 Apache storm系统,用于实时数据处理 Spark系统,用于内存数据处理 elasticsearch系统,用于全文检索 broker中每个partition都会有备份,可自行设置,前端程序和读取数据的程序都可以是自己写的程序或者是各类框架,例如hadoop,flume 搭建集群: kafka的包需要事先下载好,zookeeper环境搭建之前已经做过…
Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景 场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经整合,因此也会加入到hbase当中 场景二:hbase不支持join或者gruop等,可以通过这种方式,让hbase支持sql语句等 场景三,使用Hbase加载数据,然后用Hive查询数据,这样既有了Hbase的高速读写数据,也有了Hive的sql语句方便查询: 部署hive整合hbase环境: 先…
概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问Hbase的jar包: 参考官网可解决: 运行后解决: 导入数据运行指令: tsv是指以制表符为分隔符的文件 先创建测试数据,创建user文件: 上传至hdfs,并且启动hbase shell: 创建表: 之后导入数据: 还有一些其他的方法,比如rowcounter统计行数: 接下来演示用sqoop…