GreenPlum 大数据平台--运维(二)】的更多相关文章

.如何获取查询运行时和已用时间. 例子: Select tstart, tfinish, (tfinish-tstart) as total_time, trim(query_text) from queries_history Where tstart >= '2011-07-07 11:00:00' and tstart < '2011-07-07 13:00:00' and db ='yourdatabasename' Order by tstart; . *查看上次执行的操作 gpdb…
一,操作命令 01,启动gpstart 参数说明 COMMAND NAME: gpstart Starts a Greenplum Database system. ***************************************************** SYNOPSIS ***************************************************** gpstart [-d <master_data_directory>] [-B <para…
.最后分析或真空或创建表或等... Select * from pg_stat_operations where schemaname='SCHEMA NAME ' and actionname in ('ANALYZE','VACUUM') order by statime; .长时间查询空闲: Select * from pg_stat_activity order by query_start,backend_start; gpdb=# Select * from pg_stat_acti…
连接参数 连接参数 描述 环境变量 应用名称 连接到数据库的应用名称,保存在application_name连接参数中.默认值是psql. $PGAPPNAME 数据库名 用户想要连接的数据库名称.对于一个刚初始化的系统,第一次可使用postgres数据库来连接. $PGDATABASE 主机名 Greenplum数据库的Master的主机名.默认主机是本地主机. $PGHOST 端口 Greenplum数据库的Master实例所运行的端口号.默认为5432. $PGPORT 用户名 要以其身份…
一,GreenPlum 01,介绍: Greenplum是一种基于PostgreSQL的分布式数据库,其采用shared-nothing架构,主机.操作系统.内存.存储都是自我控制的,不存在共享. 官方文档:>>>--大概内容如下 Greenplum Database是一个大规模并行处理(MPP)数据库服务器,其架构专门用于管理大规模分析数据仓库和商业智能工作负载. MPP(也称为无共享架构)是指具有两个或更多处理器的系统,它们协作执行操作,每个处理器具有其自己的存储器,操作系统和磁盘.…
转载 作者:StuQ 文章收藏自微信:InfoQ   时隔近5个月,StuQ的小伙伴们再次出品了IT职业技能图谱更新版.这回除更新之前版本外,还添加了架构师.HTML 5.DBA等新的职业技能图谱.正确打开姿势:先收藏,再转发,最后看! 注:点击图片查看高清大图   架构师 HTML 5   移动性能优化   DBA   ios开发工程师   移动无线测试工程师   以上为本次IT职业技能图谱更新部分,更多未涉及的工种技能图谱正在加紧赶制,敬请期待!下附旧版11张高清图谱   程序语言开发综述…
一,外部表介绍 Greenplum 在数据加载上有一个明显的优势,就是支持数据的并发加载,gpfdisk是并发加载的工具,数据库中对应的就是外部表 所谓外部表,就是在数据库中只有表定义.没有数据,数据都存放在数据库之外的数据文件.greenplum可以对一个外部表执行正常的DML操作,当读取数据的时候,数据库从数据文件中加载数据.外部表支持在segment上并发地告诉从gpfdist导入数据,由于是从segment上导入数据,所以效率很高. 结构图: 外部表需要指定gpfdist的IP和端口,还…
数据库状态监控活动 活动 过程 纠正措施 列出当前状态为down的Segment.如果有任何行被返回,就会生成一个警告或者告警. 推荐频率:每5到10分钟 重要度: IMPORTANT 在postgres数据库中运行下例查询: SELECT * FROM gp_segment_configuration WHERE status <> 'u'; 如果该查询返回任何行,按照这些步骤来纠正问题: 验证宕机的Segment所在的主机是有响应的. 如果主机没有问题,检查宕机的Segment的主Segm…
01,创建分区表 [PARTITION BY partition_type (column) [SUBPARTITION BY partition_type (column)] [SUBPARTITION TEMPLATE (template_spec)] [...] (partition_spec) |[SUBPARTITION BY partition_type(column)] [...] (partition_spec) [(subpartition_spec [(...)] )] ]…
01,情况描述 主Segment和它的镜像都宕掉.导致了greenplum数据库不可用状态 02,重启greenplum数据库 gpstop -r 03,恢复 gprecoverseg 04,状态检查 gpstate -m 保证所有segment处于Synchronized 05,存在处于Change Tracking模式 运行 gprecoverseg -F…
一,非并行备份(pg_dump) 1) GP依然支持常规的PostgreSQL备份命令pg_dump和pg_dumpall 2) 备份将在Master主机上创建一个包含所有Segment数据的大的备份文件 3) 不适合于全部数据备份,适用于小部分数据的迁移或备份 pg_dump是用于备份数据库的标准PostgreSQL实用程序,在Greenplum数据库中也受支持.它创建一个(非并行)转储文件.对于Greenplum数据库的常规备份,最好使用Greenplum Database备份实用程序gpc…
一,操作语法 01,创建数据库 --创建用户-- [gpadmin@greenplum01 ~]$ export PGDATABASE=testDB --指定数据库名字 [gpadmin@greenplum01 ~]$ psql --连接本地数据库 psql () Type "help" for help. testDB=# SELECT version(); version -------------------------------------------------------…
1. 环境准备 01, 安装包准备: Greenplum :  >>>>链接地址 Pgadmin客户端 :  >>>链接地址 greenplum-cc-web监控: >>>>链接地址 02,节点说明 服务器ip 主机名 角色 系统版本 192.168.0.221 greenplum01 master centos7 192.168.0.222 greenplum02 Segment/standby centos7 192.168.0.223…
01,备份 生成备份数据库 [gpadmin@greenplum01 ~]$ gpcrondump -l /gpbackup/back2/gpcorndump.log -x postgres -v [gpadmin@greenplum01 ~]$ gpcrondump -l /gpbackup/back2/gpcorndump.log -x postgres -v :::: gpcrondump:greenplum01:gpadmin-[INFO]:-Starting gpcrondump wi…
01,并行备份(gp_dump) 1) GP同时备份Master和所有活动的Segment实例 2) 备份消耗的时间与系统中实例的数量没有关系 3) 在Master主机上备份所有DDL文件和GP相关的数据字典表 4) 每个Segment备份各自的数据 5) 所有备份文件组成一个完整的备份集合,通过唯一14位数字的时间戳来识别 gp_dump dumps a database as a text file or to other formats. Usage: gp_dump [OPTION]..…
一,安装web监控界面 01,准备 下载greenplum cc包,>> 解压缩 02,安装前配置 vim /greenplum/data/master/gpseg-/pg_hba.conf local gpperfmon gpmon trust host all gpmon trust host all gpmon ::/ trust 配置 export PGDATA=/greenplum/data/master/gpseg-1/ 03,安装 ./gpccinstall-4.1.1 缺少用户…
01,segment 检查一: 在master节点上检查失效的segment 正常情况下: :::: gpstate:greenplum01:gpadmin-[INFO]:-Starting gpstate with args: -e :::: gpstate:greenplum01:gpadmin-[INFO]:-local Greenplum Version: 'postgres (Greenplum Database) 5.16.0 build commit:23cec7df0406d69…
gpstate 命令 参数 作用 gpstate -b => 显示简要状态 gpstate -c => 显示主镜像映射 gpstart -d => 指定数据目录(默认值:$MASTER_DATA_DIRECTORY) gpstate -e => 显示具有镜像状态问题的片段 gpstate -f => 显示备用主机详细信息 gpstate -i => 显示GRIPLUM数据库版本 gpstate -m => 显示镜像实例同步状态 gpstate -p => 显…
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理. Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理. Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度. Hadoop 还…
一.CentOS7集群搭建 1.1 准备3台centos7的虚拟机 IP及主机名规划如下: 192.168.123.110 spark1192.168.123.111 spark2192.168.123.112 spark3 1.2 修改IP地址 [root@bigdata ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33 1.3 修改主机映射 [root@bigdata ~]# vi /etc/hosts 1.4 修改主机名 三台机器分别把主机…
一,客户端连接 01,配置文件说明 在master节点的$MASTER_DATA_DIRECTORY(这个是配置的环境变量:/greenplum/data/master/gpseg-1)/pg_hba.conf 中添加新的客户端服务器信息.master节点的pg_hba.conf配置文件,控制客户端访问Greenplum系统.注意:segment节点也有pg_hba.conf配置文件,它只能控制master节点能否访问segment,决不能运行客户端连接.所以不要修改segment的pg_hba…
1,问题检查 [gpadmin@greenplum01 conf]$ psql -c "select * from gp_segment_configuration where status='d'" dbid | content | role | preferred_role | mode | status | port | hostname | address | replication_por t ------+---------+------+----------------+…
01,增加机器的配置 需要增加的机器安装greenplum 软件(操作见greenplum安装部署章节) 02,分配机器存储区域 03,配置互信 使用gpssh-exkeys确保Segment主机能通过SSH和SCP免密码连接到彼此. 04,配置文件编写 创建一个配置文件,其中列出要在其上创建镜像的主机名称.端口号和数据目录 镜像配置文件的格式为: filespaceOrder=[filespace1_fsname[:filespace2_fsname:...] mirror[content]=…
一,问题描述 :::: gpinitstandby:greenplum01:gpadmin-[ERROR]:-Cannot use -n option when standby master has not yet been configured :::: gpinitstandby:greenplum01:gpadmin-[ERROR]:-Error initializing standby master: Standby master not configured 节点很久没有管了,然后服务…
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分析出来的数据,辅助公司中的PM(产品经理).数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务.最终达到用大数据技术来帮助提升公司的业绩.营业额以及市场占有率的目标. 1.课程研发环境 开发工具: Eclipse Linux:CentOS 6…
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,重新赋能轻量级大数据平台 阿里云自从17年8月提供HBas…
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数据仓库.任务流调度.元数据管理.自助报表等领域.之前在百度从事了四年的数据仓库和工具平台的研发工作. 导读:链家网大数据部门负责收集加工公司各产品线的数据,并为链家集团各业务部门提供数据支撑.本文分享链家网大数据部成立后,在发展变革中遇到的一些问题和挑战,架构团队是如何构建一站式的数据平台来解决获取…
如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理.识别.加工.呈现,最后成为指导企业业务发展的知识和智慧.而处理.识别.加工.呈现的过程从本质上来讲,就是实现对数据的采集.清洗.加工.加载.建模分析,再到可视化的过程.  大数据平台的通用架构 1. 数据采集 采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下: - 企业服务器的日志: - 企业各种信息系统的数据(CRM/ERP/数据库): - 企业的网站/App/小程序等客户端的…
携程大数据平台负责人张翼分享携程的实时大数据平台的迭代,按照时间线介绍采用的技术以及踩过的坑.携程最初基于稳定和成熟度选择了Storm+Kafka,解决了数据共享.资源控制.监控告警.依赖管理等问题之后基本上覆盖了携程所有的技术团队.今年的两个新尝试是Streaming CQL(华为开源)和JStorm(阿里开源),意在提升开发效率.性能和处理消息拥塞能力,目前已有三分之一的Storm应用已经迁到JStorm 2.1上. 今天给大家分享的是携程在实时数据平台的一些实践,按照时间顺序来分享我们是怎…
如何基于Go搭建一个大数据平台 - Go中国 - CSDN博客 https://blog.csdn.net/ra681t58cjxsgckj31/article/details/78333775 017年10月18日 00:00:00 Go中国 阅读数:470   大家下午好!我是来自七牛云大数据团队的党合萱.今天向大家介绍一下我们是如何基于Go搭建大数据平台的. 七牛的大数据的产品——Pandora 首先介绍一下七牛的大数据的产品——Pandora,我们的目的是提供简单.高效和开放的大数据平台…