检查阶段

运行部署前检查的时候

# ansible-playbook -vv playbooks/prerequisites.yml

需要看看play recap是否全过,如果不过需要定位原因,反复执行

之前在检查阶段,因为node1,node2经常连接不上master(设置为yum源)的repo/base,也就是RHEL7.6的包,暂时解决办法是在repo中分别挂在自己本地的源绕开错误。

部署阶段

# ansible-playbook -vv /usr/share/ansible/openshift-ansible/playbooks/deploy_cluster.yml

安装完成后的提示,如果有不成功,解决问题以后反复执行。

检查安装

[root@master yum.repos.d]# oc login -u system:admin
Logged into "https://master.example.com:8443" as "system:admin" using existing credentials. You have access to the following projects and can switch between them with 'oc project <projectname>': * default
kube-public
kube-system
management-infra
openshift
openshift-console
openshift-infra
openshift-logging
openshift-metrics-server
openshift-monitoring
openshift-node
openshift-sdn
openshift-web-console Using project "default".
[root@master yum.repos.d]# oc get nodes
NAME STATUS ROLES AGE VERSION
master.example.com Ready master 23m v1.11.0+d4cacc0
node1.example.com Ready infra 18m v1.11.0+d4cacc0
node2.example.com Ready compute 18m v1.11.0+d4cacc0
[root@master yum.repos.d]# oc get pods --all-namespaces
NAMESPACE NAME READY STATUS RESTARTS AGE
default docker-registry--9q962 / Running 17m
default registry-console--4mb7d / Running 17m
default router--74pr6 / Running 17m
kube-system master-api-master.example.com / Running 22m
kube-system master-controllers-master.example.com / Running 22m
kube-system master-etcd-master.example.com / Running 22m
openshift-console console-5896bbb547-df6p2 / Running 15m
openshift-infra hawkular-cassandra--k5bg2 / Running 12m
openshift-infra hawkular-metrics-6ldrw / Pending 6m
openshift-infra hawkular-metrics-858mh / Preempting 12m
openshift-infra hawkular-metrics-schema-sd7c5 / Completed 13m
openshift-infra heapster-tvn6t / Running 12m
openshift-logging logging-es-data-master-4g5tbuou--bcnsx / Pending 5m
openshift-logging logging-es-data-master-4g5tbuou--deploy / Running 5m
openshift-logging logging-fluentd-m5rbg / Running 6m
openshift-logging logging-fluentd-m64sn / Running 6m
openshift-logging logging-fluentd-nqpz4 / Running 6m
openshift-logging logging-kibana--wpf2t / Running 7m
openshift-metrics-server metrics-server-845b478887-vcbkd / ErrImagePull 11m
openshift-monitoring alertmanager-main- / Running 14m
openshift-monitoring alertmanager-main- / Running 14m
openshift-monitoring alertmanager-main- / Running 14m
openshift-monitoring cluster-monitoring-operator-674969789d-65rxn / Running 16m
openshift-monitoring grafana-7594d8dd75-cwr6p / Running 15m
openshift-monitoring kube-state-metrics-787f69cf4d-xjh76 / Running 14m
openshift-monitoring node-exporter-bwvpv / Running 14m
openshift-monitoring node-exporter-hzbb8 / Running 14m
openshift-monitoring node-exporter-rdzlp / Running 14m
openshift-monitoring prometheus-k8s- / Running 15m
openshift-monitoring prometheus-k8s- / Running 15m
openshift-monitoring prometheus-operator-8544897d54-z7249 / Running 16m
openshift-node sync-6xthq / Running 20m
openshift-node sync-rsgz9 / Running 19m
openshift-node sync-vsbws / Running 19m
openshift-sdn ovs-5d2dl / Running 20m
openshift-sdn ovs-gd4gw / Running 19m
openshift-sdn ovs-ktpt6 / Running 19m
openshift-sdn sdn-dz8kv / Running 19m
openshift-sdn sdn-mhbkg / Running 19m
openshift-sdn sdn-x7tq9 / Running 20m
openshift-web-console webconsole-5db89b6cd4-5sm9d / Running 16m

metrics还出不来

在master节点执行创建admin用户

# htpasswd /etc/origin/master/htpasswd admin

同时赋予admin用户权限

# oc adm policy add-cluster-role-to-user cluster-admin admin

在hosts文件中加入

192.168.0.103 master.example.com
192.168.0.104 console.apps.example.com
192.168.0.104 prometheus-k8s-openshift-monitoring.apps.example.com
192.168.0.104 grafana-openshift-monitoring.apps.example.com
192.168.0.104 hawkular-metrics.apps.example.com

访问https://master.example.com:8443,转到cluster console下,可以访问到集群相关的监控信息

修改错误

  • Metrics

经过定位,metrics启动不了的原因主要是两点:

1.ose-metrics-server的镜像缺失,这个重新导入后解决

2.openshift-monitoring下的node2下的node-exporter-sbddr一直启动出错,经过定位发现是安装了一个gitlab软件造成的端口冲突问题,把gitlab停掉后启动成功

[root@master ~]# oc get pods  -n openshift-monitoring -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE
alertmanager-main- / Running 21h 10.129.0.69 node1.example.com <none>
alertmanager-main- / Running 21h 10.129.0.66 node1.example.com <none>
alertmanager-main- / Running 21h 10.129.0.68 node1.example.com <none>
cluster-monitoring-operator-674969789d-65rxn / Running 21h 10.129.0.65 node1.example.com <none>
grafana-7594d8dd75-cwr6p / Running 21h 10.129.0.64 node1.example.com <none>
kube-state-metrics-787f69cf4d-xjh76 / Running 21h 10.129.0.71 node1.example.com <none>
node-exporter-bwvpv / Running 21h 192.168.0.104 node1.example.com <none>
node-exporter-hzbb8 / Running 21h 192.168.0.103 master.example.com <none>
node-exporter-sbddr / Running 13m 192.168.0.105 node2.example.com <none>
prometheus-k8s- / Running 21h 10.129.0.70 node1.example.com <none>
prometheus-k8s- / Running 21h 10.129.0.67 node1.example.com <none>
prometheus-operator-8544897d54-z7249 / Running 21h 10.129.0.63 node1.example.com <none>

3.openshift-infra下面的hawkular-metrics-9r5nc pod一直在pending状态,describe一下发现需要1.5G的内存,修改rc hawkular-metrics request为500m,后启动成功

[root@master ~]# oc get pods -n openshift-infra -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE
hawkular-cassandra--k5bg2 / Running 21h 10.130.0.42 node2.example.com <none>
hawkular-metrics-9r5nc / Running 11m 10.129.0.75 node1.example.com <none>
hawkular-metrics-schema-sd7c5 / Completed 21h 10.130.0.3 node2.example.com <none>
heapster-tvn6t / Running 21h 10.128.0.53 master.example.com <none>

终于也能截图展示一下了。

  •  EFK

经过定位主要是内存不够问题导致,所以现有的16G机器无法折腾了,看了pod启动命令,一个启动起来居然就要8G.令人发指啊!

离线安装ocp3.11需要注意的事情的更多相关文章

  1. 离线安装IE 11

    转自:http://blog.sina.com.cn/s/blog_711ab1b10102wzq1.html 1.在D盘下,新建文件夹,取名为“ie”. 2.将官网下载的IE11离线包放到此文件夹中 ...

  2. SUSE Linux Enterprise 11 离线安装 DLIB python机器学习模块

    python机器学习模块安装 环境:SUSE Linux Enterprise 11 sp4  离线安装 说明:在安装dlib时依赖的基础 环境较多,先升级gcc,以适应c++ 11的使用:需要用到c ...

  3. SUSE Linux Enterprise 11 离线安装 DLIB 人脸识别 python机器学习模块

    python机器学习模块安装 我的博客:http://www.cnblogs.com/wglIT/p/7525046.html 环境:SUSE Linux Enterprise 11 sp4  离线安 ...

  4. GitHub for Windows离线安装的方法

    这几天一直在尝试安装GitHub for windows ,安装程序是从https://windows.github.com/ 下载到的OneClick 部署程序,版本号为2.11.0.5.可能是因为 ...

  5. [GitHub]GitHub for Windows离线安装的方法

    这几天一直在尝试安装GitHub for windows ,安装程序是从https://windows.github.com/ 下载到的OneClick 部署程序,版本号为2.11.0.5.可能是因为 ...

  6. SharePoint 2016 必备组件离线安装介绍

    前言 SharePoint 必备组件安装,一直以来都是SharePoint安装过程中的最大的坑,尤其是不能联网的服务器.博主在这里简单介绍一下离线安装过程,并附组件包下载以及安装命令,并且在windo ...

  7. nexus离线安装索引及一些问题

    安装私服~~~ 整体流程: 服务器安装私服 配置私服(主要是安装索引) 本地maven配置指向私服 安装私服 win & linux 网上教程很多,不在阐述: 配置私服(及安装index) 1 ...

  8. Ubuntu14.04用apt在线/离线安装CDH5.1.2[Apache Hadoop 2.3.0]

    目录 [TOC] 1.CDH介绍 1.1.什么是CDH和CM? CDH一个对Apache Hadoop的集成环境的封装,可以使用Cloudera Manager进行自动化安装. Cloudera-Ma ...

  9. Windows2008 R2 Enterprise离线安装IE10和VS2015过程记录

    直接下载IE10,进行安装,提示需要联机下载更新: 在网上搜索到一篇文章(http://www.cnblogs.com/nbpowerboy/p/3383992.html),参考 以下载简体中文的Wi ...

随机推荐

  1. ASPxCheckBoxList控件获取selected项的text和value的方法

    设ASPxCheckBoxList的ClientInstanceName为list_ var needtext; for (var i = 0; i < list_.GetSelectedIte ...

  2. (转)函数后面加const--C++ const成员函数

    类的成员函数后面加 const,表明这个函数不会对这个类对象的数据成员(准确地说是非静态数据成员)作任何改变. 在设计类的时候,一个原则就是对于不改变数据成员的成员函数都要在后面加 const,而对于 ...

  3. 创建.dat文件(转载)

    比较有用的东比较有用的东西 首先,批处理文件是一个文本文件,这个文件的每一行都是一条DOS命令(大部分时候就好象我们在DOS提示符下执行的命令行一样),你可以使用DOS下的Edit或者Windows的 ...

  4. leetcode 之Linked List Cycle(24)

    两个思路,一是用哈希表记录每个结点是还被访问过:二是定义两个快.慢指针,如果存在环的话,两个指针必定会在某位结点相遇. bool linkListNode(ListNode *head) { List ...

  5. 4:django url

    一个干净的,优雅的URL 方案是一个高质量Web 应用程序的重要细节. 这节我们来看看django是如何做到干净优雅的url的 1:Django如何处理一个请求 通过ROOT_URLCONF决定根UR ...

  6. js字符串与Unicode编码互相转换

    ).toString() "597d" 这段代码的意思是,把字符'好'转化成Unicode编码,toString()就是把字符转化成16进制了 看看charCodeAt()是怎么个 ...

  7. git学习资源合集

    git官网 Pro git 电子书,这里还有中文版,这也是官方推荐的. 再加一个廖雪峰的简明git教程.

  8. ZIP排除指定目录进行压缩

    zip -r glog-0.3.5.zip glog-0.3.5/  -x "glog-0.3.5/doc/*" unzip -v glog-0.3.5.zip 进行查看ZIP的内 ...

  9. windows网卡命令

    netsh interface ip set address name="本地连接" source=dhcpnetsh interface ip set dns name=&quo ...

  10. Sql Server中常用函数replicate

    SQL常用函数之三 REPLICATE () 按指定次数重复字符表达式. 语法 REPLICATE ( character_expression, integer_expression) 参数 cha ...