如何识别并解决复杂的dcache问题 背景:这个是在centos7.6的环境上复现的,但该问题其实在很多内核版本上都有, 如何做好对linux一些缓存的监控和控制,一直是云计算方向的热点,但这些热点 属于细分场景,很难合入到linux主基线,随着ebpf的逐渐稳定,对通用linux内核 的编程,观测,可能会有新的收获. 下面列一下我们是怎么排查并解决这个问题的. 一.故障现象 oppo云内核团队发现集群的snmpd的cpu消耗冲高, snmpd几乎长时间占用一个核,perf发现热点如下: + 9…