[源码解析] 深度学习分布式训练框架 horovod (17) --- 弹性训练之容错 目录 [源码解析] 深度学习分布式训练框架 horovod (17) --- 弹性训练之容错 0x00 摘要 0x01总体思路 0x02 抛出异常 2.1 示例代码 2.2 HorovodInternalError 2.3 HostsUpdatedInterrupt 2.4 总结 0x03 处理异常 3.1 总体逻辑 3.2 恢复 3.3 重置 3.3.1 reset 3.3.2 _HorovodBasics…