k8s1.12 获取 pod 的 gpu mertics

vps网友提供 06-20 讨论归档 12

目前找到的版本实现是 1.13pod-gpu-metrics-exporter,寻求支持 1.12 的采集的开源方案。我好菜，别喷我^_^。

本文由 vps网友提供，转载请注明出处

标签:

06-20

@menyakun Nvidia 提供收费的方案，360 实现了容器的 gpu 监控

06-20

NVIDA 官方提供的 exporter 没有的话，应该也不会有了吧。你用的是 NVIDA GRID ？我记得是要买许可的吧，不知道会不会有闭源的解决方案。

06-20

@choury 这两个没用到，获取的 value 似乎是卡的使用率，所以来 V2EX 问下，有没有更细的粒度

06-20

@vaniot 怎么分配的呢？ mps ？ grid ？当前的监控都只能做到卡的粒度，如果你只有一张卡那看到的都是这改卡的使用率

06-20

@choury 一张卡，每个 gpu 切分 200 份，按 200 来分配

06-20

@vaniot 你有几张卡？ pod 是怎么分配的？

06-20

@choury 从 label 可以区分,但 pod 的 used 的值是一样，没区分开每个 pod 各自的值

06-20

@vaniot 看 label 啊

06-20

@choury 我用了 cadvisor 的得到 mertic:`container_accelerator_memory_used_bytes`,每一个的 value 都是一样的数据，目前只有一个 node 上有 nvidia gpu，这是统计总的信息？

06-20

用 cadvisor

06-20

@richzhu 大佬 prometheus 可以采集到 pod 的 goux 信息吗？

06-20

高级，我用的 Prometheus 省事🤪

VPS主机对比评测网