k8s1.12 获取 pod 的 gpu mertics

vps网友提供 06-20 讨论归档 12

目前找到的版本实现是 1.13pod-gpu-metrics-exporter,寻求支持 1.12 的采集的开源方案。我好菜,别喷我^_^。

本文由 vps网友提供,转载请注明出处

本文链接: https://www.vpsvsvps.com/discuss/a/1676471978589949952.html

标签:
vaniot
06-20

@menyakun Nvidia 提供收费的方案,360 实现了容器的 gpu 监控

menyakun
06-20

NVIDA 官方提供的 exporter 没有的话,应该也不会有了吧。你用的是 NVIDA GRID ?我记得是要买许可的吧,不知道会不会有闭源的解决方案。

vaniot
06-20

@choury 这两个没用到,获取的 value 似乎是卡的使用率,所以来 V2EX 问下,有没有更细的粒度

choury
06-20

@vaniot 怎么分配的呢? mps ? grid ?当前的监控都只能做到卡的粒度,如果你只有一张卡那看到的都是这改卡的使用率

vaniot
06-20

@choury 一张卡,每个 gpu 切分 200 份,按 200 来分配

choury
06-20

@vaniot 你有几张卡? pod 是怎么分配的?

vaniot
06-20

@choury 从 label 可以区分,但 pod 的 used 的值是一样,没区分开每个 pod 各自的值

choury
06-20

@vaniot 看 label 啊

vaniot
06-20

@choury 我用了 cadvisor 的得到 mertic:`container_accelerator_memory_used_bytes`,每一个的 value 都是一样的数据,目前只有一个 node 上有 nvidia gpu,这是统计总的信息?

choury
06-20

用 cadvisor

vaniot
06-20

@richzhu 大佬 prometheus 可以采集到 pod 的 goux 信息吗?

richzhu
06-20

高级,我用的 Prometheus 省事🤪