版本:v2.7.0
启用天数智芯 GPU 共享
简介
本组件支持复用天数智芯 GPU 设备 (MR-V100、BI-V150、BI-V100),并为此提供以下几种与 vGPU 类似的复用功能,包括:
GPU 共享: 每个任务可以只占用一部分显卡,多个任务可以共享一张显卡
可限制分配的显存大小: 你现在可以用显存值(例如 3000M)来分配 GPU,本组件会确保任务使用的显存不会超过分配数值
可限制分配的算力核组比例: 你现在可以用算力比例(例如 60%)来分配 GPU,本组件会确保任务使用的显存不会超过分配数值
设备 UUID 选择: 你可以通过注解指定使用或排除特定的 GPU 设备
方便易用: 部署本组件后,只需要部署厂家提供的 gpu-manager 即可使用
节点需求
- Iluvatar gpu-manager (please consult your device provider)
- driver version > 3.1.0
开启 GPU 复用
- 部署'gpu-manager',天数智芯的 GPU 共享需要配合厂家提供的'gpu-manager'一起使用,联系设备提供方获取
注意: 只需要安装 gpu-manager,不要安装 gpu-admission.
-
部 署'gpu-manager'之后,你需要确认显存和核组对应的资源名称 (例如 'iluvatar.ai/vcuda-core', 'iluvatar.ai/vcuda-memory')
-
在安装 HAMi 时配置'iluvatarResourceMem'和'iluvatarResourceCore'参数
helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag={your kubernetes version} --set iluvatarResourceMem=iluvatar.ai/vcuda-memory --set iluvatarResourceCore=iluvatar.ai/vcuda-core -n kube-system
说明: 默认资源名称如下:
iluvatar.ai/vgpu用于 GPU 数量iluvatar.ai/vcuda-memory用于显存分配iluvatar.ai/vcuda-core用于核心分配你可以通过上述参数自定义这些名称。
设备粒度切分
HAMi 将每个天数智芯 GPU 划分为 100 个单元进行资源分配。当你请求一部分 GPU 时,实际上是在请求这些单元中的一定数量。
显存分配
- 每个
iluvatar.ai/vcuda-memory单位代表 256MB 的设备显存 - 如果不指定显存请求,系统将默认使用 100% 的可用显存
- 显存分配通过硬限制强制执行,确保任务不会超过其分配的显存
核心分配
- 每个
iluvatar.ai/vcuda-core单位代表 1% 的可用计算核心 - 核心分配通过硬限制强制执行,确保任务不会超过其分配的核心
- 当请求多个 GPU 时,系统会根据请求的 GPU 数量自动设置核心资源