v2.9.0
主要功能
- 新增面向 Ascend 设备的 HAMi-core 模式,支持用户态虚拟化,实现更细粒度的显存与算力共享。
- 优化 HAMi-core 性能,并补充最新 HAMi-core benchmark 数据。
- HAMi-DRA 的 NVIDIA 支持已可用。
- Volcano vGPU Device Plugin 同步至 0.19 版本,并支持 CDI。
- 新增用于调试和开发 HAMi 的 skills。
- 支持 Ascend 910C 设备在 SuperPod 环境中的 module-pair 分配,作者 (@ashergaga),PR #1610
- 新增 Vast.ai 设备支持,作者 (@DSFans2014),PR #1645
- 新增 Ascend
ResourceCoreName与Ascendxxx-core资源,用于支持 hami-vnpu-core 虚拟化,作者 (@ashergaga) 和 (@DSFans2014),PR #1771 与 #1804 - 支持基于 hami-vnpu-core 注解的节点过滤,并支持启用 hami-vnpu-core 后的多设备请求,作者 (@ashergaga),PR #1812 与 #1837
主要 bug 修复
- 修复在 vLLM 0.18 以上版本使用张量并行时的初始化错误。
- 修复 schedulerName 检查中的优先级问题,作者 (@hoteye),PR #1627
- 增加 nil 检查以避免 leader election panic,作者 (@haitwang-cloud),PR #1603
- 修复调度器评分过程中 resource requests 为 nil 导致的 panic,作者 (@yxxhero),PR #1626
- 修复 Iluvatar 设备 binpack 与 spread 调度策略反向的问题,作者 (@qiangwei1983),PR #1631
- 修复
Device_memory_desc_of_container指标基数膨胀问题,作者 (@maishivamhoo123),PR #1628 - 处理统一内存 GPU 上
GetMemoryInfo返回ERROR_NOT_SUPPORTED的场景,作者 (@jsl9208),PR #1637 - 通过指数退避与 lister 优化 nodelock 的可扩展性,作者 (@maishivamhoo123),PR #1663
- 修复副本数大于 1 时 readiness probe 失败的问题,作者 (@Shouren),PR #1677
- 修复调度器 slot 使用量预测与设备类型过滤问题,作者 (@maishivamhoo123),PR #1700
- 在缓存中保留 terminating Pod,避免过早驱逐,作者 (@maishivamhoo123),PR #1719
- 修复包含 init containers 的多容器场景设备分配问题,作者 (@haitwang-cloud),PR #1650
- 对齐 kubelet 设备分配与调度器注解,作者 (@xrwang8),PR #1743
- 处理 Linux kernel 6.17 下 NVIDIA 健康检查握手边界场景,作者 (@maishivamhoo123),PR #1810
- 修复 CDI 模式下 MIG 分配失败的问题,作者 (@DSFans2014),PR #1826
变更内容
其他变更
- 新增
vGPUmonitor --metrics-bind-address参数,作者 (@dongjiang1989),PR #1613 - 在 Helm charts 与 device plugin 中增加 Prometheus ServiceMonitor 支持,作者 (@dongjiang1989),PR #1614 与 #1633
- 在 webhook 中检查 resource quota,作者 (@DSFans2014),PR #1605
- 为 webhook Helm chart 增加 namespaceSelector 与 objectSelector 配置,作者 (@haitwang-cloud),PR #1653
- 按最佳实践对齐 Prometheus 指标和 label 名称,作者 (@MyoungHaSong),PR #1644
- 优化日志详细程度并添加单元测试,作者 (@haitwang-cloud),PR #1710
- 新增面向 minikube 与 kind 集群的 local-deploy target,作者 (@anandj91),PR #1760
- 新增
hami_vgpu_metrics_summarizer与k8s-debug-gpu-podskills,作者 (@haitwang-cloud),PR #1755 与 #1654 - 为
DeviceUsage及其嵌套类型增加 DeepCopy 函数,作者 (@Shouren),PR #1818 - 新增
enableGetPreferredAllocation参数,作者 (@DSFans2014),PR #1824 - 为指标增加设备类型 label,作者 (@xiyichan),PR #1612
- 为 scheduler routes 增加
io.LimitReader,降低拒绝服务风险,作者 (@maishivamhoo123),PR #1620 - 移除已废弃的 scheduler policy ConfigMap,作者 (@haitwang-cloud),PR #1651
- 更新 NVIDIA device plugin 与 NVIDIA container runtime 模块,作者 (@archlitchi),PR #1731
- 升级 Go 至 1.26.2 并处理相关安全问题,作者 (@luohua13) 与 (@Shouren),PR #1791 与 #1772
- 禁用 device plugin 的 host network,作者 (@luohua13),PR #1789
- 将 HAMi-DRA 版本升级至 v0.2.0,作者 (@FouoF),PR #1845
新贡献者
- maishivamhoo123 (@maishivamhoo123)
- hoteye (@hoteye)
- jsl9208 (@jsl9208)
- ashergaga (@ashergaga)
- Atroxgod (@Atroxgod)
- MyoungHaSong (@MyoungHaSong)
- charford (@charford)
- jcustenborder (@jcustenborder)
- Nov11 (@Nov11)
- ilia-medvedev (@ilia-medvedev)
- Yonsun-w (@Yonsun-w)
- CFH2436 (@CFH2436)
- kenwoodjw (@kenwoodjw)
- anandj91 (@anandj91)
- ManishSharma1609 (@ManishSharma1609)
- maverick123123 (@maverick123123)
- almazkhalikov (@almazkhalikov)
- lin121291 (@lin121291)
- mesutoezdil (@mesutoezdil)
贡献者
- anandj91 (@anandj91)
- archlitchi (@archlitchi)
- ashergaga (@ashergaga)
- Atroxgod (@Atroxgod)
- CFH2436 (@CFH2436)
- charford (@charford)
- CoderTH (@CoderTH)
- dongjiang1989 (@dongjiang1989)
- DSFans2014 (@DSFans2014)
- FouoF (@FouoF)
- haitwang-cloud (@haitwang-cloud)
- hoteye (@hoteye)
- ilia-medvedev (@ilia-medvedev)
- jcustenborder (@jcustenborder)
- jsl9208 (@jsl9208)
- kenwoodjw (@kenwoodjw)
- lin121291 (@lin121291)
- luohua13 (@luohua13)
- maishivamhoo123 (@maishivamhoo123)
- ManishSharma1609 (@ManishSharma1609)
- maverick123123 (@maverick123123)
- mesutoezdil (@mesutoezdil)
- MyoungHaSong (@MyoungHaSong)
- Nov11 (@Nov11)
- peachest (@peachest)
- qiangwei1983 (@qiangwei1983)
- saiyam1814 (@saiyam1814)
- Shouren (@Shouren)
- wawa0210 (@wawa0210)
- xiyichan (@xiyichan)
- xrwang8 (@xrwang8)
- Yonsun-w (@Yonsun-w)
- yxxhero (@yxxhero)
完整更新日志: https://github.com/Project-HAMi/HAMi/compare/v2.8.0...v2.9.0









