跳转到文档内容
← 返回索引页

v2.9.0

anandj91
archlitchi
ashergaga
Atroxgod
CFH2436
charford
CoderTH
dongjiang1989
DSFans2014
FouoF

主要功能

  • 新增面向 Ascend 设备的 HAMi-core 模式,支持用户态虚拟化,实现更细粒度的显存与算力共享。
  • 优化 HAMi-core 性能,并补充最新 HAMi-core benchmark 数据。
  • HAMi-DRA 的 NVIDIA 支持已可用。
  • Volcano vGPU Device Plugin 同步至 0.19 版本,并支持 CDI。
  • 新增用于调试和开发 HAMi 的 skills。
  • 支持 Ascend 910C 设备在 SuperPod 环境中的 module-pair 分配,作者 (@ashergaga),PR #1610
  • 新增 Vast.ai 设备支持,作者 (@DSFans2014),PR #1645
  • 新增 Ascend ResourceCoreNameAscendxxx-core 资源,用于支持 hami-vnpu-core 虚拟化,作者 (@ashergaga) 和 (@DSFans2014),PR #1771#1804
  • 支持基于 hami-vnpu-core 注解的节点过滤,并支持启用 hami-vnpu-core 后的多设备请求,作者 (@ashergaga),PR #1812#1837

主要 bug 修复

  • 修复在 vLLM 0.18 以上版本使用张量并行时的初始化错误。
  • 修复 schedulerName 检查中的优先级问题,作者 (@hoteye),PR #1627
  • 增加 nil 检查以避免 leader election panic,作者 (@haitwang-cloud),PR #1603
  • 修复调度器评分过程中 resource requests 为 nil 导致的 panic,作者 (@yxxhero),PR #1626
  • 修复 Iluvatar 设备 binpack 与 spread 调度策略反向的问题,作者 (@qiangwei1983),PR #1631
  • 修复 Device_memory_desc_of_container 指标基数膨胀问题,作者 (@maishivamhoo123),PR #1628
  • 处理统一内存 GPU 上 GetMemoryInfo 返回 ERROR_NOT_SUPPORTED 的场景,作者 (@jsl9208),PR #1637
  • 通过指数退避与 lister 优化 nodelock 的可扩展性,作者 (@maishivamhoo123),PR #1663
  • 修复副本数大于 1 时 readiness probe 失败的问题,作者 (@Shouren),PR #1677
  • 修复调度器 slot 使用量预测与设备类型过滤问题,作者 (@maishivamhoo123),PR #1700
  • 在缓存中保留 terminating Pod,避免过早驱逐,作者 (@maishivamhoo123),PR #1719
  • 修复包含 init containers 的多容器场景设备分配问题,作者 (@haitwang-cloud),PR #1650
  • 对齐 kubelet 设备分配与调度器注解,作者 (@xrwang8),PR #1743
  • 处理 Linux kernel 6.17 下 NVIDIA 健康检查握手边界场景,作者 (@maishivamhoo123),PR #1810
  • 修复 CDI 模式下 MIG 分配失败的问题,作者 (@DSFans2014),PR #1826

变更内容

其他变更

新贡献者

贡献者

完整更新日志: https://github.com/Project-HAMi/HAMi/compare/v2.8.0...v2.9.0

CNCFHAMi 是 CNCF Sandbox 项目