找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 217|回复: 0

红帽资深副总裁兼AI CTO Brian Stevens:构建标准化AI操作系统,释放企业级AI生产力

[复制链接]
发表于 2025-9-5 08:49 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
企业级AI正迎来关键拐点。多年来,企业投入巨资开展AI试点与实验项目,虽成果可期,但如何实现规模化、深度融入核心运营并持续创造企业价值,仍是重大挑战。

这正是开放、协作开发的标准AI操作系统至关重要的原因。基于开源技术,它为定制和运行AI模型提供生产级环境,支持“训练一次,多次推理”,推动AI从孤立实验迈向大规模应用。

要理解其潜在影响,不妨回顾Linux革命。几十年前,我们打造了兼容多种硬件与应用的Linux标准版本,提供可靠且灵活的基础,推动了各行业的创新浪潮。

w1.jpg

构建标准AI操作系统将产生同样的影响,简化AI部署与管理,释放当前与未来投资的巨大业务价值。这不仅是技术变革,更是AI领导者与整个产业的战略必然。
为什么AI项目难以规模化?

尽管AI前景广阔,许多企业仍面临严重的生产瓶颈。从概念验证到可扩展的全量部署常常困难重重,阻碍广泛应用,限制投资回报。

主要障碍之一是“自建”难题。企业需要自行搭建推理框架和定制化支撑环境,导致零散的一次性解决方案,难以维护、整合及跨部门扩展。每个新项目往往产生独特工具和流程,造成复杂低效的环境。

硬件与模型碎片化进一步加剧问题。AI模型激增,以及从GPU到定制ASIC的专用加速器快速扩散,凸显缺乏统一高效执行层的关键缺口。这种异构性增加运维复杂度,使性能优化与互操作性困难重重。

资源利用效率低下依然是长期难题。昂贵硬件,尤其是GPU,经常闲置。为最大化投资价值,AI操作系统必须能够动态分配资源、优化工作负载、提升吞吐量。缺乏此类系统,大规模AI部署的经济可行性将大打折扣。
什么是AI操作系统?

在此语境下,AI操作系统并非全新构建的操作系统,而是基于现有成熟基础设施和技术的新兴标准化AI层。它为大规模AI推理工作负载提供统一管理与优化的平台,抽象底层复杂性,确保在生产环境中高效部署和运行AI模型。其核心基于成熟的开源技术,包括:

Kubernetes:分布式AI的编排

企业已广泛依赖Kubernetes编排生产应用,它提供管理复杂AI环境所需的可扩展性、安全性、资源调度和多租户能力。在AI操作系统中,Kubernetes作为控制平面,高效可靠地在分布式基础设施上部署AI工作负载。

vLLM:AI推理的核心

在AI操作系统中,vLLM作为核心运行时,支持领先大语言模型(LLM),确保高负载下的高效运行。它可在异构加速器上执行优化模型,通过高性能、统一的执行层应对碎片化问题,处理复杂推理任务。

llm-d:大规模分布式推理

标准AI操作系统基于开源项目llm-d,融合关键技术创新,实现生产级大规模AI。

分布式推理能力远超简单的模型复制。AI操作系统可以让单个模型在多GPU和多服务器上高效运行,从而实现模型的水平扩展,提高高需求应用的吞吐量和弹性。

另一个关键组件是大规模LLM推理的分布式键值(KV)缓存。它提升灵活性、优化服务水平(SLO),并在单位基础设施上处理更多token。通过智能管理分布式KV缓存,AI操作系统显著提高LLM部署的效率与响应速度。

智能路由与调度优化推理请求分配,超越传统的最小负载均衡。它基于KV缓存状态,将任务引导至最适合、高效的资源,提升资源利用率并降低延迟。

除了传统优化方法,AI操作系统还采用先进量化技术,针对特定硬件世代并使用高效“内核”执行优化,使模型在最新AI加速器上实现最佳速度与效率。
塑造AI工作负载的未来

标准化AI操作系统的出现不仅优化现有AI部署,更为日益复杂的AI工作负载发展奠定基础。

它支持自主AI工作流程,在企业协调多个AI模型协作完成复杂任务时提供稳健调度、高效资源共享和分布式基础设施管理。

对于推理阶段的规模化挑战,AI操作系统至关重要。随着AI从数据驱动优化迈向复杂推理,平台计算负荷增加,AI操作系统提供实现这些计算密集型模型经济可行性所需的性能与资源优化能力。
开源与生态系统协作的力量

开源原则与广泛生态协作将显著加速标准化AI操作系统的发展与采用。这延续了Linux生态构建中的“合作竞争”模式:企业在开放社区共建基础技术,再在各类解决方案上展开商业竞争,从而推动创新并建立统一标准。

跨行业参与同样关键。开发标准化AI操作系统需要硬件厂商、模型提供商、服务器制造商和AI平台开发者的广泛合作,促进互操作性、防止供应商锁定,并培育丰富的兼容技术生态。

通用、开放、标准化的AI操作系统帮助企业避免重复“发明轮子”,加速AI在各行业的应用,使组织能在高性能标准化基础设施上专注于创造独特业务价值。
红帽的角色

我们相信,红帽在标准化AI操作系统的开发中扮演关键角色,依托开源、混合云及企业基础设施专业能力,为可扩展、生产级AI构建基础组件,始终遵循“支持任何模型、任何加速器、任何云”的原则。

红帽AI是这一愿景的核心。它提供从训练到推理覆盖混合环境的集成工具和运行时环境,支持构建、部署与管理AI模型。

红帽AI推理服务器助力企业在混合云基础设施上高效部署与扩展AI模型,提供高性能、统一的平台,支持从数据中心到边缘的各种硬件。平台包含强化的vLLM服务引擎、智能LLM压缩工具及优化模型库,加速AI采用并提升运营效率。

红帽企业Linux AI(RHEL AI)是大语言模型开发、测试与部署的基础平台,具备优化推理能力,整合InstructLab模型对齐工具、包含主流AI库的可启动RHEL镜像及面向各类加速器的硬件优化推理能力。

红帽OpenShift AI提供统一AI/ML平台,为构建、部署和管理AI模型(包括LLM和MLOps流水线)提供完整环境,优化硬件利用率,最大化昂贵AI基础设施的投资回报。

我们的混合云策略支持灵活AI部署,简化数据主权管理并提升企业安全。企业可在数据所在位置部署AI模型,满足合规要求,并在本地、公共云及边缘环境中利用内置企业级安全与治理功能。

红帽还赋能AI人才队伍。通过专家咨询、共创服务以及全面培训与认证,帮助企业解决AI人才缺口,构建充分利用先进AI技术所需的技能。

此外,红帽与Google、IBM Research、NVIDIA、AMD、Intel、Hugging Face等硬件厂商和技术合作伙伴紧密协作,打造开放、集成、供应商中立的AI生态系统,推动创新,避免早期技术采用中的“自建混乱”。
企业AI领导者的前行之路

标准化AI操作系统不仅是技术演进,更是IT领导者全面释放AI潜力的战略必需。通过统一AI模型运行平台,它将释放前所未有的效率、可扩展性与创新能力。开源原则与社区协作将加速这一进程,为可扩展、高效、变革性的AI部署提供稳健而灵活的基础。

w2.jpg
Brian Stevens红帽资深副总裁兼AI CTO
Brian负责引领公司迈向开放混合AI未来的战略方向。他推动企业在各种环境中构建并部署智能应用,从数据中心延伸到边缘计算。作为红帽工程首席技术官(2001–2014),Brian在公司早期成长,以及云计算、中间件和虚拟化技术版图的拓展过程中发挥了关键作用。

在谷歌云任职副总裁兼首席技术官期间,Brian带领团队推动业务快速扩张。出于对颠覆性技术的热情,他之后出任Neural Magic首席执行官,带领这家软件驱动AI加速的创新企业开拓新局。2025年,红帽战略性收购Neural Magic,Brian也因此重返红帽,将他的领导力与公司“以开源奠定AI时代基础”的使命深度融合。


拥抱开放 选择无限

联系我们

红帽销售及技术支持热线:

86 (10) 62608130

400-890-2100
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-5 05:04 , Processed in 0.121368 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表