来源:vLLM
2025年8月23日,vLLM Meetup上海站成功举办。活动汇聚技术专家、社区开发者及行业用户,围绕vLLM(一种用于大型语言模型的高性能推理引擎)的技术进展、生态建设及应用展开深度探讨。会议涵盖社区贡献指南、分布式推理架构、多模态模型集成等前沿议题,现场互动热烈,并提出每年举办vLLM Con大会的倡议,为AI推理领域的技术落地注入新动能。
本次Meetup由沐曦与红帽公司联合主办,红帽作为全球开源社区vLLM的重要贡献者,长期参与上游协作并分享实践经验,推动社区发展;沐曦则结合国产硬件优势,积极探索vLLM在本土计算平台上的适配与应用。沐曦开源生态总监章津楠与红帽亚太CTO办公室首席架构师张家驹共同开场,对到场嘉宾及观众表示欢迎。活动设置五大核心议题,并穿插开发者提问环节,最终以沐曦联合创始人、CTO兼首席软件架构师杨建博士的开源生态趋势分享及书籍签赠环节收尾,现场气氛活跃。
活动核心环节围绕五大技术方向展开,专家团队通过案例解析与方案演示,系统呈现vLLM在社区生态、分布式架构、多模态集成等领域的创新实践。
在题为《vLLM: Building, Testing and Contributing》演讲中, vLLM社区贡献者、Red Hat资深专家Daniele Trifirò深入剖析了vLLM社区的发展现状,为爱好者及开发者提供了系统性指南。他详细阐述了项目构建流程、关键测试规范,并指导开发者如何高效贡献代码。通过丰富的代码实例、实践案例及参考链接,演讲极大降低了初学者入门门槛,获得现场开发者高度认可。
在《Disaggregated P/D for Wide EP》主题分享中,vLLM社区贡献者、Red Hat技术专家Nicolò Lucchesi重点介绍了利用llm-d实现vLLM分布式推理的方案,核心目标是通过预填充/解码(P/D)解耦与宽专家并行(EP)扩展大模型推理能力,尤其针对长上下文和混合专家(MoE)模型场景,关键技术方案包括P/D解耦部署、通过NIXL实现高效KV Cache传输、支持预填充(P)与解码(D)阶段采用不同TP并行度、将MoE模型中的专家分布至不同GPU等实现细节。
百度高级产品经理王凯在《ERNIE 4.5 + vLLM: Multimodal Model Integration》演讲中,系统解析了百度ERNIE 4.5多模态模型与vLLM的集成实践。内容涵盖ERNIE 4.5 的特性、与 vLLM 集成的原因以及 vLLM 为 ERNIE 4.5 模型提供的全面支持,包括密集模型、MoE 模型和用于加速生成的MTP。同时还介绍了正在进行的开发工作,例如专家并行性负载均衡和视觉-语言支持。
Mooncake核心开发者苏金阳在《Mooncake x LMCache 性能优化分享》的主题分享中重点介绍了 Mooncake(特别是其传输引擎和存储)与 LMCache 的集成,以在 vLLM 中实现高性能 KV Cache 重用。LMCache 被认为是用于 KV Cache 管理(卸载、重用、P/D 分离、RAG 缓存)的流行 vLLM 社区扩展。此次集成旨在提高数据分发效率和整体系统性能。
沐曦vLLM推理引擎专家张廉洁在《vLLM-metax: Bridging CUDA to MetaX MACA》演讲中,详细介绍了vLLM-metax 如何通过 cu-bridge 在 MACA 上实现接近零成本的 CUDA 执行,允许在不修改源代码的情况下进行原生编译。同时还解释了在 vLLM 中使用插件架构支持 MetaX 的方式,概述了修补方法(patch补丁和文件替换)和限制。演讲还公布了2025年路线图。
提问环节中,开发者围绕社区贡献规范、分布式推理落地、国产硬件支持等议题提出建议,嘉宾以技术细节回应,讨论贯穿全场。
本次活动彩蛋,沐曦联合创始人、CTO兼首席软件架构师杨建博士惊喜亮相现场,他不仅生动分享了沐曦在开源生态和vLLM推理技术的最新趋势,还热情地为获得《沐曦异构并行计算软件栈》书籍的幸运观众亲笔签名留念。
本次Meetup不仅展示了vLLM在分布式推理、多模态集成及硬件适配领域的最新成果,更通过技术交流与生态合作,为AI推理引擎的规模化应用提供了实践范本。行业专家与开发者的深度互动,进一步强化了vLLM在开源社区的技术影响力,为下一代AI基础设施的研发奠定基础。
关于沐曦
沐曦致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。
-
芯片
+关注
关注
460文章
52815浏览量
445592 -
开源
+关注
关注
3文章
3803浏览量
44200 -
模型
+关注
关注
1文章
3560浏览量
50822
原文标题:vLLM Meetup上海站圆满落幕
文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
2025开放原子园区行上海站成功举办
2025开放原子校源行广东海洋大学站活动成功举办
2025开放原子校源行太原站成功举办
Wolfspeed助力捷豹TCS车队FE上海站成功卫冕
2025年恩智浦创新技术峰会上海站圆满落幕
在openEuler上基于vLLM Ascend部署Qwen3

2025年开放原子校源行清华大学站成功举办
恩智浦与Zephyr赋能安全可靠的嵌入式开发
开放原子园区行太原站成功举办
2025芯来RISC-V技术研讨会苏州站成功举办
索尼新品品鉴会上海站成功举办
vLLM项目加入PyTorch生态系统,引领LLM推理新纪元

东方通联合openEuler社区即将开启云原生开源中间件 Meetup北京站
OpenHarmony Meetup 2024城市巡回武汉站圆满落幕
飞凌嵌入式受邀参加openEuler Embedded Meetup(广州站)

评论