0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

轻松上手边缘AI:MemryX MX3芯片与Orange Pi 5 Plus的完美结合

大大通 ? 2025-07-17 12:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、概述

当今 AI 技术已无处不在,从智慧城市、工业 4.0 到自动驾驶与智慧医疗,人工智能不再只是理论,而是推动世界进步的核心引擎。然而,AI真正的挑战在于实时反应与低功耗运算,这也是边缘计算(Edge Computing)崛起的关键原因。虽然云端AI计算具备强大运算能力,但面临数据传输延迟与高带宽需求的瓶颈,导致许多需要毫秒级决策的应用,如自动驾驶车辆的行车识别、工业机械臂控制、监控系统实时警报,无法依赖云端响应。


为了让 AI 运算更接近数据源并提升实时性,MemryX提出了专为边缘计算设计的AI加速解决方案。MemryX MX3 AI加速卡采用 BF16 浮点计算架构,突破传统边缘设备仅支持整数运算(INT8)的限制,在图像识别、语音处理与目标检测等高精度AI任务上展现卓越性能,提供5 TFLOPS/W的能效比与高达20 TFLOPS的运算能力,实现低延迟、高精度的AI推理。


除此之外,MemryX 也打造完整的开发生态系统,让开发者能够无缝整合 AI 模型的设计、编译、部署与优化包含 Neural Compiler(将 AI 模型转换为 DFP 格式)、Simulator(预测吞吐量与延迟)、Benchmark(性能基准测试)以及 Viewer(GUI 可视化工具),让 AI 应用开发更加直观高效。通过这些即插即用的开发工具,MemryX 能够帮助开发者快速部署 AI 模型,灵活适配 TensorFlow、PyTorch、ONNX 等主流框架,无需重新训练模型即可应用于各类边缘场景。

随着 AI 与 IoT 技术的融合加速,MemryX 以强大的计算能力与低功耗设计,驱动 AI 边缘计算新时代,为智慧城市、工业自动化与 AIoT 设备提供创新解决方案。MemryX 的目标不仅是提升 AI 推理性能,更是让 AI 计算变得简单、灵活、高效,成为 AI 开发者手中的关键武器,推动边缘智能技术的快速演进。


二、开发套件

MemryX 提供了一套软件开发工具包(Software Development Kit)其中包含了编译工具(Neural Compiler Tool)、芯片模拟工具(Simulator Tool)、加速器应用工具(Accelerator)、可视化界面(Viewer)。目前此套件仅能应用于 PC 端,并支持Ubuntu 与 Windows 操作系统,其安装方式请按照以下步骤操作:

wKgZPGh4ZYuAVuwoAAFHmcdO14M298.png

SDK 软件开发套件示意图 – 资料来源官方网站

资料来源 - 官方网站


1. 编译器(Neural Compiler)

神经编译器(Neural Compiler)为 MemryX 制式化的编译工具(建议在 PC 电脑上使用)能够将各种模块格式转换编译成DFP格式(Dataflow Program),通过此格式能够告诉 MX3 芯片如何配置核心以及如何将传入的模块架构与参数信息进行处理。同时支持多种机器学习框架,如TensorFlow、Keras、ONNX、Pytorch等。

wKgZPGh4ZYqAErfZAACxU5r4Ut8741.png

各模块格式转换为 MemryX DFP 格式示意图


编译器细节能够分为四层,如下图所示,依次为

(1)框架接口:将模块形式转换为内部图(internal graph)的形式。

(2)图处理:通过重新拆解并优化内部图。

(3)Mapper:将内部图映射至最佳可配置的 MX3 硬件资源,以最大吞吐量(FPS)为目标。

(4)汇编器:生成 DFP 文件。


wKgZO2h4ZYqAZpT9AABvZDMqgII268.png

DFP文件生成示意图

来源出处 Memry 文件


单一模型应用(Single-Model)


使用方式:

句子: $ mx_nc -v -m

-m, --model : 设置实际的模块路径,支持 .h5 / .pb / .py / .onnx / .tflite 格式

-g, --chip_gen:设置芯片的世代(默认值:mx3)

-c, --num_chips:设置芯片的数量(默认值:1)

-v:查看编译器程序信息。

※ 一颗 MX3 芯片约可以处理 10 MB 的数据量。

※ 更多操作,请参考官网软件开发工具包。


多模型应用(Multi-Model)

在众多使用AI应用场景下,难免会需要将多种模块应用至一个模块的情境例如检测人脸表情判断,需要先定位到人脸位置,再通过判断人脸的喜怒哀乐进行分类。


使用方法:

$ mx_nc -v -m

wKgZPGh4ZYqAeQdOAABkyzFNvDk557.png

来源出处 Memry 开发者网站


多芯片应用(Multi-Chip)

编译器会自动将给定模型的工作负载分配到可用芯片上。

使用方法:

$ mx_nc -v-c 2-m

wKgZO2h4ZYqAC718AABhGAme8SA373.png

来源出处 Memry 开发者网站


多流(Multiple Input Streams)& 共享输入流(Shared Input Stream)应用


通常每个模型是独立使用一个数据流。

wKgZO2h4ZYuAPNYLAABM1nrsrV0620.png

来源出处 Memry 开发者网站


在多个模型且相同输入流的情况下,编译器允许共同使用同一个输入。

wKgZPGh4ZYuAFZOrAAA-jelERNQ357.png

来源出处 Memry 开发者网站


使用方法:

$ mx_nc -v -m --models_share_ifmap


改变输入形状(reshape)

以下示例展示了如何从命令行为传递到神经编译器的单输入模型的典型情况提供输入形状。


使用方式(单一模块):

$ mx_nc -m -是“300,300,3”


使用方式(多模块):

$ mx_nc -m -是“224,224,3”“300,300,3”


模组裁剪(Model Cropping)

在使用 AI 芯片时,难免会遇到必须要移除特定的架构层或运算单元(operators)才能更有效地发挥效能。因此,MemryX 也提供了这一功能,可以将模块拆分为图像前处理(Pre-Processing)、神经网络架构处理(Neural Network)、图像后处理(Post-Processing)等架构,能够将其分工交给图像处理单元 ISP(image signal processor)、图形处理器 GPU 或中央处理器 CPU,以实现更高效的异构多核运算。


自动裁剪使用方式:

$ mx_nc -g -m -v --autocrop -so

-- autocrop:系统自动裁剪前后处理。


手动裁剪使用方式:

$ mx_nc -m -v --so --outputs -v -so

-is, --input_shapes:设置输入端大小

--input_format:设置输入端格式(默认值:BF16)

--inputs:指定预处理裁剪框架的名称

--outputs:指定后处理裁剪框架的名称

-so:查看编译器程序的优化步骤


其运行结果如下,从图片上可以查看计算单元、权重内存等的使用量。

wKgZPGh4ZYuASHs-AAHHSCbmrJo123.png

模块裁剪的示意图


2. 基准测试 (Benchmark)

基准测试(Benchmark)是 AI 芯片的标准工具之一,用来测试运行模块的性能。其中 MemryX 设计了用于 C/C++Python 的基准测试工具,分别是 acclBench 和 mx_bench。可以使用这些工具来测量 FPS 和延迟数据。


下载测试模块SSDlite-MobileNet-v2_300_300_3_tensorflow.zip

$ unzipSSDlite_MobileNet_v2_300_300_3_tensorflow.zip


(2)acclBench(C++)

acclBench [-h] [-v] [-d] [-m] [-n] [-f] [-iw] [-ow] [-device_ids] [-ls]

wKgZO2h4ZYuAV5LZAABGY-L0Bg8796.png


指令:

$ acclBench -d SSDlite_MobileNet_v2_300_300_3_tensorflow.dfp -f 100

wKgZPGh4ZYuAPH75AADouqtK5nE944.png


(3) mx_bench (Python)

$mx_bench [-h] [-v] [-d] [-f]

wKgZPGh4ZYuAKHhwAAH4MMZpUCA001.png


3. 模拟器(Simulator)

模拟器(Simulator)为 MemryX 制式化的工具(用于 PC 电脑使用)提供高精度的模拟性能,能够准确模拟 MemryX AI 芯片的性能,并展示 FPS(帧数)和 Latency(延迟)的测试数据。


使用方法:

$ mx_sim -v -d -f 4

-d, --dfp:设置实际的 DFP 文件路径

-f, --frames:设置模拟的帧数(随机数值)

-v:查看编译器程序信息。

--no_progress_bar:关闭进度条

--sim_directory:模拟的文件夹路径(默认值:./simdir)

※ 模拟器无法指定芯片的数量,必须由 dfp 所设置的芯片大小来决定。

wKgZO2h4ZYuAdIGIAAC-s4c3HQo801.png

模拟工具的示意图

来源出处 Memry 文件


4. 视觉化工具(Viewer)

可视化工具(Viewer)是 MemryX 提供的 GUI 界面,包含上述编译器、模拟器、加速器。


使用方法:

$ mx_viewer


编译器 :

步骤1:选择神经网络模型

wKgZO2h4ZYuAJUUpAAAuEgZi--k974.png

步骤 2:选择目标系统

wKgZO2h4ZYuAZvLaAABqCudV3dc886.png


步骤 3:编译模块

wKgZPGh4ZYuAerVAAAAWbmQeUVs363.png


步骤4:运行结果

wKgZPGh4ZYyAfyMYAAFYUWs6OVY551.png


模拟器 :

步骤 1:设置张数

wKgZO2h4ZYuAcDS7AABGadbogAo922.png


步骤 2:运行模拟

wKgZO2h4ZYyAJezxAADle7IifUg547.png


步骤 3:查看结果

wKgZPGh4ZYyAZ42BAACAWllW8fg501.png


加速器

需要连接上实体的 MX3 EVK,其操作方式与模拟器相似。

wKgZO2h4ZYyAYaK9AAA8nMZt_8Q194.png


5. 检视器(DFP Inspect)

检视器(DFP Inspect)为 MemryX 提供的一套检查 dfp 文件的工具。


使用方法:

$ dfp_inspect


输出信息

● DFP

■ 使用的编译器版本

■ 编译日期和时间

■ 目标芯片数量

■ 目标架构生成

■ 模拟器配置与 MXA 硬件配置的文件大小(以 MB 为单位)

● 编译模型的文件名

● 主动输入和输出端口配置


示例 :

wKgZO2h4ZYyAJlDOAABvoL0ay80126.png


6. 开源模块资源(Model Zoo)

原厂官网也提供丰富的开源模块资源与分析,如下图所示。


模块分析

wKgZPGh4ZYyATvwsAAJC7vXAOpg099.png

来源出处 Memry 开发者网站


模块资源

wKgZO2h4ZY2AVfPdAAMUdsk1ePo400.png

来源出处 Memry 开发者网站

三、结语

MemryX MX3+ AI 加速卡以其卓越的计算性能与低功耗特性,为 AI 开发者提供了一个强大且灵活的解决方案。更重要的是,内置完整的软件开发工具链,让开发者能够快速部署 AI 模型,同时轻松调整前后处理流程实现优化的 AI 推理性能。从模型转换到性能优化,MemryX 提供了一站式的开发支持,使 AI 开发更加高效且直观。


为了满足开发者的需求,MemryX 精心打造了一系列专业工具,包括 Neural Compiler、Simulator、Benchmark 和 Viewer。这些工具不仅功能强大,还以简单易用为核心设计理念。Neural Compiler 让模型转换变得快速且无缝;Simulator 可在部署前模拟运行性能,帮助开发者预测实际应用表现;Benchmark 提供详细的吞吐量与延迟分析;而 Viewer 则以可视化界面呈现数据,让开发过程更加直观。这些工具的整合,让开发者能专注于创新,而不必被繁琐的技术细节所困扰。


在实际测试中,MemryX 芯片展现了其卓越的性能与灵活性。在 C/C++ Python DEMO 测试中,单颗芯片即可同时处理多路摄像机流,并支持多个 AI 模型的并行运行,充分展现其在边缘计算场景中的优势。此外,MemryX 的自动化模型裁剪与编译流程,让开发者无需修改原始模型即可直接部署,显著降低了开发门槛,并大幅提升了开发效率。


随着 AI 技术的快速演进,MemryX 正引领边缘计算的技术潮流,为各行各业提供高性能、低功耗且灵活的 AI 解决方案。本篇所介绍的工具与应用示例,旨在帮助开发者快速掌握 MemryX MX3+ 的使用方法,让 AI 技术的应用更加普及化,推动智慧生活的实现。如果您对 MemryX 产品感兴趣,或希望获得更多技术支持与合作机会,请随时联系。联系伊布小编!谢谢!





四、参考文件

[1]MemryX 官方网站

[2] MemryX开发者中心技术网站

[3] EE Awards 2022 亚洲金选奖

[4] MemryX_示例

[5] 美通社 - MemryX宣布MX3边缘AI加速器正式投产

如有任何相关MemryX技术问题,欢迎在点击文末阅读原文,登录大大通网站博文底下留言提问!


欢迎关注大大通博主:ATU 伊布小编 (一部)

了解MPU技术整合、深度学习、电脑视觉技术与人工智能(AI)的发展等更多相关内容!


登录大大通网站阅读原文,了解更多详情!
原文链接:https://www.wpgdadatong.com.cn/reurl/vU3qqy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NPU
    NPU
    +关注

    关注

    2

    文章

    333

    浏览量

    19794
  • 边缘AI
    +关注

    关注

    0

    文章

    166

    浏览量

    5474
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第20期:2025.07.14--2025.07.18

    实战指南:定义IO初始化结构体 开源项目与实战干货 : 1、轻松上手边缘AIMemryX MX3芯片
    发表于 07-18 21:36

    边缘AI的优势和技术基石

    在万物皆可AI(人工智能)的今天,市场上几乎每家企业都在宣称自己的业务中有了AI成分。因此,将AI接入极靠近终端客户的网络边缘也就没什么悬念了。这里的
    的头像 发表于 06-12 10:14 ?592次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>的优势和技术基石

    轻松上手边缘AIMemryX MX3+结合Orange Pi 5 Plus的C/C++实战指南

    AI边缘计算快速发展的时代,MemryX MX3+ 加速卡凭借其 20 TOPS 的强大性能和低功耗(5 TFLOPS/W),成为
    的头像 发表于 05-28 08:01 ?585次阅读
    <b class='flag-5'>轻松</b><b class='flag-5'>上手边缘</b><b class='flag-5'>AI</b>:<b class='flag-5'>MemryX</b> <b class='flag-5'>MX3</b>+<b class='flag-5'>结合</b><b class='flag-5'>Orange</b> <b class='flag-5'>Pi</b> <b class='flag-5'>5</b> <b class='flag-5'>Plus</b>的C/C++实战指南

    边缘AI运算革新 DeepX DX-M1 AI加速卡结合Rockchip RK3588多路物体检测解决方案

    度等性能表现。 通过结合 Orange Pi 5 Plus(Rockchip RK3588) 与 DeepX
    的头像 发表于 05-06 14:15 ?650次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>运算革新 DeepX DX-M1 <b class='flag-5'>AI</b>加速卡<b class='flag-5'>结合</b>Rockchip RK3588多路物体检测解决方案

    在i.MX93和i.MX8M Plus上都使用UART,遇到了RTS/CTS连接问题求解决

    我在 i.MX93和 i.MX8M Plus 上都使用 UART,并遇到了 RTS/CTS 连接问题。 在 i.MX93 上,以下接线工作正常: TX→ RX (RS232) RX←
    发表于 04-04 07:16

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理
    发表于 04-01 00:00

    有奖直播 | @4/8 轻松部署,强大扩展边缘运算 AI 新世代

    MemryX推出全新MemryXMX3AI推理加速卡,采用PCIeGen3M.2M-Key接口,提供高达20TOPS的强大算力,为工业计算机带来即插即用的AI部署体验。
    的头像 发表于 03-27 16:31 ?683次阅读
    有奖直播 | @4/8 <b class='flag-5'>轻松</b>部署,强大扩展<b class='flag-5'>边缘</b>运算 <b class='flag-5'>AI</b> 新世代

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    []() 2025年3月19日——Banana Pi 今日正式发布 BPI-AI2N & BPI-AI2N Carrier,基于瑞萨电子(Renesas)同步发布的最新的高性能
    发表于 03-19 17:54

    Banana Pi 与瑞萨电子携手共同推动开源创新:BPI-AI2N

    2025年3月11日, Banana Pi 开源硬件平台很高兴宣布,与全球知名半导体解决方案供应商瑞萨电子(Renesas Electronics)正式达成技术合作关系。此次合作标志着双方将在开源
    发表于 03-12 09:43

    边缘AI新突破:MemryX AI加速卡与RK3588打造高效多路物体检测方案

    本方案特别结合Orange Pi 5 Plus (Rockchip RK3588) 与 MemryX
    的头像 发表于 03-06 10:45 ?707次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>新突破:<b class='flag-5'>MemryX</b> <b class='flag-5'>AI</b>加速卡与RK3588打造高效多路物体检测方案

    AI赋能边缘网关:开启智能时代的新蓝海

    在数字化转型的浪潮中,AI边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁,在AI技术的加持下,正从简单的
    发表于 02-15 11:41

    研华边缘AI Box MIC-ATL3S部署Deepseek R1模型

    随着深度求索(DeepSeek)大模型的发布引发行业热议,研华科技基于昇腾Atlas平台边缘AI Box MIC-ATL3S正式发布与Deepseek R1模型的部署流程。该平台依托昇腾芯片
    的头像 发表于 02-14 16:08 ?1420次阅读
    研华<b class='flag-5'>边缘</b><b class='flag-5'>AI</b> Box MIC-ATL<b class='flag-5'>3</b>S部署Deepseek R1模型

    Orange Business推出Live Intelligence:简化企业级生成式AI部署

    Orange Business近期正式推出了一项名为Live Intelligence的创新解决方案,旨在为企业和地方政府提供全面且便捷的生成式AI服务。该方案的推出,标志着Orange
    的头像 发表于 12-27 13:55 ?805次阅读

    Orin芯片边缘计算结合

    Orin芯片,作为英伟达推出的一款高性能AI处理器,与边缘计算的结合,无疑将为智能计算领域带来革命性的变化。 一、Orin芯片的创新特点 O
    的头像 发表于 10-27 16:51 ?1329次阅读

    什么是边缘AI边缘AI的供电挑战

    RECOM 的 RACM1200-V 采用数字通信,可轻松集成到边缘 AI设计中。
    的头像 发表于 09-02 11:52 ?974次阅读
    什么是<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>?<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>的供电挑战