0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法画小姐姐,AMD显卡比顶级CPU快30倍!

jf_MYvksKR0 ? 来源:Microcomputer ? 2023-05-18 15:05 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从Stable Diffusion这一AI应用出现之后,在极短时间内就迅速走红,成为众多玩家口口相传的“最美小姐姐”生成工具。不过这一AI计算画图工具在Stable Diffusion官方推出之初,无论是WEB UI的部署还是模型的训练生成,都基本是基于NVIDIA CUDA加速的算法,因此A卡最初并不被Stable Diffusion官方支持。不过好在Stable Diffusion算是一个开源的产品,在众多社区聚集玩家的支持下,也出现了许多支持A卡GPU加速计算的分支,比如我们今天要测试的基于DirectML的部署,就能实现AMD Radeon显卡的Stable Diffusion AI计算硬件加速。

48019a9c-f4cd-11ed-90ce-dac502259ad0.jpg

如果要自己在本地部署基于DirectML的Stable Diffusion话,相比便捷的基于CUDA的WEB UI部署要相对复杂一些,不过现在网上已经有比较成熟的整合包供玩家适用,玩家们只需要下载相应的整合包,就能一键实现在本地的傻瓜式安装部署,可以为大家节省相当多的时间。

481e2950-f4cd-11ed-90ce-dac502259ad0.png

4876542c-f4cd-11ed-90ce-dac502259ad0.png

▲我们选择用于测试的这个整合包安装完毕之后,自动进入AMD GPU加速计算模式,在本地开启http://127.0.0.1:7860即可打开本地Stable Diffusion的AI画图界面。

48c176e6-f4cd-11ed-90ce-dac502259ad0.png

▲在本地WEB UI界面上可以自由设置相关的AI艺术图生成参数,点击“生成”即可开始画图。具体请参考线上相关教程,在此我们不赘述。

那么,基于DirectML的Stable Diffusion部署分支能不能实现对AMD显卡的硬件计算加速支持呢?它的效率到底如何?在此前A卡玩家经常只能在Linux系统下运行Stable Diffusion,通过ROCM(Radeon Open Compute)模拟CUDA加速,如今在Windows系统下直接实现A卡的AI加速计算,能否达到我们的预期目标呢?为此,我们选择了AMD Radeon RX 5000系、RX 6000系以及RX 7000系的数款显卡,进行了一番详细的体验。

体验平台

显卡:AMD Radeon RX 5500XT(8GB)、RX 5700(8GB)、RX 6500XT 4GB、RX 6600(8GB)、RX 6700XT(12GB)、RX 6750XT(12GB)、RX 6800(16GB)、RX 6900XT(16GB)、RX 7900 XT(20GB)、RX 7900 XTX(24GB)

CPU英特尔酷睿i9-13900K

主板:英特尔Z790

内存:DDR5 6000 16GB×2

SSD:AORUS NVMe PCIe SSD 2TB

操作系统:Windows 11 Pro 22H2

驱动程序:AMD Software Adrenalin Edition 23.4.3

通过测试,我们想知道:

AMD Radeon 5000系、6000系和7000系之间,在Stable Diffusion的AI画图算力上有多大差别?

相比传统的CPU AI计算加速,AMD GPU加速性能到底如何?

48e6380a-f4cd-11ed-90ce-dac502259ad0.png

▲我们所采用的网络开源共享的部署方案可以正确实现AMD显卡的硬件加速计算,可以看到在图片生成的过程中GPU的占用率一直保持在100%。

模型为Novel AI Final-runed(CKPT)

测试一:AI生成时尚美女

在第一部分的测试中,我们通过关键词生成一个大眼的时尚美女小姐姐,还要有一定的照片感。关键词设置如下(部分引用自网络开源共享关键词):

lora0.6> , best quality, ultra high res, (photorealistic:1.4), 1woman, sleeveless white button shirt, black skirt, black choker, cute, (Kpop idol), (aegyo sal:1), (platinum blonde hair:1), ((puffy eyes)), looking at viewer, full body, facing front,fashion,premium

分辨率设置:512×512

采样步进:20

提示词引导系数:7

生成批次-每批数量:1-1、4-1

48fc27a0-f4cd-11ed-90ce-dac502259ad0.png

49ba82cc-f4cd-11ed-90ce-dac502259ad0.png

49d8eeba-f4cd-11ed-90ce-dac502259ad0.png

在测试中由于绝大部分显卡都拥有8GB以上的显存,因此我们在运行参数上基本设置了正常的高显存默认模式,只有4GB显存版的RX 6500XT运行时采用了添加了--lowvram的低显存运行模式(否则就无法运行)。从整体测试结果来看,AMD从Radeon RX 5000系到RX 7000系的显卡几乎都很好地实现了Stable Diffusion应用的AI计算加速性能,尤其是Radeon RX 7000系显卡性能相比RX 6000系显卡有了巨大的提升。比如RX 6900XT在该设置与模型算法下的图片生成率约为8.87张/秒,而RX 7900 XT则可以达到15.76张/秒,性能提升接近100%。

而相比CPU来说,全系AMD显卡都占有非常明显的优势,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,即使前两代的入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

唯一有点异常的是RX 6500XT,按照核心规格来看,它应该是要强于RX 5500XT的,不过由于显存配置仅为4GB,因此在测试中开启了低显存运行模式之后,其图片上生成速度受到了极大影响,远低于GPU加速的正常表现,仅能达到略高于CPU计算的水准。

测试二:AI生成较为复杂的水边别墅风景照

在接下来的测试中,我们用一系列相对复杂的关键词来生成一座位于水边的别墅,同时还伴有阳光、波纹、倒影等效果要求。关键词如下:

‘beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k,’

分辨率设置:512×512

采样步进:50

提示词引导系数:7.5

生成批次-每批数量:1-1、2-1、4-1

49f4b492-f4cd-11ed-90ce-dac502259ad0.png

4a7bb71c-f4cd-11ed-90ce-dac502259ad0.png

4a9a0ad2-f4cd-11ed-90ce-dac502259ad0.png

这部分的测试结果与前一测试基本保持了一致性。仍然是RX 7000系显卡在性能上独占鳌头,相对于RX 6000系显卡的对位提升在100%左右,与CPU的计算性能相比,GPU加速计算的性能提升仍然非常显著,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

4GB显存配置RX 6500XT由于仅能在低显存模式下运行,因此图片上生成速度还是受到了极大影响,远低于GPU加速的正常表现,大致与酷睿i9-13900K相当。

写在最后

这是一次简单但却比较有趣的测试,通过这次体验,我们认为有几点参考意见可以总结给玩家们参考:

1.当前AMD显卡已经可以通过开源的部署方案实现在Windows系统下的Stable Diffusion AI计算加速,而且网上也有许多的傻瓜式整合包,感兴趣的玩家完全可以一试;

2.从测试结果来看,AMD显卡在Stable Diffusion的AI图片生成计算中能够发挥出远胜于CPU计算的性能增幅,使用GPU加速计算能带来事倍功半的效果;

3.从测试情况来看,测试中当渲染分辨率设置超过512时(如768×768),就会出现爆显存的情况,这与部署方案和模型有一定关系,但也反映了在正常模式下运行时,8GB显存几乎是Stable Diffusion的硬性入门要求。如果显存低于8GB,即使在512×512分辨率下渲染,也会出现显存不足的情况,此时就不得不采用--lowvram的低显存运行方案,但会极大地拖累计算速度,如测试中的RX 6500XT 4GB。所以要想畅玩Stable Diffusion,我们建议显卡的显存为8GB或更高为佳;

4.从整体结果来看,我们认为AMD GPU还有极大的算法优化空间,凭不可靠经验判断,从RX 7900 XTX到酷睿i9-13900K的性能差距还不足够大。这和我们部署的算法方案以及模型都有一定关系,也希望各社区的程序员们能开发出更多更优秀的针对AMD显卡的计算加速方案。

不管如何,AMD显卡对Stable Diffusion的硬件加速计算性能已经得到了展现,效果也比较明显,对AMD显卡用户来说毫无疑问是利好的福音消息,剩下的就是玩家与AMD需要坚持的继续优化之路了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5604

    浏览量

    136829
  • 算法
    +关注

    关注

    23

    文章

    4720

    浏览量

    95941
  • AI算法
    +关注

    关注

    0

    文章

    263

    浏览量

    12746

原文标题:AI算法画小姐姐,AMD显卡比顶级CPU快30倍!AMD Radeon显卡Stable Diffusion AI画图体验测试

文章出处:【微信号:Microcomputer,微信公众号:Microcomputer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMD最强AI芯片,性能强过英伟达H200,但市场仍不买账,生态是最大短板?

    电子发烧友网报道(文/吴子鹏)当地时间本周四,AMDAMD Advancing AI 2024上发布了一系列新品,包括全新旗舰AI芯片、服务器CP
    的头像 发表于 10-14 01:32 ?4515次阅读
    <b class='flag-5'>AMD</b>最强<b class='flag-5'>AI</b>芯片,性能强过英伟达H200,但市场仍不买账,生态是最大短板?

    八天三次收购!AMD收购AI芯片制造商Untether AI团队,刺激创新

    电子发烧友原创 章鹰 6月6日,美国芯片大厂AMD宣布收购加拿大AI推理芯片公司Untether AI。这是AMD公司在短短八天之内完成的第三笔收购。Untether
    的头像 发表于 06-08 07:01 ?5491次阅读
    八天三次收购!<b class='flag-5'>AMD</b>收购<b class='flag-5'>AI</b>芯片制造商Untether <b class='flag-5'>AI</b>团队,刺激创新

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解AI
    的头像 发表于 03-06 10:22 ?473次阅读

    直击 30KPA39A:高参数如何打造顶级瞬态防护?

    直击 30KPA39A:高参数如何打造顶级瞬态防护?
    的头像 发表于 02-13 10:36 ?397次阅读
    直击 <b class='flag-5'>30</b>KPA39A:高参数如何打造<b class='flag-5'>顶级</b>瞬态防护?

    RDNA 4显卡定在3月发售 AMD解释原因

    的使用体验。 其次,AMD正在为更多游戏适配基于AI的FSR 4超分辨率技术。FSR 4通过智能算法提升图像分辨率,能
    的头像 发表于 01-23 17:48 ?888次阅读

    龙芯自研显卡来了!性能看齐AMD热销显卡

    。本文将详细介绍龙芯9A1000显卡的性能特点、技术规格以及其在国产自研领域的意义。一、性能对标AMDRX550龙芯9A1000显卡主要面向入门级市场和AI推理加
    的头像 发表于 12-05 01:06 ?1225次阅读
    龙芯自研<b class='flag-5'>显卡</b>来了!性能看齐<b class='flag-5'>AMD</b>热销<b class='flag-5'>显卡</b>

    发现基于Zen 5架构的AMD Threadripper “Shimada Peak” 96核和16核CPU

    AMD Threadripper “Shimada Peak” CPU 出现在 NBD 发货清单中,揭示了 16 核和 96 核 Zen 5 CPU AMD 尚未推出采用 Zen 5
    的头像 发表于 11-28 16:13 ?1127次阅读
    发现基于Zen 5架构的<b class='flag-5'>AMD</b> Threadripper “Shimada Peak” 96核和16核<b class='flag-5'>CPU</b>

    AMD确认2025年推出RDNA 4显卡,光追与AI性能大幅提升

    10月30日,AMD在2024年第三季度财报电话会议上宣布了一个关于GPU的重要信息:其下一代RDNA 4显卡计划于2025年初发布。AMD首席执行官苏姿丰明确表示:“我们计划在202
    的头像 发表于 10-30 16:50 ?1836次阅读

    高通骁龙汽车新方案:CPU性能跃升3,AI性能狂飙12

    。   据了解,骁龙座舱至尊版平台作为骁龙8295的升级版,被命名为Elite。该平台搭载了高通专为汽车行业设计的自研Oryon CPU架构,其性能相较于8295提升了3,并集成了最新的NPU,使得AI性能最高可提升12
    的头像 发表于 10-23 14:50 ?1179次阅读

    AMD全新处理器扩大数据中心CPU的领先地位

    在Computex 2024 开幕主题演讲上,AMD 详细介绍了全新的 CPU、NPU 和 GPU 领先架构,为从数据中心到个人电脑的端到端 AI 基础架构带来强大算力。AMD预览了将
    的头像 发表于 09-19 11:01 ?1018次阅读

    简单认识AMD Radeon RX 6750 GRE系列显卡

    今日推荐AMD Radeon RX 6750 GRE系列显卡,它拥有至高12GB GDDR6显存,多达40个计算单元,以及高达96MB的AMD Infinity Cache无限缓存技术,并且将光线
    的头像 发表于 09-18 11:02 ?1766次阅读
    简单认识<b class='flag-5'>AMD</b> Radeon RX 6750 GRE系列<b class='flag-5'>显卡</b>

    AMD Radeon RX 7700 XT显卡的主要特性

    作为DIY玩家,如果你正在寻求一款性能上能够畅玩1440p游戏,功能上能够满足内容生产创作需求的显卡,那么AMD Radeon RX 7700 XT值得你入手。
    的头像 发表于 09-18 10:57 ?4902次阅读
    <b class='flag-5'>AMD</b> Radeon RX 7700 XT<b class='flag-5'>显卡</b>的主要特性

    如何维修一张电脑显卡型号是amd的rx580 烧坏的部位?

    大家好!我在维修一张电脑显卡型号是amd的rx580 烧坏的部位是一个电感情况如下图 我觉得应该用飞线方法补焊盘再接电感 但是一直找不到1伏的两个相连的元器件
    发表于 09-13 03:07

    苹果 A18 芯片发布:CPU 提升 30%、GPU 提升 40%

    CPU 包括 2 个性能核心和 4 个效率核心, iPhone 15 的 A16 Bionic 30%,能耗降低 30% 。 G
    的头像 发表于 09-11 12:19 ?1420次阅读
    苹果 A18 芯片发布:<b class='flag-5'>CPU</b> 提升 <b class='flag-5'>30</b>%、GPU 提升 40%

    spark为什么mapreduce

    spark为什么mapreduce? 首先澄清几个误区: 1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以,显然是错误的 2;DAG计算模型
    的头像 发表于 09-06 09:45 ?572次阅读