0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

NVIDIA英伟达企业解决方案 ? 来源:未知 ? 2023-02-15 16:10 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

瑞典国家图书馆正在使用五百年来的瑞典语文本训练最先进的 AI 模型,以支持历史、语言学、媒体研究等方面的人文研究。

从价值连城的中世纪手稿到今天的披萨店菜单,瑞典国家图书馆在过去 500 年中收藏了几乎所有瑞典语出版物。

由于瑞典法律要求一切瑞典语出版物都要上交副本至瑞典国家图书馆(也称为瑞典皇家图书馆),因此该图书馆的藏品涵盖了各清晰度的书籍、报纸、无线广播、电视广播、互联网内容、博士论文、明信片、菜单和电子游戏。这个内容丰富的收藏集含近 26 PB 的数据,是训练尖端 AI 的最佳选择。

瑞典国家图书馆数据实验室 KBLab 的负责人 Love B?rjeson 表示:“我们有最好的数据,所以我们可以构建最先进的瑞典语 AI 模型。”

该团队使用 NVIDIA DGX 系统开发了二十多个可在 Hugging Face 上使用的开源 Transformer 模型。这些模型推动了图书馆和其他学术机构的研究,每月的开发者下载量多达 20 万。

B?rjeson 表示:“在我们的实验室成立前,研究者无法在图书馆访问数据集,他们每次只能查阅一个对象。因此,为帮助那些需要大量查阅资料的研究者,创建图书馆的数据集十分必要。”

这样,研究者很快就能创建专门的数据集。例如,调出所有描绘教堂的瑞典明信片、所有特定风格的文本或是所有提到某一历史人物的书籍、报纸文章及电视广播。

从图书馆档案到 AI 训练数据

瑞典国家图书馆的数据集涵盖了瑞典语的所有变体,包括各种正式和非正式变体、地区方言以及随着时间的推移而产生的变化。

B?rjeson 表示:“数据还在持续不断地涌入并增长,我们每个月都会增加超过 50 TB 的新数据。在处理成倍增长的数据的同时,我们还要将数百年前的实物藏品转换成数据录入,所以我们一直在不断扩大我们的数据集。”

2019 年 KBLab 成立后不久,B?rjeson 就看到了运用庞大的图书馆档案训练 Transformer 语言模型的潜力。谷歌早期的多语言自然语言处理模型含有 5GB 瑞典语文本,他从此受到了启发。

KBLab 的第一个模型使用了谷歌多语言自然语言处理模型 4 倍之多的数据——B?rjeson 团队的目标是使用至少 1 TB 的瑞典语文本训练模型。在发现多语言数据集可能提高 AI 的性能之后,这座实验室开始进行实验,在其数据集中添加荷兰语、德语和挪威语内容。

NVIDIA AI 和 GPU 加速模型开发

该实验室一开始使用的是消费级 NVIDIA GPU,但 B?rjeson 很快发现他的团队需要数据中心规模的计算来训练更大的模型。

B?rjeson 表示:“我们意识到在小型工作站上无法完成这项工作,所以 NVIDIA DGX 是明智之选。我们很多的工作离不开 DGX 系统。”

该实验室使用两套来自瑞典供应商 AddPro 的 NVIDIA DGX 系统进行本地 AI 开发。这些系统用于处理敏感数据、开展大规模实验和微调模型。它们还准备在全欧盟搭载 GPU 的大型超级计算机上进行更大规模的运行,其中包括卢森堡的 MeluXina 系统。

B?rjeson 表示:“我们在 DGX 系统上的工作至关重要,因为我们希望能够在高性能计算环境中做到最好,这必须将超级计算机的作用发挥到极致。”

该团队还采用了用于训练大型语言模型的 PyTorch 框架 NVIDIA NeMo Megatron。其内置的 NVIDIA CUDA 和 NVIDIA NCCL 库可优化 GPU 在多节点系统中的使用。

B?rjeson 表示:“我们十分依赖 NVIDIA 的框架。因为我们实验室的规模较小,无法派出 50 名工程师优化每个项目的 AI 训练,NVIDIA 的优势在这就十分明显了。”

利用多模态数据开展人文科学研究

除了能够理解瑞典语文本的 Transformer 模型外,KBLab 还有一个能将声音转换成文本的 AI 工具。这使得图书馆能够将其大量的无线广播收藏转换成数据集,以便研究者能够搜索录音中的具体内容。

KBLab 还在开发生成式文本模型,同时还在研究一个可以处理视频并自动生成内容描述的 AI 模型。

B?rjeson 表示:“我们还希望将各种模态的数据联系起来。当你在图书馆数据库中搜索一个特定的词语时,系统将能够返回包括文本、音频和视频在内的结果。”

KBLab 与哥德堡大学的研究者开展了合作。这些研究者正在使用该 KBLab 的模型开发用于语言学研究的下游应用程序。项目之一是帮助瑞典学院升级用于创建瑞典语词典的数据驱动技术。

B?rjeson 表示:“这些模型的社会效益远远超出了我们的最初预想。”

9aac0100-ad07-11ed-bfe3-dac502259ad0.png ? ? ?

点击“阅读原文”扫描下方海报二维码,即可免费注册 GTC 23,切莫错过这场 AI 和元宇宙时代的技术大会


原文标题:再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3973

    浏览量

    94360

原文标题:再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    施耐德电气助力百年学府数据中心改造升级

    面对不同场景下的“跨时空”能效升级挑战,施耐德电气精准施策,以先进的AI技术为核心应用,依托SmartCool末端空调节能解决方案与多种施家硬件设备解决方案的联合携手,为这家百年学府的数据中心量身
    的头像 发表于 08-13 16:47 ?435次阅读

    RFID 系统与智能工具柜:重构社康、图书馆与医疗行业的资产管理范式

    在数字化转型的深水区,基层服务与专业机构的资产管理正面临效率与安全的双重考验:某社康中心每月因疫苗冷链记录疏漏被约谈 3 次;某图书馆年度盘点耗费 500 工时,仍有 12% 图书账实不符;某医院
    的头像 发表于 07-07 16:21 ?185次阅读
    RFID 系统与智能工具柜:重构社康、<b class='flag-5'>图书馆</b>与医疗行业的资产管理范式

    图书馆WiFi总掉线?我的秘密武器居然是它.

    图书馆阿姨收书还快 ??稳定输出??:连续3小时查资料,中途只掉线1次(还是因为我手机不小心碰掉了USB) ??无缝衔接??:换IP后不用重新登录数据库,连cookie都还在 ??3. 实测对比:蜂鸟IP
    发表于 06-10 18:05

    RFID在图书馆自动化中的应用

    RFID在图书馆自动化中的优势高效率:RFID可以快速批量读取图书信息,大幅缩短借还书时间,提高图书馆管理效率。准确性:RFID减少了人工操作的错误率,提高了图书管理的准确性和可靠性。
    的头像 发表于 05-27 17:15 ?283次阅读
    RFID在<b class='flag-5'>图书馆</b>自动化中的应用

    RFID智能书架:图书馆数字化转型的新核心技术

    随着数字化转型的推进,图书馆智能化升级成为趋势。RFID智能书架凭借高效、精准、自动化的管理能力,成为图书馆现代化转型的新宠。
    的头像 发表于 04-28 11:26 ?341次阅读
    RFID智能书架:<b class='flag-5'>图书馆</b>数字化转型的新核心技术

    图书馆效率革命!RFID智能书柜如何颠覆传统借阅体验?

    传统借阅体验繁琐且低效,图书馆借阅效率亟待提升。RFID智能书柜颠覆传统借阅体验,实现图书精准定位与高效管理。便捷自助借还,缩短借还时间,降低排队时间,提高借阅体验。
    的头像 发表于 04-23 15:21 ?287次阅读
    <b class='flag-5'>图书馆</b>效率革命!RFID智能书柜如何颠覆传统借阅体验?

    RFID图书管理系统如何重构数字化仓储管理新生态

    图书馆与出版行业数字化转型进程中,RFID图书管理系统正打破传统人工管理的效率瓶颈,通过与数字化仓储管理系统的深度融合,实现从图书采购、入库到借阅的全链路智能化。本文结合RFID固定资产管理软件的应用逻辑,
    的头像 发表于 04-18 16:59 ?334次阅读
    RFID<b class='flag-5'>图书</b>管理系统如何重构数字化仓储管理新生态

    智慧阅读触手可及——RFID微型图书馆,你了解吗?

    RFID微型图书馆是一种新型的阅读模式,通过射频识别技术构建的小型化、智能化图书馆设施。它提供24小时自助服务、多种登录方式、图书定位与查找、快速盘点图书
    的头像 发表于 04-09 15:37 ?335次阅读
    智慧阅读触手可及——RFID微型<b class='flag-5'>图书馆</b>,你了解吗?

    你的树莓派为什么越用越卡?揭秘SD卡里的&amp;quot;图书馆管理员&amp;quot;

    导语有没有遇到过树莓派启动变慢、运行卡顿,甚至莫名“死机”?这些问题很可能和SD卡里的“隐形管家”——文件系统有关!今天我们将用“图书馆管理员”的比喻,带你轻松看懂树莓派启动流程、文件系统的核心作用
    的头像 发表于 03-25 09:23 ?768次阅读
    你的树莓派为什么越用越卡?揭秘SD卡里的&amp;quot;<b class='flag-5'>图书馆</b>管理员&amp;quot;

    EEPROM芯片市场应用与出货量分析(截至2025年数据

    EEPROM芯片市场应用与出货量分析(截至2025年数据
    的头像 发表于 03-03 16:57 ?935次阅读

    用腾讯ima和Deepseek建立个人微信知识库

    腾讯AI图书馆来了,是时候升级英飞凌工业半导体的《微信图书馆》啦。(对于工程师零难度)近日腾讯推出了AI智能工作台ima.copilot,本人亲测,可以在微信平台上建立方便实用的私人
    的头像 发表于 02-25 17:33 ?1465次阅读
    用腾讯ima和Deepseek建立个人微信知识库

    二维码扫描头嵌入在图书自助管理设备中的应用案例

    在当今数字化时代,二维码扫描技术已广泛应用于各行各业,其中,在图书自助管理设备中的嵌入应用尤为引人注目。这不仅极大地提升了图书馆的服务效率与用户体验,还实现了图书管理流程的智能化与自动化。以下将详细
    的头像 发表于 12-19 16:22 ?628次阅读
    二维码扫描头嵌入在<b class='flag-5'>图书</b>自助管理设备中的应用案例

    如何保障图书馆用电安全?——安科瑞 丁佳雯

    一、图书馆的安全挑战? 图书馆作为公共场所,其电气系统复杂且庞大,包括照明、空调、电脑、电子阅读设备等众多用电设备。这些设备在长时间运行过程中,可能会因老化、接触不良或设计缺陷等原因产生故障电弧
    的头像 发表于 12-13 14:34 ?496次阅读
    如何保障<b class='flag-5'>图书馆</b>用电安全?——安科瑞 丁佳雯

    智慧图书馆能耗监测优化管理系统方案

    优化管理系统方案,旨在通过智能化手段实现对图书馆能耗的全面监测、精准分析与高效管理,有效减少能耗成本并提高能源利用效率。 通过在图书馆各区域配电室内部署物通博联工业智能网关,实时采集智能电表数据,如电量、电压
    的头像 发表于 09-11 13:41 ?978次阅读

    荣耀参展百年IFA,折叠新品Magic V3海外正式发布

    、荣耀笔记本MagicBook Art 14等全场景旗舰设备亮相,同时带来AI离焦护眼等多项端侧AI创新技术,为这一消费电子行业盛会的百年诞辰奉上特殊的创新之礼。
    的头像 发表于 09-07 09:14 ?1130次阅读