0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CityDreamer:一键生成无边界的3D城市

智能感知与物联网技术研究所 ? 来源:未知 ? 2023-10-15 20:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近些年,3D 自然场景的生成出现了大量的研究工作,但是 3D 城市生成的研究工作还寥寥无几。这主要是因为 3D 城市生成更难,人类对于其中的结构失真更敏感。近日,来自南洋理工大学 S-Lab 的研究者提出了一个新的框架 CityDreamer,专注于生成无边界的 3D 城市,让我们先看一下效果。





看起来还不错?这都来自于以下的这篇研究。


  • 论文地址:https://arxiv.org/abs/2009.00610
  • 项目地址:https://haozhexie.com/project/city-dreamer
  • 代码地址:https://github.com/hzxie/city-dreamer

为满足元宇宙中对 3D 创意工具不断增长的需求,三维场景生成最近受到了相当多的关注。其中,生成 3D 城市比 3D 自然场景更复杂。在自然场景中,相同类别的物体通常有相似的外观,例如树通常是绿色的。但是在城市中,建筑的外观非常多样,但它们被赋予了相同的类别,这将导致建筑外观的质量下降。

为了解决这个问题,研究人员提出了 CityDreamer 以生成无边界的 3D 城市,它将建筑和城市背景(包括道路、绿化、水域)生成分别用 2 个不同的模块生成。这两个模块都采用鸟瞰(Bird's Eye View, BEV)作为场景表示,并采用体积渲染器(Volumetric Renderer )通过对抗训练生成逼真的图像。

值得注意的是,场景参数化的方式经过精心定制,以适应背景物体和建筑物的独特特征。每个类别中的背景对象通常具有相似的外观,同时呈现出不规则的纹理。因此,CityDreamer 引入生成哈希网格来保持自然性,同时维护 3D 一致性。相比之下,建筑实例表现出各种各样的外观,但其立面的纹理通常显示出规则的周期性图案。研究人员因此,设计了周期性位置编码,这对于处理多样性的建筑立面来说是简单而有效的。

为了使生成的城市在布局上和外观上都更逼真,研究人员们构建了 2 个数据集:OSM 和 GoogleEarth。前者从 OpenStreetMap [1] 提取了超过 80 个知名城市、超过 6000km2 的俯视视角的高度图和语义分割图;后者从 Google Earth Studio [2] 上提取了美国纽约市的 400 环形轨迹,包含 24,000 张图像及对应的语义分割和建筑实例分割标注。这些标注是通过将从 OSM 数据集生成的 3D 城市布局投影至图像上生成的。这种方式可以很容易地将标注数据扩展至世界上的其他城市。



方法


CityDreamer 将 3D 城市生成分解为 4 步:无边界城市布局生成、城市背景生成、建筑实例生成和图像融合。

无边界城市布局生成

CityDreamer 将无限的城市布局生成转化为可扩展的语义地图和高度场的生成问题。为此,CityDreamer 采用了基于 MaskGIT [3] 的无边界布局生成器(Unbounded Layout Generator, ULG),它天然地支持 inpainting 和 outpainting 功能。具体来说,ULG 使用了 VQVAE 来编码语义图和高度场的图像切片,将它们转换为离散潜在空间并创建 Codeboook。在推理过程中,ULG 以自回归的方式生成 Codebook 索引,随后,ULG 使用 VQVAE 的解码器生成一对语义图和高度场。由于 VQVAE 生成固定大小的语义图和高度场,因此 ULG 使用图像 outpainting 来创建任意大小的语义图和高度场。在此过程中,ULG 采用滑动窗口来预测每一步的局部 Codebook 索引,滑动期间有 25% 的重叠。

城市背景生成

City Background Generator (CBG) 主要用于生成城市的背景,具体包括道路、绿化和水域。该模块使用了鸟瞰视图(BEV)作为场景的表示。具体而言,该表示使用由语义图和高度图组成的 BEV 表征来表达一个大尺度三维场景。

针对城市背景相同类别通常具有相似外观的特性,CBG 引入生成哈希网格(Generative Hash Grid)作为场景的参数化:保持自然性,同时维护 3D 一致性。具体而言,CBG 使用哈希函数来将场景特征 和空间点坐标映射到多尺度混合的可学习参数上:


为了保证渲染的三维一致性,我们使用基于体积渲染的渲染网络来完成三维空间特征到二维图像的映射。对于相机光线上的一点,我们经过查询生成式哈希网格得到其对应的特征,使用经风格噪声调制的多层 MLP 来得到其对应点的颜色和体密度,最终通过体渲染来将一条相机光线上的所有点积分为对应像素的颜色。

建筑实例生成

Building Instance Generator (BIG) 用于生成城市的建筑。和城市背景生成一样,我们使用了鸟瞰视图作为场景的表示,使用基于体积渲染的渲染网络来完成三维空间特征到二维图像的映射。观察到建筑立面和屋顶分布的显著差异,建筑立面和屋顶在 BIG 中被分配了 2 个不同的类别标签

针对建筑立面所呈现出的周期性规律,我们设计了更轻量化的场景参数化方式:基于周期性函数的场景参数化。具体而言,BIG 将建筑特征和空间坐标通过周期性函数映射到一个高维空间中:


其中,$ m Concat$ 表示连接(Concatenation)操作,?被定义为


图像融合

给定城市背景的图像和掩膜(分别用表示) 以及 建筑实例的图像和掩膜的集合( 分别用表示),CityDreamer 使用如下方式得到融合后的图像


其中 n 表示建筑实例的数量。

实验

下图展示了 CityDreamer 和其他 SOTA 方法的对比,这些方法包括 PersistentNature [4]、SceneDreamer [5] 和 InfiniCity [6]。实验结果表明,CityDreamer 的效果明显优于其他方法。



下图展示了更多视角的生成结果,该结果证明了 CityDreamer 的鲁棒性。



参考文献:
[1] https://openstreetmap.org
[2] https://earth.google.com/studio
[3] Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022.
[4] Lin et al. InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.
[5] Chai et al. Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.
[6] Chen et al. SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. arXiv 2023.



原文标题:CityDreamer:一键生成无边界的3D城市

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2933

    文章

    46462

    浏览量

    395548

原文标题:CityDreamer:一键生成无边界的3D城市

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3
    的头像 发表于 07-14 14:08 ?224次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    闪测仪开机放件按一键,尺寸测量报告秒生成

    闪测仪以“开机放件按一键,尺寸报告秒生成”的简易操作模式,解决了传统测量设备操作复杂、效率低下、数据致性差等问题,提高了工业检测的效率和精度标准。
    的头像 发表于 06-13 11:43 ?455次阅读
    闪测仪开机放件按<b class='flag-5'>一键</b>,尺寸测量报告秒<b class='flag-5'>生成</b>

    U盘一键制作

    在电脑维修中启动盘很重要,靠谱的u盘一键启动制作方法
    发表于 05-06 16:10 ?44次下载

    NVIDIA助力影眸科技3D生成工具Rodin升级

    。在 NVIDIA Omniverse 平台、OpenUSD 以及 Isaac Lab 解决方案的助力下,影眸科技实现了 Rodin 平台的升级,显著提升了 3D 资产生成的速度、质量与用户体验,推动具身智能进步发展。
    的头像 发表于 04-27 15:09 ?641次阅读

    3D 全息投影智慧灯杆:智慧城市的梦幻之光

    在智慧城市建设的浪潮中,各种创新技术不断涌现,为城市生活带来了前所未有的变革。其中,3D 全息投影智慧灯杆作为种融合了前沿科技的新型城市
    的头像 发表于 03-17 15:42 ?465次阅读

    种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研
    的头像 发表于 03-17 13:44 ?557次阅读
    <b class='flag-5'>一</b>种以图像为中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    LoRa无线一键报警安防建设方案

    SOS紧急呼叫按钮具有紧急情况下一键报警的功能,可与报警主机配合使用,支持标准LoRaWAN协议。lora紧急按钮具有紧急情况下一键报警功能,可与报警主机配合使用,支持标准LoRaWAN协议。如遇
    的头像 发表于 02-28 14:41 ?669次阅读
    LoRa无线<b class='flag-5'>一键</b>报警安防建设方案

    开关柜一键顺控在一键停电、一键送电中的作用

    蜀瑞创新为大家科普,开关柜一键顺控技术在一键停电和一键送电中发挥了快速响应、减少人为错误、提高安全性、简化操作流程、降低操作风险、提高送电成功率等综合优势,对于提升电力系统的运行效率、安全性以及自动化水平具有重要意义。
    的头像 发表于 02-27 09:13 ?854次阅读

    腾讯混元3D AI创作引擎正式发布

    的AI技术,能够根据用户提供的提示词或图片,直接生成高质量的3D模型。这功能极大地降低了3D内容创作的门槛,使得即使是缺乏专业3D建模技能
    的头像 发表于 01-23 10:33 ?685次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要步。 混元
    的头像 发表于 01-22 10:26 ?681次阅读

    揭秘3D集成晶圆合:半导体行业的未来之钥

    随着半导体产业的快速发展,集成电路(IC)的小型化、高密度集成、多功能高性能集成以及低成本集成成为行业发展的必然趋势。在这背景下,3D集成晶圆合技术应运而生,成为实现这些目标的关键技术之
    的头像 发表于 11-12 17:36 ?1765次阅读
    揭秘<b class='flag-5'>3D</b>集成晶圆<b class='flag-5'>键</b>合:半导体行业的未来之钥

    人机界面在开关柜一键顺控中起到什么作用?

    人机界面在一键顺控系统中发挥着操作指令输入、状态显示与反馈、参数设置与配置以及提升操作便利性和安全性等重要作用。它是实现一键顺控功能不可或缺的关键组成部分。蜀瑞创新专注智能开关柜一键顺控
    的头像 发表于 11-05 10:02 ?695次阅读
    人机界面在开关柜<b class='flag-5'>一键</b>顺控中起到什么作用?

    一键断电开关的种类有哪些

    一键断电开关的种类主要可以从其功能和实现方式上进行分类。以下是些常见的一键断电开关种类: 1. 继电器式一键断电开关 定义 :这种开关通过继电器或接触器控制电路的通断,实现
    的头像 发表于 09-13 16:45 ?3622次阅读

    一键断电开关的控制原理是什么

    一键断电开关,也被称为紧急断电开关或紧急停止开关,是种安全装置,用于在紧急情况下迅速切断电源,以防止事故的发生或扩大。这种开关的设计和应用在工业、实验室、医疗设备以及任何需要快速断电的场合都
    的头像 发表于 09-13 16:28 ?4116次阅读

    混合合技术:开启3D芯片封装新篇章

    Bonding)技术应运而生,并迅速成为3D芯片封装领域的核心驱动力。本文将深入探讨混合合技术在3D芯片封装中的关键作用,分析其技术原理、应用优势以及未来发展
    的头像 发表于 08-26 10:41 ?1778次阅读
    混合<b class='flag-5'>键</b>合技术:开启<b class='flag-5'>3D</b>芯片封装新篇章