首先先吐槽一下版面费,太贵了6400………………舍不得钱发表,直接共享了得了。

基于AI(artificial intelligence)的建筑设计探索——以Stable Diffusion为例
Exploration of AI-based Architecture Design - A Case Study of Stable Diffusion
摘要:近一年来,各种AI图像生成程序席卷了整个互联网,随着AI技术的不断进步,传统的设计行业也随之而改变。本文主要基于stable diffusion为例,探讨AI图像生成程序对于建筑设计的影响,简要阐述世面常见AI程序及其相关原理,探索基于AI生成的建筑设计探索,提出未来可能的建筑设计流程。可以看出,以Stable Diffusion等为代表的图像生成软件在建筑设计领域有着广阔的应用前景,它们可以帮助建筑师在前期方案阶段快速探索多种可能性,提高设计效率和创造力。
Summary: Over the past year, various AI image generation programs have swept the entire internet, and with the continuous advancement of AI technology, the traditional design industry has also changed accordingly. This article mainly explores the impact of AI image generation programs on architectural design using stable diffusion as an example. It briefly elaborates on common AI programs and their related principles, explores AI-generated architectural design, and proposes possible future architectural design processes. It can be seen that image generation software represented by Stable Diffusion has broad application prospects in the field of architectural design. They can help architects quickly explore multiple possibilities in the early stage of the scheme, improve design efficiency and creativity.
关键词:AI设计、Stable Diffusion、artificial intelligence、AI设计流程、AI设计方法
Keywords: AI design, Stable Diffusion, artificial intelligence, AI design process, AI design methods
一、 研究背景与意义
《建筑学报》曾在2022年9月以“构造未来:有关建筑学趋势的设想”为专题出版了一期杂志,其中袁烽教授在《思辨人类世中的建筑数字未来》一文中指出:建筑业的“意图——建筑制图——再现——建造”的传统流程亟待更新。新技术时代允许机器智能可以无缝衔接从意向到建造的全过程,这种人机智能共生的设计范式将诞生全新的创造力与生产力[1]。

图1:传统的设计建造流程
然而,就在这篇文章发布不到半年的时间里,就有许多的科技公司陆续发布了以神经网络深度学习为基础的 AI (Artificial Intelligence) 绘图软件,这些软件能够依据文件生成逼真图像从而席卷了互联网,使它们成为迄今采用速度最快的技术之一[[1]]。其中一些AI生成工具,如DALL-E、MidJourney或ChatGPT已经获得了广泛的公众知名度。

这些AI创作的图像不仅仅应用于人物生成,也可以创造出令人惊叹的建筑方案。AI有潜力改变建筑师在设计阶段和概念创意阶段的工作方式,大家除了惊叹以外,更多讨论的是AI将如何影响建筑设计的未来。随着科技水平的不断进步,AI设计在未来可能成为创造力的基石。虽然现阶段AI设计尚不完善,但是该技术的主要优势在于AI能够快速捕捉项目的愿景并给与具象的概念,在项目的早期阶段甚至可以取代草图和概念设计[[2]]。可以想象在未来,AI设计将会成为整个设计流程中重要的一部分,人机协作的流程将变革为“意向——生成——优化——建造——评估”的螺旋进化式流程。
图2:人工智能参与设计流程
现在比较主流的AI绘图软件有三款:DALL-E,midjourney和Stable Diffusion。这三款软件均是基于文字生成图片的基本原理来进行运作[[3]]。输入的文字可以理解为对设计的意向,AI通过大语言模型根据文字意向生成相应的结果,设计师可以基于AI生成的结果而进行优化、建造、评估;待评估完毕后设计师将评估结果让AI进一步学习,这样一个螺旋进化式流程便形成了。
二、常见AI绘图软件相关介绍
1.Stable Diffusion
Stable Diffusion是一种潜在的文本到图像扩散模型(latent text-to-image diffusion model),能够在给定任何文本输入的情况下生成照片般逼真的图像。它是由StabilityAI在2022年发布,是基于LAION-5B数据库的512x512图像子集上训练潜在扩散模型。而扩散模型是一种图像生成模型,它通过学习如何迭代地反转高斯噪声,将随机高斯噪声转换成图像[[4]]。相比之前的text-to-image模型,Stable Diffusion通过将图像形成过程分解为逐步应用去噪自编码器和扩散模型(DM),DM在图像数据及其它方面实现了最先进的合成结果。因此,该模型相对较轻且可以在至少具有10GB VRAM的GPU上运行[[5]]。

图3使用图像到图像的风格转移应用程序进行扩散过程(以草图为输入,真实图片为输出)。
2.Midjourney (https://www.midjourney.com/)
Midjourney由同名的独立研究实验室创建的,他们是一个仅有11名全职员工的小型自助团队。Midjourney可以从文本描述中合成图像,旨意探索新的思维媒介,扩展人类的想象力[[6]]。Midjourney倾向于生成超现实主义图像,深受艺术家的欢迎。
3.DALL·E
DALL·E是OpenAI基于GPT-3(120亿参数版本)训练而成的神经网络程序,它通过使用文本-图像对应的数据集中获取信息,可以根据自然语言表述的各种概念创建图像。DALL-E 2是DALL-E的后续版本,OpenAI从互联网抓取了大约6.5亿个图像文本并对其进行了训练,它可以在更高分辨率下创建比DALL-E更逼真的图像,并可以生成不同的概念、属性和风格[[7]]。
几款软件相比,由于DALL.E 2是基于数百万张库存图像进行训练的,所以它所创造的输出更加复杂,最适合企业使用[[8]]。根据Stable Diffusion的创始人Emad Mostaque的说法,DALL.E 2的修复功能是其最佳特性,使其与其他图像生成器区分开来[9]。此外,与Midjourney或Stable Diffusion相比,DALL.E 2在有超过2个角色的情况下生成的图像要好得多[10]。
而midjourney更具有艺术家风格,偏向凭空想象、无中生有。渲染效果和补充效果也更好。在设计中,它更偏向给出具有创意的概念方案或者天马行空的设计灵感[11]。
Stable Diffusion的塑形控制能力更好,插件也更多,且为开源[[12]],所以应用更广泛,控制能力更高,适合对方案进行推敲,并且能够适应具有限定条件和不断变化的设计要求。因此,对比三款软件,本文主要基于Stable Diffusion进行AI设计流程的研究与探讨。

图4:在同样的文字输入情况下三款软件的生成结果对比
- Stable Diffusion工作原理和意向的前期准备
Stable Diffusion为开源程序,因此众多程序员基于其原始代码进行二次开发。其中“AUTOMATIC1111”于2022年9月在github发布了基于个人电脑本地部署的“Stable Diffusion webUI”程序,这代表着个人免费文生图程序时代的莅临。而本地部署webUI程序也是AI辅助设计的第一步工作。然而,在进行AI辅助设计之前,我们仍需准备和了解另外两款基于Stable Diffusion的插件——ControlNet以及LoRA。
ControlNet可以支持额外的输入条件用来控制预训练大型扩散模型。像stable diffusion这样的大型扩散模型同样也可以通过controlnet进行增强,比如利用边缘图、分割图、关键点(edge maps, segmentation maps, keypoints)等条件输入,可以实现多样的控制大型扩散模型的方法,并进一步促进图像生成的相关应用[[13]]。

图5:使用Hough线(M-LSD)控制stable diffusion。 “自动提示”是由BLIP根据默认结果图像生成的,而不使用用户提示。
LoRA(Low-Rank Adaptation)为一种大语言模型的低阶适应方法。该方法将预训练模型权重冻结,从而大大减少了下游任务的可训练参数数量。经过研究,LoRA可将可训练参数的数量减少10,000倍,并将GPU内存需求降低3倍[[14]]。LoRA除了应用在像ChatGPT这样的大语言模型之外,在图像生成模型中表现更为优异。我们可以通过训练并使用LoRA模型更加精准的控制图像生成的风格。
- 基于Stable Diffusion的建筑设计生成研究
笔者通过不断的试错与研究,初步得出基于stable Diffusion建设设计生成方法,可供大家参考:
- 自然语言生成的模型要比提示词(tag)堆叠的效果要好;
- 建筑设计生成质量的好坏取决于LoRA训练的品质好坏;
- 多样性的建筑设计生成风格需配合多样性LoRA;
- 使用contronet配合语义分割法(Seg)能够更好的控制图像生成质量


图6:基于SU草模生成的建筑效果图对比
图7:不同LoRA生成图片对比


图8:动漫风格与木模型风格效果生成
- 总结与畅想
AIGC发展的速度飞快,从互联网的各种教程和展示可以看出,以Stable Diffusion等为代表的图像生成软件在建筑设计领域有着广阔的应用前景,它们可以帮助建筑师在前期方案阶段快速探索多种可能性,提高设计效率和创造力。
对于未来的建筑设计的流程来说,Stable Diffusion可以做到以下四个方面:
1.从低信息量到高信息量的生成。可以根据建筑师提供的简单的体块模型、手绘草图或实体模型,生成更加细节丰富和风格多样的建筑方案。这样可以在保持设计框架的同时,丰富设计细节,深化设计。
2.从非建筑信息到建筑信息的迁移。可以将与建筑无关的信息转化为建筑信息,例如将物件摆放、自然菌类或其他非人类信息作为输入,生成对应的建筑场景或形态。这样可以拓展建筑师的视野和灵感,探索更多与建筑相关的理论和方法。
3.从一个方案到多个方案的扩展。可以利用隐空间中参数的连续性,生成一系列具有相似性和变化性的建筑方案。这样可以给建筑师提供更多的选择和可能性,优化设计方案。
4.从二维图像评估到三维模型生成的转变。可以结合其他生成式算法,利用CLIP作为评估工具,指导算法优化生成结果,从而得到符合提示语描述的三维模型。这样可以更贴合建筑设计需求,提高设计质量和效果。[[15]]
人工智能的高速发展确实极大的超出了人们的想象,并且以迅雷不及掩耳之势席卷了整个设计行业,大家对于未来的职业发展也是充满的迷茫和不安,但笔者还是认为AI不能替代建筑师,因为建筑设计是技术与艺术的融合,即便AI可以辅助建筑师进行方案生成等工作,但是AI无法理解人类的情感和文化背景,更无法创造出具有个性和特色的建筑作品。建筑师的作用是将自己的理念和情感通过建筑的形式表达出来,与人类的生活和环境相互交流和影响,这些都是AI无法做到的。最终笔者相信,各位建筑师也一定会逐渐适应并驾驭AI,与科技共同进步!
图1来源于:袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J].建筑学报,2022(09):12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.
图2依据袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J]中图片作者自绘
图3来源于Louis Bouchard.Google Brain's Answer to Dalle-e 2: Imagen.https://www.louisbouchard.ai/google-brain-imagen/
图4来源于fabians.eth in twitter
图5来源于Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).
图6:基于SU草模生成的建筑效果图对比 作者自绘
图7:不同LoRA生成图片对比 作者自绘
图8:动漫风格与木模型风格效果生成 作者自绘
- 袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J].建筑学报,
- 2022(09):12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.
- [] Martínez, Gonzalo, et al. "Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation?." arXiv preprint arXiv:2303.01255 (2023). ↑
- [] “How AI software will change architecture and design”https://www.dezeen.com/2022/11/16/ai-design-architecture-product/ ↑
- [] Borji, Ali. “Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2.” ArXiv abs/2210.00586 (2022): n. pag. ↑
- [] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. ↑
- [] “Stable Diffusion”.GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model ↑
- [] https://www.midjourney.com/ ↑
- [] https://openai.com/product/dall-e-2 ↑
- [] Kyle Wiggers.“OpenAI expands access to DALL-E 2, its powerful image-generating AI system”.
- https://techcrunch.com/2022/07/20/openai-expands-access-to-dall-e-2-its-powerful-image-generating-ai-system/ ↑
- Emad in Twitter: "So #dalle2 is a model and a service. It is focused on a certain usage subset that will broaden. Inpainting is it’s best feature but by default it is random and best used for ideation and more corporate usage, hence it’s clear training on licensed stock images" / Twitter ↑
- fabians.eth in Twitter: ""Pixar movie scene of a dark skull wizard fighting against Kermit the frog as a gladiator, incredible render, Presto" DALL-E's usually my go to for scenes involving 2 or more clear "actors" - will be cool to render battle scenes for my prompt fighting game @battleprompts https://t.co/hSVDuqH8wp" / Twitter ↑
- ↑
- [] Kyle Wiggers.“This startup is setting a DALL-E 2-like AI free, consequences be damned”.
- https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/ ↑
- [] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023). ↑
- [] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). ↑
- [] 郑豪,观点 | AIGC影响下的AI建筑学,https://zhuanlan.zhihu.com/p/606502335 ↑
评论留言