
这是我们一直希望拥有的东西,现在它几乎就在这里。
谷歌透露了他们在一项新的人工智能 (AI)技术上的工作,该技术将允许用户放大照片或图像而不会变得模糊。照片不会变得像素化——照片将继续看起来干净锐利,有点像犯罪现场调查等犯罪电视连续剧中使用的技术。
像这样的东西,但不完全是:
新的人工智能引擎基于所谓的扩散模型工作,并涉及一种称为自然图像合成的技术。
在这种技术中,细节被添加到图像中,这些细节最初不是由相机捕获的,也不是由用于制作它的任何软件插入的。使用巧妙的猜测和从其他外观相似的图像中获取信息的混合添加额外的细节。

当然,这意味着增强后的照片不会与原始照片完全一样,但您仍然可以期望将像素化或模糊的图像转换为您可以欣赏和使用的图片,而不必担心其他人如何看待它们。
这一切背后的逻辑。
关于用于实现这一奇迹的工具,谷歌表示他们目前采用了两种技术。
第一种是通过重复细化(或 SR3)称为超分辨率的扩散模型技术,基本上通过向图像添加额外的噪声或不可预测的元素,然后反转过程并修复图像来工作,就像照片编辑器的工作方式一样改善从相机拍摄的任何图像。

然后通过使用概率数学并查看庞大的预先存在的图像库,SR3 可以更好地预测完整、清晰的图像应该是什么样子,尽管原始图像有多模糊或像素化。
“扩散模型通过逐步添加高斯噪声来破坏训练数据,慢慢消除数据中的细节直到它变成纯噪声,然后训练神经网络来扭转这种破坏过程,”谷歌研究团队的成员解释说。
另一种工具被称为级联扩散模型(或 CDM),它充当“管道”,通过这些管道可以引导像 SR3 这样的扩散模型,以将图像升级为高分辨率。
虽然这些听起来都非常技术性,但到目前为止,谷歌在这些技术上的进步令人印象深刻。
在对庞大的图像数据库 ImageNet 进行的测试中,谷歌的新 AI 引擎设法说服 50 名志愿者测试人员相信 SR3 和 CDM 生成的人脸图像在 50% 的时间是真实的——对于通过执行复杂操作创建的一堆图像来说非常惊人数学。
由引擎生成的一组图像。他们看起来有多令人信服!
目前,仍然不知道谷歌计划如何或何时将他们的新引擎引入主流,尽管该团队已经确认他们仍在研究与人工智能和扩散模型相关的其他令人兴奋的技术。
“通过 SR3 和 CDM,我们已经将扩散模型的性能推到了超分辨率和类条件 ImageNet 生成基准的最先进水平,”该团队说。“我们很高兴能够进一步测试扩散模型对各种生成建模问题的限制。”
评论留言