中德人工智能大会开发者论坛 AI教机器如何看世界

人工智能
后台-插件-广告管理-内容页头部广告(手机)
 

人工智能已经成为新一轮产业变革的核心驱动力,正在对世界经济、社会进步和人类生活产生极其深刻的影响。人工智能视觉作为人工智能一个重要的分支,一直是人工智能最炙手可热的领域。

始于20世纪50年代的统计模式识别,人工智能视觉领域在数十年间有大量人员投入研究,取得长足发展,其应用开始逐渐出现在生活中,例如常见的人脸识别。

人工智能视觉技术的重要性和广阔的发展前景,吸引了BAT等巨头公司入局,还有新兴人工智能企业的崛起。2017年中国人工智能视觉市场规模为80.3亿元,预计2020年市场规模达到780亿元(数据来源:中国产业信息),人工智能视觉前景广阔。

四维时代人工智能技术开放平台:

人工智能技术赋能开发者

在第三届中德人工智能大会上,中德人工智能研究院院长崔岩教授宣布:

四维时代人工智能技术开放平台上线,

已帮助多名AI开发者完成研发。

崔岩教授:开放人工智能技术,为开发者赋能

四维时代一直致力于人工智能三维数字化技术的研究与应用,以实现“数字万物”为愿景,创建了四维时代人工智能技术开放平台(以下简称“开放平台”):

开放平台:汇集全世界顶尖人工智能技术

开放赋能——打破技术壁垒,开放人工智能视觉核心技术,为广大AI开发者提供人工智能视觉技术支持。

更重要的是,这个开源技术平台,是免费的。

四维时代人工智能技术开放平台

人工智能开发者论坛:

深度剖析最新AI视觉产品与背后的技术

在分会场举办的人工智能开发者论坛(以下简称“论坛”)上,多位人工智能视觉领域的资深开发者受邀来到现场,与200多名现场观众分享他们最新的研究成果,带来最前沿的技术分享。以下是这次分享的干货提炼。

开发者嘉宾展示最新AI视觉产品背后的技术原理

开发者论坛现场观众

在本次论坛上,每位开发者嘉宾都带来了不同技术领域的分享,同时还在开放平台上同步发布了多套人工智能视觉的核心技术开源代码,其中就包括三维数字化、SLAM视觉追踪、人脸识别、物体识别

什么是人工智能视觉?形象地说,人工智能视觉就是给机器装上眼睛(照相机)和大脑(算法),让机器可以“看到”世界,感知周围的环境,在“大脑”中构建地图。

在本次大会论坛上,依托人工智能技术开放平台,开发者嘉宾结合具体的AI产品,为我们详细剖析人工智能视觉技术背后的原理和应用。

01

机器如何看世界:

物体的三维数字化建模

首先出场的,是一段特殊的暖场视频:

上面这位一脸严肃地跳着江南style的“舞蹈达人”就是到场的资深开发者之一。

开发者现场讲解三维数字化技术原理

事实上,他并没有跳过江南style,上面这段舞蹈视频是三维数字化技术建模的作品。

与普通的三维数字化建模不一样,这次建模时间很短,从采集数据到生成模型,一共只用了10分钟。

基于光学相机的三维数字化建模技术:

传统的三维数字化技术主要有以下三种:激光扫描、深度相机手持扫描以及人工建模。它们的缺点也很明显:成本高、操作难、速度慢。

简而言之就是又贵又不好用。

为了解决这个问题,出现了基于光学相机的三维数字化技术。

光学相机三维数字化原理用一句话来总结就是:基于图片来建模。

举例:如何对一个瓷瓶进行建模。

首先,需要用普通的光学相机对瓷瓶进行720°的拍摄;

 

然后提取瓷瓶的特征点,把每张图片里的特征点进行匹配;

   

通过这些匹配点,可以算出每张图片在三维空间中的位置;

 

然后经过稠密重建,算出稠密点云,就可以得出瓷瓶的基本轮廓;

 

最后再进行颜色贴图,就可以得到瓷瓶三维数字化后的模型。

 

基于相同的原理,人像建模的建模速度和质量有大幅度的提升。

开发者使用100多个光学相机对自己进行720°拍照,然后通过人工智能算法建模,得到自己的三维人像模型。

由100多个光学相机组成的人像设备

得到三维人像后,进行自动骨骼绑定和蒙皮。

 

之后,三维人像就可以添加动作了,不仅可以跳江南style、跳街舞:

 

还可以打拳:

 

基于光学相机对物体进行三维数字化建模技术具有效率高、成本低、操作简单的特点,目前已广泛应用在文博、电商、房地产等行业。

02

机器如何看世界:

空间的三维数字化建模

除了物体,基于光学相机的三维数字化技术是否也可以对空间进行建模?

答案是可以的。

而且为了降低操作难度,开发者团队使用的并不是普通的光学相机,而是全景相机。

使用全景相机的好处在于,同样的拍摄次数、拍摄角度,全景相机可以获得更多的空间信息:

只需要拍一个点,就可以把整个可视空间的信息都得到了。

普通光学相机拍摄的视角范围

全景相机拍摄的视角范围

SFM技术获取空间三维结构信息。

但是与物体建模不一样,在拍摄建模对象照片后,空间建模还需要获取空间的三维结构信息,这里就需要SFM(Structure From Motion运动恢复结构)技术的应用,计算得到空间模型的3D点云。

 

通过自由空间的计算,获得所有空间结构;

 

然后进行空间的颜色贴图,就可以得到一个完整的空间模型;

 

全球首款消费级3D相机——四维看看

这并不是纸上谈兵,目前这种技术已经成功应用在一项全新产品上——全球首款消费级3D相机四维看看。

基于光学相机的三维数字化技术的优势,成功降低了四维看看的成本、操作难度以及机身的重量体积,让普通消费者也可以轻易上手。

四维看看:一款只有手机大小的3D相机

03

机器如何构建世界:

SLAM视觉追踪技术

在“看”到世界后,机器又是如何构建自己脑中的世界呢?

一台机器在获取周围环境信息时,它只是“看”到这些信息:

机器看到周围的环境,但是脑中空空如也

但是有SLAM(Simultaneous Localization and Mapping 同步定位与建图)技术的加持,机器在获取周围环境信息后,可以判断自己所处的位置,感知周围环境信息。

在SLAM技术的加持下,机器把所见到的环境在脑中重新构建出来

下面我们用一张图来说明:应用SLAM技术之后,机器构建“世界”的过程。

左上角是开发者拿着机器进行移动,左下角是机器看到的画面,右画面就是机器在“脑中”构建

SLAM视觉追踪代码开源

“无人车和机器人离开了SLAM,就等于手机离开了WIFI和网络。”

这种高大上的人工智能技术已经应用在生活中的方方面面,例如最近高居话题热门的无人车、扫地机器人。

SLAM技术不仅让机器不再“迷路”,也成为了数字世界与现实世界连接的桥梁。

通过SLAM技术的加持,AR中三维模型可以知道周围的环境,可以融进真实的世界中,而不仅是“放在”二维画面上。

AR融合:三维家具模型根据现实中的场景进行摆放

04

机器如何认识世界:

机器学习是重要的方式

当机器学会“看”世界、学会构建世界后,接下来的问题就是他们怎么“认识”世界。

当一个人出现在机器面前,机器是否可以判断这是一个人?是否可以辨别出他手里拿着什么东西,是否具有危险性?

这一切都可以实现,但是需要通过机器学习。

通过学习,机器可以学会辨别不同的物体,例如人、领带:

机器捕捉到大会现场的德国国立陶瓷博物馆馆长Dr.Daniela Antonin

机器识别出大会记者以及他周围的物品

“机器学习的本质是为了找到一个函数,让这个函数在不同的领域发挥不同的作用。”

“像语音识别领域,这个函数会把一段语音识别成一段文字;物体识别的领域,这个函数会把一个图像映射到一个分类。”

在机器学习类别中,物体识别是一个重要领域,同时也是人工智能视觉研究主要集中的基础应用场景之一,目前已经应用在工业检测、行人车辆检测等领域中。

今天开发者在论坛上分享的,就是基于卷积神经网络的关于物体识别的机器训练模型。

开发者建立一个基于卷积神经网络的算法模型,输入大量的图片数据,对机器进行训练。通过训练,当“看”到不同的图片时,机器就可以作出不同的反应。

开发者嘉宾:记过训练,当机器看到兔子图片,就知道这是一只兔子,而不是一只狗或者一只猫。

大家熟悉的四维艺术可以学习不同的画风,并把不同的图片转换为该画风风格——这也是机器通过学习习得的技能之一:

 

四维艺术通过学习不同的画风,

可以把另一幅图片转化为特定画风

引领创新,开放赋能。

本届人工智能开发者论坛已圆满落幕。这场人工智能视觉技术的饕餮盛宴为广大开发者带来的不仅是最前沿、核心的技术分享,还有在研究开发上应持有的开放态度。

闭门造车不可取。四维时代人工智能技术开放平台的发布,希望能够为具有创新精神的广大开发者提供一个展示的舞台,成就一个又一个伟大的故事。

盛宴虽已落幕,回响依依不绝。

开发者福利

人工智能视觉核心技术开源代码已发布,

四维时代人工智能技术开放平台

 

以上便是第三届中德人工智能大会的精彩内容。至此,会议已完满结束,感谢各位嘉宾的参与。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。