立即注册
查看: 1233|回复: 0

[转载] 对话微软亚研院网络图形组首席研究员童欣:图形学与VR/AR当前进展

已绑定手机
发表于 2017-12-5 21:52:23 来自手机 | 显示全部楼层 |阅读模式 来自 辽宁省沈阳市
今天,电影已成为我们日常生活娱乐的一部分。从无声到有声,从黑白到彩色,从朴实的实景到炫目的特效,无疑,今天的电影画面越来越好看,这背后自然离不开技术的发展。

11 月 16 日,ICEVE 2017 北京国际先进影像大会在北京电影学院召开,除了“影像作品”本身,这场大会更加关注与影像作品密不可分的前沿技术。微软亚洲研究院网络图形组首席研究员童欣参加了这次活动,并接受了雷锋网的专访,在采访中,他对计算机图形学的发展问题提出了自己的见解。

Q1:您能介绍下近几年的一些研究方向吗?

童欣:我们在微软亚洲研究院属于网络图形组(Internet Graphics)。研究的方向主要集中在内容生成和交互方面。

内容生成是指如何帮助用户快速高效地生成高质量的可视内容,核心包括三维内容,展示方式是图像、视频,围绕这些做一系列的工作,如材质建模、形状建模、动画生成等。

另一方面研究集中在人机交互、AR和VR方面,VR/AR中自然地人机交互,比如,识别和捕捉对方人脸的动作,帮助用户生成Avatar,手势的自动生成,通过人体运动手段进行捕捉、重建,有了这些就可以方便用户做识别和交互。

另外,是针对三维打印,软体机器人方面的研究,这是图形学的另外一个重要的应用。生成虚拟的内容后,现在随着3D打印技术的进步,人们希望通过图形学的手段把一些虚拟的东西,通过制造返回到真实的世界里,这就涉及到机器人相关、3D打印相关技术的前沿性研究。

Q2:研究成果有哪些?如何跟微软其他产品部门合作?

童欣:我们图形组自成立以来,和微软产品组一直有密切的合作。像以前Xbox和Direct3D中的渲染技术、建模技术、纹理映射技术很多都来自我们组的研究成果。图形系统方面,比如这代Xbox游戏主机可以兼容上一代所有的游戏 ,这里面所涉及的图形系统相关的技术都来自我们组。

跟产品部门的合作主要通过两种方式进行,一是把我们最新的研究方向和研究成果展示给他们看,希望这些技术对产品的研发有一些启发,能给他们带来新的应用和场景;另一方面,他们也会把他们在产品开发中遇到的一些技术问题,反馈给我们,我们会根据这些问题做些特定的技术研究,帮助产品组把产品做的更好。

Q3:您平时关注电影特效吗?现在的电影画面有什么大的变化?

童欣:一部新的动画电影出来了,除了欣赏精彩的故事,我也会看看电影中所包含的技术的相关分析文章。另外像SIGGRAPH这样的行业会议上,做了新电影的人,都会到会上做很多专题的报告,分享他们解决了哪些技术问题,应用了哪些新的技术。

跟十几年前相比,CG在电影制作中已经无处不在了,在十几年前的电影中如果有个CG,就是大制作,现在你很难找到没有CG的电影了,电视剧特效做的也非常普遍了。

这些特效,有些会呈现出奇幻的效果,还有一些可能你根本看不出来,会以为是实景。通过一些图形学的技术,把虚拟和真实结合在一起,这些东西从观影角度已经看不出来了。

同时,特效可以减少拍摄的成本,有些很真实的场景,拍摄难度很大,像驯服一只老虎,现在用计算机技术,可以让老虎看起来跟真实的一样。

Q4:您从业的十几年中,计算机图形学学科有什么变化吗?

童欣:计算机图形学是个变化很快的学科,是和应用结合较紧密的学科,同时也是比较开放的学科。在图形学里,十年前就在讨论的核心技术问题,今天也在讨论,但同时应用和关注的热点一直都在扩展,发生变化。

对于研究图形学的人来说,任何跟可视相关的内容,我们都会视为研究方向的一部分,但随着一些方向慢慢成熟,又会从图形学中分离出去。可视化技术、计算机辅助制造、虚拟现实,这些都是图形学催生出来又逐渐分化出去的。而图形学自己又在寻找新的发展方向。

Q5:VR/AR对图形学提出哪些新的要求?

童欣:VR/AR对图形的渲染速度、图形质量有很高的要求。设备从一个像电影院这样专门场所放映,到随着VR设备普及,恨不得人手一个。这意味着应用场景更大,我们对内容制作的成本、时间、效率有更多的要求。不光是质量上,速度和效率上也会有很多的挑战。另一方面,当我们在VR/AR环境中,提供了不同的体验形式,这对交互也提出了很多挑战。

Q6:您是如何看待现有的手势识别技术的?为什么现在还无法大规模使用?

童欣:手势识别是非常具有挑战性的问题,即使到目前也没有人敢说,实时三维手势跟踪完全解决掉了。即使基于深度摄像头,一个非常鲁棒的手势识别和跟踪系统,到目前还是一个挑战性的问题。大家也没有非常鲁棒的方案,这就是为什么大家在市面上看不到手势识别被大规模使用。

这里面又几个问题。从输入状态上说当我们有鼠标和键盘的时候,我们可以清楚的分清输入状态和非输入状态,比如说键盘当我们不敲击它,是非输入状态。对手势而言,什么时候是输入,什么时候是非输入,很难区分。因为我的手势时时在做,假设我还戴着AR眼镜,我怎么让设备知道,我是对设备做的手势,还是对你做的手势。手势没有一个状态去划分,从逻辑上讲,要把这个问题先解决掉。

语音的交互也面临同样的问题。所以我们看到,大家会给智能语音音响起个名字,这个名字就是为了让你切换输入状态。当我们去叫这个音箱的时候,音箱知道,这句话后面是输入命令。你平常讲话的时候,它就不会记录了,因为不是针对它讲的输入命令。

从效率上讲,我们在科幻电影中看到的手势识别非常漂亮,但是如果你去问问人机交互的专家,他们就会告诉你,如果你让一个人做这样的交互,没有人能坚持十分钟以上,就是说对很多场景,这不是一种非常自然的输入方式。

鼠标和键盘被发明出来,一个方面原因你可以说是因为不自然,需要学习,一旦你习得后,它的效率是非常高的。比如说游戏控制器,你只需要通过一个很小的运动,就可以在虚拟世界中有很大的运动,这个在实际的手势中很难做到。

最后,当我手握手柄的时候,手柄不仅是一个输入设备,同时也是输出设备,它可以通过震动、力反馈给我一个输出的反馈,当我手在空气中挥舞的时候,我一个输出的渠道就消失了。

所以,我们要等到技术成熟,然后找到手势识别和手势驱动最有效的应用场景,解决了里面的命令定义的问题,那么手势识别才能得到使用。手部识别如果只是识别双手的位置,这个技术是比较成熟的,但你想想如果识别手部每个手指的姿态,这还是比较难的。

Q7:为什么对手部的实时追踪这么难?

童欣:人手姿势和关节的自由度是非常高的,双手可以做各种各样的手势,再加上手臂的动作,自由度非常高,姿态空间非常大。

一个摄像头的话,遮挡会非常的厉害,人脸可以认为是扁平的东西,手却不是,手随便做些姿势,大拇指可能就看不见了,但我需要知道大拇指在哪 。这是手势实时追踪面临的两个挑战,姿态丰富,同时遮挡严重,这意味着你需要推测其他手指的状态,这也是很难的。这就需要机器学习的技术。

你可以想想人是怎么做的,不仅通过手势,还要看你是不是冲着我,我们几个人说话,你可能给我做一个手势,我怎么知道这个手势是对着我做的呢?

首先,我要有上下文,保持手势在上下文中是可以被理解的,认为这个手势是对我做的;第二,我要看整个人的状态,你冲着我吗?这个手势是不是对着我做的,对着我做手势时,你可能还有其他相应的肢体动作来表达这个动作是不是对我做的。

我们人是有一套这样的东西,那么机器需要从人这边考虑这样的场景,需要很多对上下文场景的识别,最后来做到正常的识别。同时,由于没有清晰的定义这是输入状态,还是非输入状态,机器需要自动判定,什么时候是输入,什么时候停止输入。这是非常难的问题。

自然交互,本质上来讲是非常难的问题,做识别是第一步,真正做到好用自然,让大家用起来没有障碍,还有比较长的路要走。

Q8:如何看待VR/AR对人机交互的新需求?

童欣:VR/AR模拟的是真实三维环境中的交互,视野被覆盖了,看不见鼠标和键盘。输入的内容,不是文本,不是在二维界面上操作,你要在虚拟的三维环境中漫游,这些需求要有新的交互手段,不一定是手势,但需要有新的交互方式。

大家之所以这么沉迷于做VR/AR,很重要的原因是我们生活的世界是三维的,我们有需求重现三维世界,或者创造一个虚拟的三维世界,这是来自人的本能的需求。

虚拟的三维,或者在真实世界中叠加的三维,决定了你必须创造出三维的内容,因为我的视野随时在变,我的光照随时在变,我和物体随时在交互,状态随时在变,传统的视频也好,图像也好,解决不了这个问题,只有三维的图像能解决这样的问题。这也是为什么三维内容的生成,在VR/AR中变得很关键的原因。

三维内容生产本身一直是一个瓶颈问题,我们很多行业需要三维内容,但只有专业人员才能把很多行业的内容变成三维内容,这个瓶颈就产生了,这需要技术的进步。

Q9:对现在AR的发展是怎么看的?

童欣:AR可以想的更广泛一些,我们手机也好,耳机也好,都是AR,当你走在街上戴着耳机听歌的时候,这就是AR。在真实环境里,你听到的是别人虚拟唱的歌曲, AR一直在,一直有需求,不过是从文字,听觉,慢慢变成视觉。把原来虚拟世界的信息和真实世界的信息结合,本来你的信息是有真实世界的意义的,把它返回到真实世界中,用统一的界面呈现给你,这是最关键的。

Q10:AR和AI是怎样的关系?

童欣:AR和AI是密不可分的。在AR 中一个关键是内容生成。另外一个关键是全新的交互方式和体验方式。

所谓交互,既要有输入,也要有输出。输入就意味着,我们AR设备要对周围的环境有感知和认知,这个感知和认知就是AI研究中很重要的技术。输出,靠图形,输入要靠很多计算机视觉的技术,一起来做,最后结合起来,才能成就AR这件事情。

Q11:计算机图形学还有哪些需要解决的难题?
童欣:我们有句跟奥林匹克一样的口号“更高、更快、更强”。大家对三维内容的需求永远高于我们的计算能力。

现在,我们的实时显示达到 30 帧/每秒,那你看看从最早计算机上有图形显卡,到现在,显卡的能力翻了不止百倍,甚至上千倍,我们的显示速率还是 30 帧/每秒,那我们变得是什么? 是显示内容,真实感有了巨大的进步,但即使这样跟我们真实场景的差别,大家还是能看出来的。一个计算机绘制出来的图像,和一个真实照片,我相信大家还是能一眼看出其中的差别。

我们实时绘制的场景和一个照片相比,这里面有巨大的鸿沟。更不用说我们内容生成的效率,生成高质量的内容。

从更高层面讲,当我们的客户有一些意图的时候,如何快速有效地把客户模糊的创作意图转变成为具体的内容,这件事本身也是非常难的。

后记:

去年,童欣对媒体曾预测AR发展的速度会超过VR,此次采访,当被问道关于目前手机AR的发展时,他认为这是很自然的现象,不管是手机AR,还是AR眼镜,每种形式都有自己应用的场景和需求。最开始大家会做不同的尝试,这些尝试要交给市场和用户检验,其中一定会淘汰一些,最后留下来真正有需求的应用。

From:
https://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649442257&idx=1&sn=fadaf5b4ce3365e2eb9566819c5942fd&chksm=82c0ae55b5b727430527d1df5d2d1b02c6e7baf59bdcdf7f3a7d904e3aeed7f86f4624dd8d3f#rd
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

合作/建议

TEL: 19168984579

工作时间:
周一到周五 9:00-11:30 13:30-19:30
  • 扫一扫关注公众号
  • 扫一扫打开小程序
Copyright © 2013-2024 一牛网 版权所有 All Rights Reserved. 帮助中心|隐私声明|联系我们|手机版|粤ICP备13053961号|营业执照|EDI证
在本版发帖搜索
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表