11月27日,2022全球人工智能技术大会 “融合与发展”新智者·智能媒体专题论坛在线举行。CAAI智能传媒专委会副主任、南京大学通信工程系主任、教授曹汛以《从全光函数漫谈智能视觉传媒》为题,阐述了智能视觉传媒的理念,探讨了如何从全光函数的角度理解媒体形态的重塑。
图注:曹汛教授-“融合与发展”新智者·智能媒体专题论坛
报告中,曹汛教授深入浅出地从全光函数的视角讲解智能视觉,翔实的数据、丰富的影像、精彩的演示伴随着娓娓道来的讲解,扣人心弦、引人入胜。曹教授介绍了重塑视觉影像的一些背景、方法及意义;阐明了重塑视觉影像的两个方法:相机记录与模拟计算生成。
重塑世界方法中用相机记录由来已久。从最早的模拟相机只能拍出灰度图像,到后来的柯达、海鸥公司做的胶卷、单反等,再到步入数字时代。Boyle &Smith发明CCD获2009年诺贝尔奖,这是最小的数字相片,小于一万象素,比现在手机象素都小很多。随着CCD的发展数字成像的应用越来越多,包括了各种监控摄像头和手机。随着自动驾驶技术的兴起,汽车也配置了摄像头,目前标配为10个左右,还有逐渐增加的趋势。
曹教授在介绍模拟计算生成方法时引入了全光函数。全光函数在1991年由美国一个三院院士提出,他总结了全光函数的七个维度。基于此,模拟计算生成方法即记录有光源照射于物理模型上的视觉信号,再用相机记录下来然后在电脑里进行计算,依此逆向生成各种模型。计算机图形学里很多虚拟环境都是通过逆向的物理模型构建形成虚拟视觉印象的。
随后,曹教授就其中几个维度——空间、时间、光谱着重作了详细的阐述。
1. 空间维度。人眼的空间分辨率据大部分生物文献记载是5.76亿左右,在全部动物界里只能排名第二,比人眼更高的是老鹰,它可以在万米高空看清地上的猎物。但高分辨率一直是成像系统的追求,三星宣布下一个Cmos要做6亿象素相当于超越人的眼睛的概念。一般来说,获得非常高的分辨率,视野会变得非常非常小,这个是受限于空间带宽积,最典型的例子就是显微镜。曹教授在报告中提到第一代显微镜就是在全球非常大的一次瘟疫之后发明的。而这次的疫情学界有足够的手段去观测和了解病毒,这就是视觉利器发挥重要作用的实例
2. 时间维度。最早的电影1秒钟24赫兹就足以呈现出连续的动画。在讲解到一秒钟一万赫兹时,曹教授引用了一个生动的例子,即著名的子弹时间场景——《骇客帝国》电影中用来描述主人翁躲子弹的经典镜头。帧率再快一百倍到一百万赫兹就可以追上子弹的速度,捕捉到闪电的一些场景和镜头。比一百万赫兹再快的就是能够追上光的速度,亦即一秒钟一万亿赫兹。
3. 光谱维度。以人眼的光谱通道为例,其通道只有三个,视觉无法观测出诸如物品内部的好坏等一些蕴于丰富谱色信息中的内容。钱学森先生所在的JPL实验室成功研制出世界上第一台拥有视觉空间能力的光谱相机,应用在卫星上。光谱相机优于其它手段之处还在于其能识别假的人皮面具,使人脸识别系统不会欺骗和攻击。此外,光谱也可以用在环境保护等领域,如化工的泄漏检测等等。
在报告的最后曹教授进行了总结并对智能视觉传媒的前景提出了一些展望,加深了听众们对智能视觉的了解与兴趣,让大家感受到未来还有更多有意思的视觉感知研究工作可以去探究与实现。