HDC 2024：天图万境联合华为云发布“视频声效大模型”解决方案

人工智能已成为当下最火热的赛道,被认为是引爆下一代科技革命的战略新兴技术,企业、资本纷纷入局,希望尽早在这个未来具备万亿规模的市场中抢得先机。

尽管参与者众多,但AI技术的竞争却没有变得更百花齐放,反而是千军万马挤过“AI内容生成”的独木桥。不过在今年的华为开发者大会2024(HDC 2024)上,一项新技术的诞生和发布,为AI产业吹进了一缕创新清风,刷新了传统视野,拓宽了技术探索的边界,这项技术是一种空间智能技术,它在学习人脑的机制行为,让机器拥有视觉和听觉能力,并为应用场景做出机器决策和行动。

图:“视频声效解决方案”联合发布现场

“视频声效大模型” 解决方案拓宽AI研发技术路径

6月22日,天图万境与华为云在HDC 2024大会现场联合发布了AI“视频声效大模型”解决方案,它底层基于天图万境自主研发的AI感知视听技术,为人工智能领域带来了颠覆性革命。此次发布标志着AI技术在“空间智能”领域取得的重大突破,也预示着千行百业将因此而发生新质生产力的变革。

“视频声效大模型”解决方案没有沿用传统的AI文生图、文生视频路线,而是希望AI可以按照人类进化的方式,用眼睛耳朵和大脑来做出判断思考和行动,让 AI在数字世界中具有了感知能力和理解能力,就像5亿4000年前,生命体进化出“视觉”、“听觉”一样,新的 AI 技术让计算机具有了视觉、听觉、理解能力,并通过机器“思考“做出行动和决策。

这项技术的诞生,将对行业带来颠覆性的改变。对于人类来说,我们是通过看、听,识别物体属性,感知空间变化,比如认识一只猫,或者看到一辆赛车呼啸而过的画面就可以联想到赛车引擎高低变化的轰鸣声,就可以感知车离我们的运动关系。但是对于计算机来说,它只会判断画面中的像素点或者音频的波形数值,内容世界的信息对于AI来说没有“经验联想“意义,计算机业不能识别和理解。

天图万境的AI感知视听技术,正在帮助AI 可以像人类一样,先通过听觉和视觉来认识世界,再通过大脑积累的经验记忆来进行预测和自我修正,将每个专用 AI 模型看作是人类的神经元,通过多个AI“神经元“的相互配合,使用大规模的数据训练后,就可以让计算机理解这个世界,例如通过AI图像分割“学会”认识物体,并判断出它是一只猫,或者是一辆赛车。每个专业的 AI”神经元“具有其专业领域的丰富知识,它可以理解这个复杂的世界和推理未曾见过的信息,而这样的组合,正在减少对硬件算力的依赖,来学习人脑袋的功耗比,人脑仅以 45 瓦的峰值消耗,就可以处理极其复杂的事情,这样这的“联级神经元”框架设计,正在让计算机深度领悟人们生活的三维世界,在数字世界中存在的物理规律。

让AI具有感知视听能力

当计算机有了视觉、听觉,就可以拥有理解力,进化出真正的智慧,推动所有聚生智能,赋能需要机器决策和行动的千行百业,迈向新的“空间智能”时代。在今年的HDC 2024大会上,天图万境创始人图拉古在“盘古多模态大模型”专场论坛上,做了《视频声效大模型催生空间智能》的主题演讲,阐述了空间智能未来的发展方向。

图:天图万境创始人图拉古

他表示,“我和我的团队一直致力于创造更加理想的空间智能。我们要让 AI拥有类人的记忆推理能力,让它理解行为意图、物质属性、运动规律、和空间关系。我们希望机器能够为人做事,或者帮人做事,知道哪些是人类需要的,并理解不同场景下人类的差异化需求,通过“联级神经元”和多样数据的训练,让机器学会自我认知和决策,可以在数字世界中,像人类一样识别多样的世界环境,理解场景的复杂性。”

此次天图万境与华为云携手推出的“视频声效大模型”解决方案,能够以智慧的方式生成声音。比如通过判断画面中火车的由远及近的空间变化,生成从小到大的音量。通过识别画面中海鸥群集的数量,匹配出真实的等量动态声音。这也是全球首个能够智慧理解真实世界的AI大模型,为计算机走向“空间智能”奠定了坚实的技术基础,更重要的是,这样的空间智能模型摆脱了“AI 提示词”的输入,图拉古表示“很多时候,人类看到某种行为或图像就可以自然产生想法,而我们希望机器也具有这样的能力,自我决策和行动”。

让机器拥有视觉、听觉的感知能力,可以让矿山里的无人探测车分辨岩石,或实时监测矿井环境,提高安全性;在消防检测中,AI可以快速识别火源位置,预测火势蔓延路径,极大提升应急响应能力;可以让普通摄像头不借助任何深度传感器,秒变可以能够拍摄三维立体画面的“立体眼”,获得稳定清晰的深空间深度,输出立体的空间视频,而人类正是在以这样的方式理解世界…

当AI拥有类人的感知世界能力后,它将演化出更强的认知能力、识别能力、记忆能力,诞生真正的智慧,帮助人们创造更加美好的生活。

天图万境与华为云共同看好AI感知视听技术拥有的巨大应用前景和市场空间,双方在HDC 2024上签署战略合作协议,携手促进“视频声效大模型”解决方案的研发和推广,促进双方在人工智能与云计算领域的深度融合。

天图万境在华为开发者大会2024上展示的AI感知视听技术,以及“视频声效大模型”解决方案,不仅惊艳了会场听众,更为行业引入了全新的技术思维和创新蓝图。未来,天图万境还将在AI感知视听技术方面持续发力,走得更远更快,为全球AI的智能化探索出不一样的创新路径。

免责声明：该文章系我网转载，旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议，仅供读者参考。

【责任编辑：钟经文】