欢迎访问山西安防资质网!

通用人工智能的多模态通用技术

技术动态    发布于:2021-03-18

       现有的大多数人工智能模型和方法仍归于窄人工智能,也被称为弱人工智能(weak artificial intelligence)。相对而言,强人工智能(strong artificial intelligence)期望机器能像人一样思考、推理,能处理各种使命,比肩人类的智能水平(human-like or human-level intelligence)。与强人工智能相比,现有通用人工智能愈加强调机器的“泛 化”才能,包括场景泛化(即模型从单一场景泛化 至多个场景)、模态泛化(即一个模型适用于多种 模态的使命)、使命泛化(即一个模型能够处理多种类型的使命)等。

  通用人工智能目前仍然处于发展初期,是对现有窄/弱人工智能的反思、补充和改善,也是通往强人工智能道路上的重要道路。通用人工智能所研讨的是一个智能体系应该具备哪些才能,并且运用这些才能解决各式各样的复杂问题。

查看源图像

  通用人工智能的多模态通用技术

  现实生活中,人类接纳的信息模态多种多样,如视觉、声响、文字、嗅觉、触觉等。人类能够综合运用多种模态的信息对事物进行理解和推理。多模态学习是通用智能需求解决的关键问题之一,其使命能够归结为两个基本类:多模态表征学习和模态转化。需求指出的是,这两个问题并非不相关,比方表征能够用来做模态转化。下面介绍几种典型的多模态学习使命。

  一、多模态表征学习和交融

  多模态表征学习指的是学习包含多个模态的样本表征,比方视频里可能包含的视觉信息、声响信息等,使得表征能够反映所包含的多个模态信息,以协助理解辨认等使命。最直接的方法是分别处理各个模态,得到每个模态的表征,再将其直接拼接起来作为最后的表征;也能够终究只发生一个表征,把不同模态的表征交融成一个表征;也能够持续把交融的表征做进一步处理,以生成更强的表征;还能够在发生表征的过程中,不停地进行模态之间的信息交互或许交融,以增强每个模态的表征。

  二、多模态协同学习

  多模态协同学习指的是使用模态之间的相关,借助其他一个或许多个模态,来协助某一模态或许多个模态建模和学习。模态之间的相关信息非常常见,比方人在说话的时分,既有声响模态,也有视觉(唇语)模态,如人脸表情或许行为动作;比方互联网上的图片,通常有文件名等;比方在视频中,视频帧可能有相应的声响(语音或许音乐),也可能有文字脚本。人类对单一模态的理解,也是经过联合其他模态信息进行分析的。多模态协同学习的要领在于把相关转化成合适的束缚,以及从各个模态获取合适的信息构成束缚。例如图画和文本(比方图画及其文件名)有一一对应联系。

  借助于物体的特点描述来协助图画辨认建模,在某种意义上也是多模态协同学习。例如,对狗的辨认,咱们都清楚地了解狗是由哪些部分组成的,具有怎样的特点特征,比方它有4条腿、尾巴、毛发等。但是在目前干流的物体辨认中,这种信息没有被加进去,“狗”仅仅作为一个标签。而人类从图画里辨认狗的时分,脑筋中有许多狗的图画认知信息,同时也从别的渠道取得狗的其他常识,如组成方法等。所以,建模时需求把关于狗的额定常识信息加进去,来提高建模辨认性能,也会提高模型的鲁棒性。

  三、多模态一致表征学习

  多模态一致表征学习指的是把不同模态映射到?同一个特征空间,使得不同模态在这个特征空间里能够直接比较(比方欧氏间隔),比较的时分不用?区分特征来自什么模态。多模态使命能够是把一幅图片转变成一段文字或许一首诗,或许将文字转化成一幅图画;以及在文字、图片或许视频查找中,如果图画和文本的特征都转化到同一个空间中,那咱们就能够进行一致的查找,而不再区分不同的模态。

  人类具有在不同模态之间快速映射的才能,比方看到一个场景,咱们的脑筋会快速“查找”到应景的一首歌、一段文字或许一首诗。多模态一致表示是模仿人类这个才能的一种完成方法。多模态一致表征问题的首要研讨点在于怎么界说联系坚持和寻找合适的映射,以及对大规模数据和实践问题的探究。目前已经有了实践体系的探究,如“小冰写诗”。更多安防技术动态关注山西安防资质网!


Copyright © 2018-2020 山西安防资质网

 网站地图    

留言