1 通用人工智能的多模态通用技术-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用人工智能的多模态通用技术

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2021-02-04 10:44 次阅读

现有的大多数人工智能模型和方法仍属于窄人工智能,也被称为弱人工智能(weak artificial intelligence)。相对而言,强人工智能(strong artificial intelligence)期望机器能像人一样思考、推理,能处理各种任务,比肩人类的智能水平(human-like or human-level intelligence)。与强人工智能相比,现有通用人工智能更加强调机器的“泛 化”能力,包括场景泛化(即模型从单一场景泛化 至多个场景)、模态泛化(即一个模型适用于多种 模态的任务)、任务泛化(即一个模型可以处理多种类型的任务)等。

通用人工智能目前仍然处于发展初期,是对现有窄/弱人工智能的反思、补充和改进,也是通往强人工智能道路上的重要路线。通用人工智能所研究的是一个智能系统应该具备哪些能力,并且运用这些能力解决各式各样的复杂问题。

通用人工智能的多模态通用技术

现实生活中,人类接收的信息模态多种多样,如视觉、声音、文字、嗅觉、触觉等。人类可以综合运用多种模态的信息对事物进行理解和推理。多模态学习是通用智能需要解决的关键问题之一,其任务可以归结为两个基本类:多模态表征学习和模态转换。需要指出的是,这两个问题并非不相关,比如表征可以用来做模态转换。下面介绍几种典型的多模态学习任务。

多模态表征学习和融合

多模态表征学习指的是学习包含多个模态的样本表征,比如视频里可能包含的视觉信息、声音信息等,使得表征能够反映所包含的多个模态信息,以帮助理解识别等任务。最直接的方法是分别处理各个模态,得到每个模态的表征,再将其直接拼接起来作为最后的表征;也可以最终只产生一个表征,把不同模态的表征融合成一个表征;也可以继续把融合的表征做进一步处理,以生成更强的表征;还可以在产生表征的过程中,不停地进行模态之间的信息交互或者融合,以增强每个模态的表征。

多模态协同学习

多模态协同学习指的是利用模态之间的关联,借助其他一个或者多个模态,来帮助某一模态或者多个模态建模和学习。模态之间的关联信息非常常见,比如人在说话的时候,既有声音模态,也有视觉(唇语)模态,如人脸表情或者行为动作;比如互联网上的图片,通常有文件名等;比如在视频中,视频帧可能有相应的声音(语音或者音乐),也可能有文字脚本。人类对单一模态的理解,也是通过联合其他模态信息进行分析的。多模态协同学习的要领在于把关联转换成合适的约束,以及从各个模态获取合适的信息形成约束。例如图像和文本(比如图像及其文件名)有一一对应关系。

借助于物体的属性描述来帮助图像识别建模,在某种意义上也是多模态协同学习。例如,对狗的识别,我们都清楚地了解狗是由哪些部分组成的,具有怎样的属性特征,比如它有4条腿、尾巴、毛发等。但是在目前主流的物体识别中,这种信息没有被加进去,“狗”只是作为一个标签。而人类从图像里识别狗的时候,头脑中有很多狗的图像认知信息,同时也从别的渠道获得狗的其他知识,如组成方式等。所以,建模时需要把关于狗的额外知识信息加进去,来提升建模识别性能,也会提升模型的鲁棒性。

多模态统一表征学习

多模态统一表征学习指的是把不同模态映射到 同一个特征空间,使得不同模态在这个特征空间里可以直接比较(比如欧氏距离),比较的时候不用 区分特征来自什么模态。多模态任务可以是把一幅图片转变成一段文字或者一首诗,或者将文字转化成一幅图像;以及在文字、图片或者视频搜索中,如果图像和文本的特征都转换到同一个空间中,那我们就可以进行统一的搜索,而不再区分不同的模态。

人类具有在不同模态之间快速映射的能力,比如看到一个场景,我们的头脑会快速“搜索”到应景的一首歌、一段文字或者一首诗。多模态统一表示是vwin 人类这个能力的一种实现方法。多模态统一表征问题的主要研究点在于如何定义关系保持和寻找合适的映射,以及对大规模数据和实际问题的探索。目前已经有了实际系统的探索,如“小冰写诗”。


责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238214
  • 通用技术
    +关注

    关注

    0

    文章

    7

    浏览量

    7222
收藏 人收藏

    评论

    相关推荐

    亥步模态医疗大模型发布:人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,一款名为“亥步”的模态医疗大模型的正式发布。
    的头像 发表于 12-19 17:56 85次阅读

    九四智能荣耀跻身智推力2024 年度广东人工智能风云榜

    启航”,旨在探讨通用人工智能技术的最新进展,以及其在各行各业中的广泛应用和深远影响。 九四智能(94AI)作为国内领先的人工智能科技企业,凭借其在通用人工智能领域的卓越贡献,受邀出席此
    的头像 发表于 10-24 16:16 262次阅读
    九四<b class='flag-5'>智能</b>荣耀跻身智推力2024 年度广东<b class='flag-5'>人工智能</b>风云榜

    云知声山海模态大模型UniGPT-mMed登顶MMMU测评榜首

    近日,模态人工智能模型基准评测集MMMU更新榜单,云知声山海模态大模型UniGPT-mMed以通用
    的头像 发表于 10-12 14:09 281次阅读
    云知声山海<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型UniGPT-mMed登顶MMMU测评榜首

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Met
    的头像 发表于 09-27 11:44 398次阅读

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    阿丘科技成功入选“北京市通用人工智能产业创新伙伴计划”,AI+工业视觉实力再获肯定

    近日,“2024全球数字经济大会人工智能专题论坛”在北京召开,论坛发布“北京市通用人工智能产业创新伙伴计划(第三批)”名单。阿丘科技凭借其多年在人工智能+机器视觉领域的技术积累和落地案
    的头像 发表于 07-16 08:25 463次阅读
    阿丘科技成功入选“北京市<b class='flag-5'>通用人工智能</b>产业创新伙伴计划”,AI+工业视觉实力再获肯定

    千方科技成功入选“北京市通用人工智能产业创新伙伴计划”

    日前,“2024全球数字经济大会人工智能专题论坛”在京举办,会上正式发布了新一批“北京市通用人工智能产业创新伙伴计划”成员名单(以下简称“伙伴计划”)。千方科技凭借在交通、物联、城市治理等关键场景中
    的头像 发表于 07-09 09:26 565次阅读
    千方科技成功入选“北京市<b class='flag-5'>通用人工智能</b>产业创新伙伴计划”

    专注为通用人工智能算力底座筑基,燧原科技连续五年参加世界人工智能大会

    大会(WAIC 2024)正式开幕。致力于为通用人工智能打造算力底座的燧原科技以 “芯火燎原”为主题,连续第五年参会。 大会期间,燧原科技不仅在展台现场(H2馆C109)展示了智算中心落地案例和里程碑系列产品,还为与会者带来了基于燧原算力的
    的头像 发表于 07-05 08:16 738次阅读
    专注为<b class='flag-5'>通用人工智能</b>算力底座筑基,燧原科技连续五年参加世界<b class='flag-5'>人工智能</b>大会

    软通动力入选“北京市通用人工智能产业创新伙伴计划(第三批)”

    人工智能领域的深厚积累和创新突破,荣获"模型伙伴"称号。   "北京市通用人工智能产业创新伙伴计划"由北京市经济和信息化局、北京市科学技术委员会、中关村科技园区管理委员会、北京市发展和改革委员会共同发起,聚焦于"高质量数据供给、
    的头像 发表于 07-04 04:57 418次阅读
    软通动力入选“北京市<b class='flag-5'>通用人工智能</b>产业创新伙伴计划(第三批)”

    大模型应用之路:从提示词到通用人工智能(AGI)

    铺平道路。 基于AI大模型的推理功能,结合了RAG(检索增强生成)、智能体(Agent)、知识库、向量数据库、知识图谱等先进技术,我们向实现真正的AGI(通用人工智能)迈出了重要步伐。 为了方便大家理解,将AI大模型视作类比人类
    的头像 发表于 06-14 10:20 2178次阅读
    大模型应用之路:从提示词到<b class='flag-5'>通用人工智能</b>(AGI)

    IOTE物联网展与AGIC通用人工智能展将在深携手举办

    之间的互联互通,实现数据的实时收集与传输,创造出更多推动社会进步和改善生活的应用。 人工智能是新一轮科技革命和产业变革的重要驱动力量。特别是ChatGPT推出以来,以大模型、生成式AI为代表的通用人工智能技术在全球掀起浪潮,国家层面也制定实施人
    的头像 发表于 06-06 09:40 364次阅读
    IOTE物联网展与AGIC<b class='flag-5'>通用人工智能</b>展将在深携手举办

    人大系初创公司智子引擎发布全新模态大模型Awaker 1.0

    人大系初创公司智子引擎近日震撼发布了新一代模态大模型Awaker 1.0,这一里程碑式的成果标志着公司在通用人工智能(AGI)领域取得了重要突破。与前代ChatImg序列模型相比,Awaker 1.0凭借其独特的MOE架构和业
    的头像 发表于 05-06 09:59 597次阅读

    洪亮团队在生信期刊JCIM发布最新成果,蛋白质工程迈入通用人工智能时代

    发表最新研究成果:“基于微环境感知图神经网络构建指导蛋白质定向进化的通用人工智能”(Protein Engineering with Lightweight Graph Denoising Neural
    的头像 发表于 04-19 17:42 565次阅读
    洪亮团队在生信期刊JCIM发布最新成果,蛋白质工程迈入<b class='flag-5'>通用人工智能</b>时代

    百川智能与北京大学将共建通用人工智能联合实验室

    近日,百川智能与北京大学携手合作,共同签署了“北大——百川通用人工智能联合实验室”的共建协议,标志着双方在人工智能领域迈出了坚实的合作步伐。
    的头像 发表于 03-21 11:45 898次阅读

    aigc是什么意思和人工智能有什么区别

    AIGC是人工智能通用计算平台(Artificial Intelligence General Computing)的缩写,它是一种集成了人工智能技术通用计算能力的平台。与传统的
    的头像 发表于 01-11 09:49 1w次阅读