0%

近3年多模态相关论文列表 (2018-2020)

key word 关键字

  • multi-modal or multimodal
  • cross-domain or cross-modal
  • multi-view
  • Multivariate
  • Generative model
  • Collaborative

多模态应用场景

研究方向 应用场景 解释
跨模态的生成模型 机器翻译 (text-to-text)、 图像、文本、语音等多模态数据相互转换生成
多模态人脸反欺诈
动态手势识别
视觉理解 VQA,textVQA Object Referring,给定查询语句,在图像或者视频中找到对应信息
跨模态检索 以图搜图、语音(语言)搜图 大多基于hash算法做检索
多模态关系推理
视觉语言导航 (Visual Language Navigation,VLN) 智能机器人 属于强化学习:用自然语言(NLP)指令让智能体(agent)在真实环境中导航
多模态融合架构搜索 (NAS) 在所有可能的融合架构空间中,找到最适合特定数据集性能的架构
基本任务:预测、分类、聚类等 轨迹预测,行人识别
视觉问答(VQA) 智能机器人
即时字幕
Read more »