Hello World
Posted on
Edited on
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
多模态论文集
近3年多模态相关论文列表 (2018-2020)
key word 关键字
- multi-modal or multimodal
- cross-domain or cross-modal
- multi-view
- Multivariate
- Generative model
- Collaborative
多模态应用场景
研究方向 | 应用场景 | 解释 |
---|---|---|
跨模态的生成模型 | 机器翻译 (text-to-text)、 | 图像、文本、语音等多模态数据相互转换生成 |
多模态人脸反欺诈 | ||
动态手势识别 | ||
视觉理解 | VQA,textVQA | 即Object Referring,给定查询语句,在图像或者视频中找到对应信息 |
跨模态检索 | 以图搜图、语音(语言)搜图 | 大多基于hash算法做检索 |
多模态关系推理 | ||
视觉语言导航 (Visual Language Navigation,VLN) | 智能机器人 | 属于强化学习:用自然语言(NLP)指令让智能体(agent)在真实环境中导航 |
多模态融合架构搜索 (NAS) | 在所有可能的融合架构空间中,找到最适合特定数据集性能的架构 | |
基本任务:预测、分类、聚类等 | 轨迹预测,行人识别 | |
视觉问答(VQA) | 智能机器人 | |
即时字幕 |