注册 | 登录 | 举报
  • 首 页
  • 公告沙龙
    • 公告中心
    • 活动沙龙
  • 课程学习
  • 项目交流
    • 项目招募
    • 问答中心
  • 信息展示
    • 项目展示
    • 往年项目展示
    • 校内导师
    • 校外导师
  • 使用指南
    • 文件下载
    • 常见问题

举报该页有违规/非法信息


  • 最新

基于图神经网络的视频问答技术研究

 计算机学院(国家示范性软件学院)

Video QA based on graph neural network

在如今这个信息互通互联的互联网时代,网络上的数据每日都在以指数级增长。尤其随着短视频社交潮流的到来,每天都有数以亿计的短视频APP用户观看、分享和传播大量的短视频数据。在此以外,传统视频点播网站依然保持着大量的活跃用户。面对如此包罗万象且数量庞大的视频数据,无论是对于想要从中寻找到有用信息的人,还是从事相关工作的人来说,如果使用人工的方式来搜索视频中的信息,无疑将消耗人们大量的时间与精力,并且搜索的准确性也无法得到保证。此外,如何精准地推送给用户其最感兴趣的视频也是当下函需解决的任务。因此,研究如何使计算机能够理解视频数据具有重要的现实意义。 为了评估计算机是否理解了视频内容,视频问答( Video Question Answering, VideoQA)任务被相应地提出并得到了学术界与工业界的广泛关注。由于在视频数据中包含了图像、音频和文本等多种模态的信息,相较于同为问答任务的视觉问答(Visual Question Answering, VisualQA)与文本问答(Textual Question Answering),视频问答对其算法具有更高的要求。需要算法能够有效地融合多种模态之间的信息来获得问题的答案。此外,在视频中也包含了额外的时间属性,需要模型能够建模其中的时序关系。 目前的视频问答模型解决了不同模态语义信息间的交互问题,但仍存在以下不足: (1)使用卷积神经网络和循环神经网络对视频中的时空信息建模时,得到的时序特征不能表示不同视频帧之间的关联; (2)当视频中包含多个运动的物体时,目前方法无法有针对性的提取每个物体的动态信息,并且易受到视频中粗粒度信息的干扰; 由于图神经网络具有强大的关系推理能力,本项目希望探寻将其应用于视觉问答模型的方案,以解决以上这些问题和不足。

项目分数

项目信息

  • 项目动态
  • 项目相关人员
  • 项目荣誉
  • 留言

项目负责人

毕弘喆2020级 人工智能学院

指导老师

白婷计算机学院(国家示范性软件学院) 讲师

评审老师

方维计算机学院(国家示范性软件学院) 副教授

李璐璐计算机学院(国家示范性软件学院) 工程师

杨娟计算机学院(国家示范性软件学院) 副教授

暂无留言
该项目暂无荣誉
邮箱:buptwin@bupt.edu.cn;传真:010-62285134;电话:010-62281946;地址:北京邮电大学教一楼323; 邮编:100876
北京邮电大学叶培大创新创业学院 © Copyright 2017
Baidu
map