注册 | 登录 | 举报
  • 首 页
  • 公告沙龙
    • 公告中心
    • 活动沙龙
  • 课程学习
  • 项目交流
    • 项目招募
    • 问答中心
  • 信息展示
    • 项目展示
    • 往年项目展示
    • 校内导师
    • 校外导师
  • 使用指南
    • 文件下载
    • 常见问题

举报该页有违规/非法信息


  • 最新

基于大模型的多模态视频理解

 国际学院

Multi-modal Video Understanding With Large Language Models

本项目旨在开发一个基于多模态模型的视频异常事件检测平台,整合视觉、音频和文本信息,实现对视频异常事件的高效检测和准确理解。核心技术包括全球首个视频异常因果理解基准CUVA,涵盖1000个视频的高质量注释和10个主要异常类型及42个子类型。此外,项目提出了一种全新的基于prompt方法的多模态大模型A-Guardian,通过硬提示和软提示结合的方式进行推理,解释异常事件因果关系。同时,我们还引入了多模态信息评估指标MMEval,与人类理解偏好高度一致。实验表明,A-Guardian平台能够使异常事件理解性能提升15%以上,显著增强了视频异常检测的准确性和可靠性。项目团队已发表多篇高水平论文并获得专利,成果在人工智能领域的重要会议上得到了广泛认可。

项目分数

项目信息

  • 项目动态
  • 项目相关人员
  • 项目荣誉
  • 留言

项目负责人

李佳奕2022级 国际学院 电信工程及管理

项目成员

唐宁阳2023级 国际学院 电信工程及管理

郭从宇2023级 国际学院 电信工程及管理

秦保华2022级 国际学院 电信工程及管理

肖旺2023级 国际学院 物联网工程

指导老师

雷敏网络空间安全学院 副教授

暂无留言
该项目暂无荣誉
邮箱:buptwin@bupt.edu.cn;传真:010-62285134;电话:010-62281946;地址:北京邮电大学教一楼323; 邮编:100876
北京邮电大学叶培大创新创业学院 © Copyright 2017
Baidu
map