注册 | 登录 | 举报
  • 首 页
  • 公告沙龙
    • 公告中心
    • 活动沙龙
  • 课程学习
  • 项目交流
    • 项目招募
    • 问答中心
  • 信息展示
    • 项目展示
    • 往年项目展示
    • 校内导师
    • 校外导师
  • 使用指南
    • 文件下载
    • 常见问题

举报该页有违规/非法信息


  • 最新

针对基于循环神经网络的音频理解算法的改进

 信息化技术中心

Improvement on Audio Captioning based on Recurrent Neural Network

音频理解(Audio Captioning)任务是算法根据输入的一段音频自动生成对应的描述性文字。 音频处理领域通常与音频理解相关的任务是自动语音识别(ASR)。但与ASR相比,音频字幕有两个主要的区别特征:第一,音频理解任务侧重于音频中的所有声音事件,而ASR只关注语音(语音对于音频理解任务并不是必要的);第二,音频理解是音频包含的声音事件的自动摘要,而ASR直接输出人类语音的文字转录。举例来说,音频理解必须能够生成诸如“一大群鸟飞走”、“木楼梯上的脚步,两个人缓慢接近”和“钟敲了五下”的描述。借助这一技术,能够为听力残障人士提供便利,帮助他们理解周围环境。另一方面,音频理解技术能够和视频理解技术一起,助理智能安防系统以逐渐取代人工监控。 传统的音频理解框架往往是基于RNN的encoder-decoder的结构,这种模型无法很好的解决音频信号长期依赖问题,因此引入了Cosine相似度等技术对原有的模型进行改进和提升。

项目分数

项目信息

  • 项目动态
  • 项目相关人员
  • 项目荣誉
  • 留言

项目负责人

陶译达2019级 国际学院 电子商务及法律

项目成员

金千惠2018级 现代邮政学院(自动化学院) 现代邮政学院

胡小蕙2019级 计算机学院(国家示范性软件学院) 计算机类

周鹏程2020级 国际学院 物联网

张益铭2021级 人工智能学院 信息与通信工程

指导老师

郭凯国际学院 高级工程师

张闯人工智能学院 教授

评审老师

徐国胜网络空间安全学院 讲师

颉夏青网络空间安全学院 工程师

暂无留言
该项目暂无荣誉
邮箱:buptwin@bupt.edu.cn;传真:010-62285134;电话:010-62281946;地址:北京邮电大学教一楼323; 邮编:100876
北京邮电大学叶培大创新创业学院 © Copyright 2017
Baidu
map