注册 | 登录 | 举报
  • 首 页
  • 公告沙龙
    • 公告中心
    • 活动沙龙
  • 课程学习
  • 项目交流
    • 项目招募
    • 问答中心
  • 信息展示
    • 项目展示
    • 往年项目展示
    • 校内导师
    • 校外导师
  • 使用指南
    • 文件下载
    • 常见问题

举报该页有违规/非法信息


  • 最新

零样本语言模型生成文本检测方法研究

 国际学院

Zero-Shot Detection of LLM -Generated Text

随着大型语言模型(LLMs)在自然语言生成任务中的飞速进展,生成文本的质量已经接近甚至难以与人类撰写的文本区分。尽管这一技术突破为多个应用领域带来了便利,但也引发了广泛的担忧,尤其是在虚假信息传播和网络钓鱼等潜在滥用场景中。因此,开发一种高效且准确的生成文本检测方法,成为当务之急。 项目调研了国内外现有的生成文本检测方法,发现大多数方法依赖于监督学习,需通过大量标注数据来训练模型以区分人类文本和生成文本。然而,这些方法往往容易在特定训练数据上过拟合,导致在跨领域或陌生文本场景中的表现不佳。面对生成文本的多样性和复杂性,尤其是在训练数据有限或输入文本变化频繁的情况下,现有检测方法的效果大幅下降,无法有效应对各种复杂的文本场景。 为解决这一问题,本项目提出了一种基于词元凝聚性(Token Cohesiveness)的零样本检测方法。通过分析LLM生成文本与人类文本在词元凝聚性上的统计差异,打破了对人工标注数据的依赖。这种方法避免了训练数据不足或过拟合问题。同时,这样基于词元关联性特征的检测方法,不仅提升了检测的准确性和泛化能力,还增强了系统在不同领域和复杂文本场景下的鲁棒性,特别是在海量生成文本的环境中,展现出其创新性和高效性。

项目信息

  • 项目动态
  • 项目相关人员
  • 项目荣誉
  • 留言

项目负责人

徐艺侨2021级 国际学院 物联网工程

指导老师

王泉计算机学院(国家示范性软件学院) 其他

暂无留言
该项目暂无荣誉
邮箱:buptwin@bupt.edu.cn;传真:010-62285134;电话:010-62281946;地址:北京邮电大学教一楼323; 邮编:100876
北京邮电大学叶培大创新创业学院 © Copyright 2017
Baidu
map