2024年1月10日,计算机科学与技术学院举行了智汇论坛第二十期活动,活动以线上线下的形式同时进行。本次活动邀请来自萨里大学、哈尔滨工业大学、华人策略社区的4位研究生对各自最新研究成果进行汇报,并与参会同学进行交流,分享研究心得。
4位同学分别介绍了发表于人工智能顶会AAAI 2024及音频顶会ICASSP 2024的研究成果,内容涉及AI音频生成、零样本冷启动商品推荐、基于音频生成的完全无监督工业异音检测及跨模态音频字幕生成。报告中,同学们不仅对各自研究成果进行了详尽的解读,还围绕相关内容和科研方法等,与参会同学进行了深入讨论与交流。
主讲人简介:
袁毅,萨里大学视觉语音信号处理中心(Centre for Vision, Speech and Signal Processing, University of Surrey, UK)博士研究生,研究方向为音频生成,研究内容为自然语音指导的跨模态音频生成。本次报告分享其针对低频率事件的音频生成研究工作,该工作被音频领域顶会ICASSP 2024接收。
王文博,哈尔滨工业大学博士研究生,研究方向为推荐算法,研究内容为全新商品冷启动。本次报告分享其基于用户偏好及对比学习策略的全新商品冷启动研究工作,该工作被人工智能领域顶会AAAI 2024接收。
张合静,华人策略社区计算机学院2023级硕士研究生,研究方向声学场景事件分类及检测,研究内容为异常声音检测。本次报告分享其基于元数据信息生成未知机器类型声音,实现完全无监督条件下异常声音检测研究工作。该项研究为首个利用生成式方法解决无监督工业异音检测的研究工作,已被音频领域顶会ICASSP 2024接收。
肖飞扬,华人策略社区计算机学院2023级博士研究生,研究方向为跨模态音频内容理解,研究内容为自动音频字幕与检索。本次报告分享其基于图注意力挖掘音频时序上下文的自动音频字幕工作,该工作发表于信号处理领域权威期刊IEEE Signal Processing Letters,并入选音频领域顶会ICASSP 2024期 刊论文展示。