您的位置:首页>科技 >内容

IBM的AI执行最先进的广播新闻字幕

2021-12-10 12:01:57来源:
导读两年前,IBM研究人员声称,通过在两个公共语音识别数据集上训练的机器学习系统,他们拥有最先进的转录性能,这比看起来更令人印象深刻。人

两年前,IBM研究人员声称,通过在两个公共语音识别数据集上训练的机器学习系统,他们拥有最先进的转录性能,这比看起来更令人印象深刻。人工智能系统不仅要应对训练库中失真的音频剪辑,还要应对一系列风格、重叠的演讲、中断、重启和参与者之间的交流。

为了追求更强大的系统,位于纽约Armonk的公司的研究人员最近设计了一个详细的架构(“面向人和机器的英语广播新闻的语音识别”),该架构将在国际声学会议上发布。本周在布莱顿的语音和信号处理。他们表示,在初步实验中,它在播放新闻字幕的任务中取得了行业领先的成果。

做到这一点并不容易。该系统带来了一系列挑战,如背景噪音很大的音频信号和讲述各种新闻话题的主持人。培训语料库中的演讲虽然大部分内容清晰,但包含现场采访、电视节目剪辑等多媒体内容的素材。

正如IBM研究员Samuel Thomas在他的博文中解释的那样,人工智能使用了长期短期记忆(LSTM),一种可以学习长期依赖的算法,声学神经网络语言模型和互补语言模型的组合。声学模型由多达25层节点(模拟生物神经元的数学函数)组成,这些节点在语音频谱或信号频谱的视觉表示上进行训练,而六层LSTM网络学习一组“丰富”的声学特征来增强语言建模。

在为整个系统提供1300小时的广播新闻数据后,研究人员将AI放入包含两小时数据的测试集中,这是一个支持语言相关教育、研究和技术开发的国际非营利组织。显示了近100个重叠的扬声器。(第二个测试集包含来自12个节目和大约230个重叠扬声器的4小时广播新闻数据。)该团队与语音和搜索技术公司阿彭合作,测量语音识别任务的识别错误率,并报告称,该系统在第一个测试集中达到了5%,在第二个测试集中达到了9%——比人类的表现稍差,分别为6%和8%。

“[我们的]新成果.是我们所知道的关于这项任务的最低结果,[但是]在这个领域仍然有新技术和改进的空间,”托马斯写道。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章