您的位置：首页>科技 >内容

IBM的AI执行最先进的广播新闻字幕

2021-12-10 12:01:57来源：

导读两年前，IBM研究人员声称，通过在两个公共语音识别数据集上训练的机器学习系统，他们拥有最先进的转录性能，这比看起来更令人印象深刻。人

两年前，IBM研究人员声称，通过在两个公共语音识别数据集上训练的机器学习系统，他们拥有最先进的转录性能，这比看起来更令人印象深刻。人工智能系统不仅要应对训练库中失真的音频剪辑，还要应对一系列风格、重叠的演讲、中断、重启和参与者之间的交流。

为了追求更强大的系统，位于纽约Armonk的公司的研究人员最近设计了一个详细的架构(“面向人和机器的英语广播新闻的语音识别”)，该架构将在国际声学会议上发布。本周在布莱顿的语音和信号处理。他们表示，在初步实验中，它在播放新闻字幕的任务中取得了行业领先的成果。

做到这一点并不容易。该系统带来了一系列挑战，如背景噪音很大的音频信号和讲述各种新闻话题的主持人。培训语料库中的演讲虽然大部分内容清晰，但包含现场采访、电视节目剪辑等多媒体内容的素材。

正如IBM研究员Samuel Thomas在他的博文中解释的那样，人工智能使用了长期短期记忆(LSTM)，一种可以学习长期依赖的算法，声学神经网络语言模型和互补语言模型的组合。声学模型由多达25层节点(模拟生物神经元的数学函数)组成，这些节点在语音频谱或信号频谱的视觉表示上进行训练，而六层LSTM网络学习一组“丰富”的声学特征来增强语言建模。

在为整个系统提供1300小时的广播新闻数据后，研究人员将AI放入包含两小时数据的测试集中，这是一个支持语言相关教育、研究和技术开发的国际非营利组织。显示了近100个重叠的扬声器。(第二个测试集包含来自12个节目和大约230个重叠扬声器的4小时广播新闻数据。)该团队与语音和搜索技术公司阿彭合作，测量语音识别任务的识别错误率，并报告称，该系统在第一个测试集中达到了5%，在第二个测试集中达到了9%——比人类的表现稍差，分别为6%和8%。

“[我们的]新成果.是我们所知道的关于这项任务的最低结果，[但是]在这个领域仍然有新技术和改进的空间，”托马斯写道。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：