M + E日常

点击2023:AppTek吹捧全自动AI配音的优点

人工智能(AI)和机器学习(ML)公司AppTek突出的优势视频内容制造商使用全自动AI配音5月23日在好莱坞创新和转型峰会(点击)斑鸠剧院,在会话期间“自动配音好莱坞。”

演示了一个示范的speaker-adaptive AI配音跨多个自动保留演讲者的语言特征和时间的原始应用于目标语言时扬声器。

公司提供了一个看看引擎盖下面的技术是如何工作的,质量层内可用的类型自动配音以及如何将它们应用在媒体档案,以及展望未来会发生什么,不要指望什么,从技术。

AppTek专门从事人工智能和ML人类语言技术,凯尔Maddock,高级副总裁,销售和营销AppTek,指出在会话的开始。

“这是自动语音识别、机器翻译、自然语言理解、和语音合成技术,”他说。

“那是什么意思自动配音?传统上,当你想到配音,这与嘴唇动作和计算机视觉任务,我们已经见过这样做,”他告诉与会者。

“我们真正要讲re-voicing:从一个源语言到目标语言的同时保持相同的扬声器声音和stylisation,”他说。

他提供了一个展示全自动配音持续大约两分钟,告诉观众看,“听两个不同的扬声器和注意他们的声音变化和时间跟她们住在一起。”

然后他演示了技术实现成一个自动工作流时,使用从经典电影剪辑卡萨布兰卡这部电影,从原来的英语翻译成德语。他把它一步一步来展示这个过程是如何工作的,从水中原始二十五秒片段开始,然后使用语音分离。

“语音分离三个组件服务,”他说,解释说:“首先,通过孤立的演讲,我们可以输入到自动语音识别和获得更高精度的输出。接下来是我们能够隔离演讲者的声音在后面的步骤中,然后再申请。第三个是我们可以保留所有的背景元素:音乐、狗叫声,一切,保留背景音频,然后覆盖“新演讲最重要的是。

下一步开始自动语音识别。“我们将语音转换成文本和时间轴[和]我们把个别标点符号,”他说。有一个演讲者变化和“我们所能做的是两个不同的扬声器,然后我们穿过它,我们标签他们。”

下一步是机器翻译,因为当你想到翻译,它有一个黑盒在某种意义上,”他说,并指出“它并不真正理解现实世界的很多上下文。“例如,如果它是西班牙语口语,它是欧洲西班牙语或西班牙语使用的拉丁美洲的国家之一?这个演示,AppTek走“德国语言的非正式风格”,因为电影中的人物来说知道彼此,他说。

场景中的对话的一部分是漫长的,如果AppTek使用实际的文本,“我不得不紧缩的东西,迅速推起来,增加率和说话听起来很不自然,”他解释道。“所以我们合并叫做等距机器翻译,”他说,并补充道:“我们要做的是看看原来的句子…[和]我们算一个字符长度。我们要做的是产生更适合的翻译”,我们可以“现在保持非常自然流向演讲。”

下演示的自适应语音合成中“我们火车大约一千个不同的人,”,“在男性、女性和所有这些不同的说话风格,你会得到一个编译模型,编制模型,所有我需要的是一个两向量从源语言,然后我可以申请到目标语言和声音一样,”他解释道。

他补充道:“你的声音会通过相同类型的过程。”

AppTek接着,“我们把这些片段;我们重新应用所有这些个人的声音在时间限制[和]现在我们的下一步是演讲,时机和位置。”

然后他开始解释质量层次,指出这是“思考的东西当你将这个纳入不同的工作流:什么是不同级别的质量我们可以期待?“diy模型后,四个AppTek层,在附加功能被添加到提高产品质量。唯一在更高的层会在工作室专业配音演员使用专业的声音。

接下来,Volker Steinbiss博士,董事总经理AppTek GmbH,邀请每个人“兴奋但适度兴奋…和兴奋的几年,因为这是一个过程,”他承认,并补充道:“这是一种旅程,我们必须做一些事情”。

他警告Gartner的炒作,他说:“通常从技术开始触发,你听到从技术的一次会议上说,“哦天啊,你知道,基本上解决了我的一些最大的问题,对吧?然后开始与你的同事交谈,然后你读它在媒体上”,问别人是否听说过它。”,每个人都激动,这是一个积极的反馈,对吧?一段时间后,大家都很兴奋,兴奋不相关的现实了。有些人发现并说,‘噢,实际上是不太好。你知道,这并不能解决我们所有的问题,我们必须做点什么。”

然后每个人都“很恼火…[和]你下到这个幻想破灭,”他接着说。但“你也忽略了炒作,但你忽略这个挫折,”他说。“你做了你的家庭作业。例如,关于自动配音:你的人训练,确保你得到的数据训练机器学习…。你做的基本上所有的事情都是正确的。你启蒙的斜率,然后,过了一会儿,你基本上达到高原的生产力和研究人员说,“你知道,这不是有趣的了。只是无聊的东西工作。”

他补充说:“技术并不关心你的想法。它只是变得更好,它忽略了它是如何看待。“那么它穿过一条线的技术好,”人们开始谈论它,感到兴奋,当它穿过第二行,真的,很好的和改善,这不是那么重要了,”他说。

当AppTek首次展示了这种技术,大约一年前在伦敦,“每个人都在谈论它…。这是超级技术。”

但他说:“不要被愚弄。我们必须做一些作业。”

好莱坞的创新和转型峰会事件是由台面与好莱坞这社会(点击)和亚马逊工作室提供的技术,与赞助,Fortinet Genpact,主要关注技术,Signiant, Softtek,收敛,Gracenote,奥特曼梭伦,AppTek, Ascendion, CoreSite, EPAM, MicroStrategy, Veritone CDSA, PDG EIDR和咨询。

Baidu
map