写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005509

评论

发布
暂无评论
发现更多内容

SQL Server 多表数据增量获取和发布 2.1

happlyfox

28天写作 3月日更

加快布局区块链技术发展,助力网络强国建设

CECBC

区块链

(28DW-S8-Day10) T型学习模式:迁移式学习

mtfelix

T型人才 28天写作 迁移学习 一万小时定律

手写一个LRU缓存淘汰算法

Simon郎

Java 大数据 缓存 LRU 数据结构与算法

Docker 常用命令,还有谁不会?

xcbeyond

Docker 常用命令 28天写作

产品经理训练营 - 第四章作业 (二)

joelhy

产品经理训练营

前端上手Docker超详细基础教程

1024肥宅

Docker Linux 大前端 jenkins CI/CD

真实字节二面:什么是伪共享?

艾小仙

Java 程序员 字节跳动 面试

想做技术自媒体实现财富自由?先看看广告报价吧,无编码学爬虫之二。

梦想橡皮擦

Python 28天写作 2月春节不断更 3月日更

谁才是一级方程式赛车中的最强车手?

亚马逊云科技 (Amazon Web Services)

Kubelet从入门到放弃:拓扑管理(上)

DCOS

Linux Kubernetes 云原生 kubelet

一篇读懂https的本质、证书验证过程以及数据加密

梁龙先森

大前端 https

面试系列二:精选大数据面试真题JVM专项-附答案详细解析

五分钟学大数据

大数据 28天写作 3月日更

星环科技Sophon Edge边缘计算平台持续赋能千家万业

星环科技

这个新春,你的云端安全守卫来咯 | 新服务上线

亚马逊云科技 (Amazon Web Services)

VR,正在上演一出“风月宝鉴”

脑极体

如果重来,结果就会好吗?「Day 10」

道伟

28天写作

代码从业者

ES_her0

28天写作 3月日更

大厂动态规划面试汇总,教你如何修炼内功

盼盼编程

算法 动态规划 数据结构和算法 笔试

产品经理训练营作业 04

KingSwim

环信大学 | 构建一套适合微服务的高可用架构

DT极客

javascript中的内存管理

程序那些事

JavaScript nodejs 内存管理 程序那些事

java学习笔记(一)

陈皮

Java

敏捷, 是一种信仰

boshi

敏捷 七日更 28天写作

dubbo 源码 v2.7 分析:核心机制(一)

程序员架构进阶

架构 源码分析 dubbo 七日更 28天写作

关于搜商的一点记录「Day 9」

道伟

28天写作

数据库周刊59丨GaussDB(for openGauss)开放商用;人大金仓保障冬奥会演练顺利完成;MDL锁导致的MySQL问题分析;PG日志使用手册;达梦表空间查询;数据库笔试题面试题集……

墨天轮

MySQL 数据库 程序员 运维 postgre

打破垄断 上海发布自主研发树图区块链重大成果

CECBC

区块链

2021年美团/字节跳动/腾讯面经总结:互联网工程师必备的面试1000题

比伯

Java 编程 程序员 架构 面试

「产品经理训练营」作业 05:知识星球加入星球流程图

狷介

产品经理训练营

翻译:《实用的Python编程》03_02_More_functions

codists

Python

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章
OSZAR »