编辑: 麒麟兔爷 | 2018-06-17 |
nsysu.edu.tw, [email protected] 摘摘摘要 要要在本研究中,我们提出并实做一个串接式声音合成系统,合成的标的物件是连续变 化转速之引擎声音.我们提供一个绘图的介面让使用者画出连续变化的引擎转速曲线 作为系统的输入,然后输出对应的引擎噪音.采用绘图的方式,不仅能让输入更有弹 性,也能减少输入所需要的时间.主观测试的实验结果显示,合成出来的声音在自然 度的测试上以及和原始引擎声的相似度比较上有良好的表现.本论文所提出的方法, 可以推广到其他物理产生过程机制清楚简单的声音物件.此外,也可以应用到虚拟实 境训练或游戏等等. 关关关键 键 键词 词词: : : 声音物件合成、串接合成方法、引擎噪音合成、虚拟实境 Abstract In this study, we propose and implement a concatenation-based audio signal synthesis sys- tem for the engine noises of continuously varying speed. A user simply draws the engine speed curve through an interface, and the corresponding audio signal is synthesized as output. This drawable interface makes the input function ?exible and reduces the input time. The imple- mented system was evaluated with subjective tests. Overall, the performance was good regard- ing quality and similarity. The proposed method can be feasibly applied to the synthesis of any sound objects which are produced with a clear and simple physical process. Furthermore, the technology can be integrated to virtual reality, such as in training and gaming applications. keywords: audio object synthesis, concatenation synthesis method, engine noise synthesis, virtual reality
1 Proceedings of the Twenty-Fourth Conference on Computational Linguistics and Speech Processing (ROCLING 2012)
356 一一
一、 、 、绪绪绪论 论论(一 一一)、 、 、研研研究 究 究背 背 背景 景景、 、 、动动动机 机机声音合成技术在人机介面里扮演著重要的角色,目的是将声音用人为的方式产生, 其中串接式合成方式为主要的合成技术之一.此合成方法是从录制的声音中找出所需 的合成单元,接著再做一些韵律方面的处理,之后将声音单元串接.通常使用此方法 得到的声音自然度和品质都相当不错.在虚拟实境(Virtual Reality, VR)的机车引擎声或 是坊间的赛车游戏,往往用到的引擎声都是预先录制好的 [1],这些录制好的音档, 虽然品质较佳,但在录制时往往需要大量的时间和人力,且缺乏弹性.因此在这里提 出一个手动绘图的合成方式,来简化输入合成资讯的步骤,以四行程档车的引擎声为 例,利用最短时间和最少资源,来合成上述应用程式所需要的音档. (二二二)、 、 、相相相关 关 关研 研 研究 究究
1、 、 、声声声音 音 音合 合 合成 成成在声音合成技术里,基周同步叠加法(Pitch Synchronous Overlap Add, PSOLA) [2]为串接 式合成常用的调整动作.此方法先将波形分解成许多的基本波形,再将基本波形叠加 以得到合成的声音波形.关於基本频率和音长的调整,可利用基本波形的重叠间隔和 数目来达到,为现在常见的合成方法之一.但此方法的缺点为,在相邻的合成单元的 串接边界上,若建立合成单元库时采用自动作切割的话,可能会造成共振峰轨迹衔接 不平顺,降低合成声音的流畅度. 除了PSOLA 的方式之外,还有语料库为主(Corpus-based)的合成方式 [3].其方法为 先录制大量的语料,然后在合成时根菟惴ù有矶嗪蜓〉ピ醒〕鲆蛔榛崛煤铣梢 最为自然的组合.由於合成单元的选择法并不会对录制的语音作太多的信号处理动 作,此外可供候选的合成单元数目很多,使得语音单元间的不连续被降低很多,因此 合成音的自然度上是相当不错的.在本文,我们简化串接式语料库为主的合成方式, 改以引擎声音来当作合成单元,因此可以原音重现,具有极佳的合成音质,进而合成 出特定围的引擎声.近年来,上述串接合成方式已应用在不少系统中且都有不错的 表现,如微软亚洲公司之木兰(MULAN)系统 [4]和讯飞中文语音系统.