也就是说我们要的不是单单的加三成文字转WAV音频