所以他们会把时间稍微往后推一些文字转WAV音频