他们的目的看似是针对文字转WAV音频