然后又朝距离最近的第二枚的位置刨去文字转WAV音频