none.gif

徒悲叹

gpt sovit的稳定性怎么增强

体验了下 有些句子效果很好 有些又很差 同一次输入的两行相同的文段都能得到两种截然不同的语气和语速 原本是打算拿套路直播上的红绿灯用whisper转为文本 然后找个足交视频搭配音效来着 但是四句里面就有一两句用不了很尴尬,,,总不能一句一句剪切在一起吧

none.gif

徒悲叹

顺便问问大家 做ai语音的文本一般怎么来的啊 小说或者claude扮演一般都有旁白 还不是单纯的对话

none.gif

徒悲叹

顶一下

856940.jpg

梼杌

B3F  2024-04-16 15:16
(法乎其上,得乎其中。法乎其中,仅得其下。)
一般来说如果你想得到稳定的情感倾向或者语气倾向,你的训练素材就得专门找相关的材料,比方说愤怒的,高兴的,舒缓的,而且本地部署的小模型上限是挺容易摸到的。所以如果有更高的要求估计也比较难满足

none.gif

1c3d19a6

gpt sovits就是有随机幸运的,要抽卡,还真就是只能一句一句剪,不怕棒读的话你可以用bert vits