语音
index-tts bilibili 开源文本转语音.
ClearerVoice-Studio 阿里音频处理模型.
Spark-TTS 文本转语音, 声音多种语言克隆.
r1-aqa 小米音频问答模型.
YuE 开源音乐生成模型.
Zonos 文本转语音, 情绪控制.
InspireMusic 音乐, 歌曲, 音频生成框架.
Step-Audio 语音交互, 文本转语音, 克隆声音.
csm 语音生成新领域, 会话语音生成, 根据会话变化情绪, 只支持英文.
DiffRhythm 开源快速音乐, 歌曲生成.
NotaGen 大模型音乐谱曲, 生成曲谱.
Orpheus-TTS 文本转语音生成, 克隆声音.
Qwen2-Audio 阿里语音对话模型.
InternVL 接近 GPT-4o 表现的开源多模态对话模型