语音

index-tts bilibili 开源文本转语音.

ClearerVoice-Studio 阿里音频处理模型.

Spark-TTS 文本转语音, 声音多种语言克隆.

r1-aqa 小米音频问答模型.

YuE 开源音乐生成模型.

Zonos 文本转语音, 情绪控制.

InspireMusic 音乐, 歌曲, 音频生成框架.

Step-Audio 语音交互, 文本转语音, 克隆声音.

csm 语音生成新领域, 会话语音生成, 根据会话变化情绪, 只支持英文.

DiffRhythm 开源快速音乐, 歌曲生成.

NotaGen 大模型音乐谱曲, 生成曲谱.

Orpheus-TTS 文本转语音生成, 克隆声音.

Qwen2-Audio 阿里语音对话模型.

InternVL 接近 GPT-4o 表现的开源多模态对话模型