语音

index-tts bilibili 开源文本转语音.

ClearerVoice-Studio 阿里音频处理模型.

Spark-TTS 文本转语音, 声音多种语言克隆.

r1-aqa 小米音频问答模型.

YuE 开源音乐生成模型.

Zonos 文本转语音, 情绪控制.

InspireMusic 音乐, 歌曲, 音频生成框架.

Step-Audio 语音交互, 文本转语音, 克隆声音.

csm 语音生成新领域, 会话语音生成, 根据会话变化情绪, 只支持英文.

DiffRhythm 开源快速音乐, 歌曲生成.

NotaGen 大模型音乐谱曲, 生成曲谱.

Orpheus-TTS 文本转语音生成, 克隆声音.

Qwen2-Audio 阿里语音对话模型.

InternVL 接近 GPT-4o 表现的开源多模态对话模型

whisper 语音识别.

seed-vc 零样本声音转换, 歌唱.

AudioX 语音生成.

MegaTTS3 声音克隆.

OuteTTS 声音克隆, 情绪控制.

nari-labs/dia 一次克隆生成超真实会话语音模型.

MoonshotAI/Kimi-Audio Kimi 音频理解, 生成, 转换模型.

ACE-Step: 音乐生成基础模型, 高质量, 快速生成音乐, 编辑, 扩展等.

TechSinger: 多语言歌唱声音合成

maitrix-org/Voila: 实时语音模型

MYZY-AI/Muyan-TTS: 高效 TTS, 声音克隆

ASLP-lab/SongEval: 歌曲美学评分工具包

TEN-framework/ten-vad: 低延迟, 轻量高性能语音活动检测

resemble-ai/chatterbox: TTS

playht/PlayDiffusion: 音频局部修改