语音
index-tts bilibili 开源文本转语音.
ClearerVoice-Studio 阿里音频处理模型.
Spark-TTS 文本转语音, 声音多种语言克隆.
r1-aqa 小米音频问答模型.
YuE 开源音乐生成模型.
Zonos 文本转语音, 情绪控制.
InspireMusic 音乐, 歌曲, 音频生成框架.
Step-Audio 语音交互, 文本转语音, 克隆声音.
csm 语音生成新领域, 会话语音生成, 根据会话变化情绪, 只支持英文.
DiffRhythm 开源快速音乐, 歌曲生成.
NotaGen 大模型音乐谱曲, 生成曲谱.
Orpheus-TTS 文本转语音生成, 克隆声音.
Qwen2-Audio 阿里语音对话模型.
InternVL 接近 GPT-4o 表现的开源多模态对话模型
whisper 语音识别.
seed-vc 零样本声音转换, 歌唱.
AudioX 语音生成.
MegaTTS3 声音克隆.
OuteTTS 声音克隆, 情绪控制.
nari-labs/dia 一次克隆生成超真实会话语音模型.
MoonshotAI/Kimi-Audio Kimi 音频理解, 生成, 转换模型.
ACE-Step: 音乐生成基础模型, 高质量, 快速生成音乐, 编辑, 扩展等.
TechSinger: 多语言歌唱声音合成
maitrix-org/Voila: 实时语音模型
MYZY-AI/Muyan-TTS: 高效 TTS, 声音克隆
ASLP-lab/SongEval: 歌曲美学评分工具包
TEN-framework/ten-vad: 低延迟, 轻量高性能语音活动检测
playht/PlayDiffusion: 音频局部修改