语音

index-tts bilibili 开源文本转语音.

ClearerVoice-Studio 阿里音频处理模型.

Spark-TTS 文本转语音, 声音多种语言克隆.

r1-aqa 小米音频问答模型.

YuE 开源音乐生成模型.

Zonos 文本转语音, 情绪控制.

InspireMusic 音乐, 歌曲, 音频生成框架.

Step-Audio 语音交互, 文本转语音, 克隆声音.

csm 语音生成新领域, 会话语音生成, 根据会话变化情绪, 只支持英文.

DiffRhythm 开源快速音乐, 歌曲生成.

NotaGen 大模型音乐谱曲, 生成曲谱.

Orpheus-TTS 文本转语音生成, 克隆声音.

Qwen2-Audio 阿里语音对话模型.

InternVL 接近 GPT-4o 表现的开源多模态对话模型

whisper 语音识别.

seed-vc 零样本声音转换, 歌唱.

AudioX 语音生成.

MegaTTS3 声音克隆.

OuteTTS 声音克隆, 情绪控制.

nari-labs/dia 一次克隆生成超真实会话语音模型.

MoonshotAI/Kimi-Audio Kimi 音频理解, 生成, 转换模型.

ACE-Step: 音乐生成基础模型, 高质量, 快速生成音乐, 编辑, 扩展等.

TechSinger: 多语言歌唱声音合成

maitrix-org/Voila: 实时语音模型

MYZY-AI/Muyan-TTS: 高效 TTS, 声音克隆

ASLP-lab/SongEval: 歌曲美学评分工具包

TEN-framework/ten-vad: 低延迟, 轻量高性能语音活动检测

resemble-ai/chatterbox: TTS

playht/PlayDiffusion: 音频局部修改

jzq2000/MoonCast: 高质量语音播客生成

Releases · DamRsn/NeuralNote: 音频转midi

spotify/basic-pitch: 音频转midi

MeiGen-AI/MultiTalk: 多人会话视频生成

fluxions-ai/vui: 非常小的 TTS 模型, 可克隆声音

tencent-ailab/SongGeneration: 腾讯歌曲生成

magenta/magenta-realtime: 实时流媒体音乐生成

FunAudioLLM/ThinkSound: 任何 to 语音

boson-ai/higgs-audio: 文本转语音基础模型

OpenMOSS/MOSS-TTSD: 对话语音生成

xiaomi-research/dasheng-lm: 高效音频理解

AudioGenie: 电影级音效生成

microsoft/VibeVoice: 微软开源, 文本转语音

AMAAI-Lab/SonicMaster: 音乐修复与把控

stepfun-ai/Step-Audio2: 音频多模态大模型

TencentARC/AudioStory: 长篇叙事音频生成