FunASR：阿里开源语音识别框架，170倍实时速度超越Whisper

2026-05-31 00:04:57 +0800 CST

来源: 整理自互联网

AI工具

通义实验室最新出品，一套代码搞定语音转文字 + 情绪识别 + 说话人分离。 ## 性能对比 | 对比项 | FunASR | Whisper | 云 API | |--------|--------|---------|--------| | 速度 | **170x** 实时 | 13x 实时 | ~1x 实时 | | 说话人分离 | ✅ 内置 | ❌ 需第三方 | ✅ 额外收费 | | 情绪识别 | ✅ 喜怒哀乐 | ❌ | ❌ | | 语言 | **50+** | 57 | 各厂商不同 | | 自部署 | ✅ MIT 免费 | ✅ MIT 免费 | ❌ 仅云端 | | CPU 运行 | ✅ 17x 实时 | ❌ 太慢 | — | **结论：FunASR 在 CPU 上跑得比 Whisper 在 GPU 上还快。** 这不是营销话术，是实打实的跑分。阿里通义实验室开源的 FunASR 最新模型 SenseVoice-Small，GPU 速度达到 **170 倍实时**——录 1 小时会议，20 秒出稿。 ## 快速上手 **一行代码跑起来：** ```python from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++") result = model.generate(input="meeting.wav") ``` 输出自带说话人标签、时间戳、标点符号： ``` [00:00.4 → 00:03.8] Speaker 0: 我们来讨论一下 Q3 的计划。 [00:04.2 → 00:07.1] Speaker 1: 好的，我有三个点想说。 ``` VAD 切分、语音识别、标点恢复、说话人分离——**一个模型一步到位**。 **想部署 API？** 一行命令启服务： ```bash funasr-server --device cuda ``` 自动暴露 OpenAI 兼容接口，可以直接对接 Claude、Cursor、Dify、LangChain 等 AI 工作流。 ## 两个亲儿子衍生工具 FunASR 生态里还有两个好用的工具： - **FunClip** — 智能视频裁剪输入关键词或句子，自动在视频里定位对应的片段，一键裁剪导出。做短视频、剪辑回放的神器。 - **SenseVoice** — 深度语音理解不光能听写，还能识别语种、情绪（高兴/悲伤/愤怒）、声音事件（掌声/笑声/背景音乐）。 ## 适合谁用？ - **会议纪要党**：录完直接出稿，带说话人标签 - **AI 应用开发者**：自建 ASR 服务，白嫖云 API 费用 - **视频创作者**：用 FunClip 从长视频素材里一秒定位想要的口播片段 - **极客玩家**：本地部署，数据不出门 > **仓库地址**：[github.com/modelscope/FunASR](https://github.com/modelscope/FunASR) > > 一句话总结：Whisper 是步枪，FunASR 是加特林——都是免费，但火力不是一个量级。 *FunASR 是阿里通义实验室开源项目，MIT 协议随便用。*