FunASR:阿里开源语音识别框架,170倍实时速度超越Whisper

2026-05-31 00:04:57 +0800 CST
来源: 整理自互联网
通义实验室最新出品,一套代码搞定语音转文字 + 情绪识别 + 说话人分离。 ## 性能对比 | 对比项 | FunASR | Whisper | 云 API | |--------|--------|---------|--------| | 速度 | **170x** 实时 | 13x 实时 | ~1x 实时 | | 说话人分离 | ✅ 内置 | ❌ 需第三方 | ✅ 额外收费 | | 情绪识别 | ✅ 喜怒哀乐 | ❌ | ❌ | | 语言 | **50+** | 57 | 各厂商不同 | | 自部署 | ✅ MIT 免费 | ✅ MIT 免费 | ❌ 仅云端 | | CPU 运行 | ✅ 17x 实时 | ❌ 太慢 | — | **结论:FunASR 在 CPU 上跑得比 Whisper 在 GPU 上还快。** 这不是营销话术,是实打实的跑分。阿里通义实验室开源的 FunASR 最新模型 SenseVoice-Small,GPU 速度达到 **170 倍实时**——录 1 小时会议,20 秒出稿。 ## 快速上手 **一行代码跑起来:** ```python from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++") result = model.generate(input="meeting.wav") ``` 输出自带说话人标签、时间戳、标点符号: ``` [00:00.4 → 00:03.8] Speaker 0: 我们来讨论一下 Q3 的计划。 [00:04.2 → 00:07.1] Speaker 1: 好的,我有三个点想说。 ``` VAD 切分、语音识别、标点恢复、说话人分离——**一个模型一步到位**。 **想部署 API?** 一行命令启服务: ```bash funasr-server --device cuda ``` 自动暴露 OpenAI 兼容接口,可以直接对接 Claude、Cursor、Dify、LangChain 等 AI 工作流。 ## 两个亲儿子衍生工具 FunASR 生态里还有两个好用的工具: - **FunClip** — 智能视频裁剪 输入关键词或句子,自动在视频里定位对应的片段,一键裁剪导出。做短视频、剪辑回放的神器。 - **SenseVoice** — 深度语音理解 不光能听写,还能识别语种、情绪(高兴/悲伤/愤怒)、声音事件(掌声/笑声/背景音乐)。 ## 适合谁用? - **会议纪要党**:录完直接出稿,带说话人标签 - **AI 应用开发者**:自建 ASR 服务,白嫖云 API 费用 - **视频创作者**:用 FunClip 从长视频素材里一秒定位想要的口播片段 - **极客玩家**:本地部署,数据不出门 > **仓库地址**:[github.com/modelscope/FunASR](https://github.com/modelscope/FunASR) > > 一句话总结:Whisper 是步枪,FunASR 是加特林——都是免费,但火力不是一个量级。 *FunASR 是阿里通义实验室开源项目,MIT 协议随便用。*