FunASR:阿里开源语音识别框架,170倍实时速度超越Whisper
2026-05-31 00:04:57 +0800 CST
通义实验室最新出品,一套代码搞定语音转文字 + 情绪识别 + 说话人分离。
## 性能对比
| 对比项 | FunASR | Whisper | 云 API |
|--------|--------|---------|--------|
| 速度 | **170x** 实时 | 13x 实时 | ~1x 实时 |
| 说话人分离 | ✅ 内置 | ❌ 需第三方 | ✅ 额外收费 |
| 情绪识别 | ✅ 喜怒哀乐 | ❌ | ❌ |
| 语言 | **50+** | 57 | 各厂商不同 |
| 自部署 | ✅ MIT 免费 | ✅ MIT 免费 | ❌ 仅云端 |
| CPU 运行 | ✅ 17x 实时 | ❌ 太慢 | — |
**结论:FunASR 在 CPU 上跑得比 Whisper 在 GPU 上还快。**
这不是营销话术,是实打实的跑分。阿里通义实验室开源的 FunASR 最新模型 SenseVoice-Small,GPU 速度达到 **170 倍实时**——录 1 小时会议,20 秒出稿。
## 快速上手
**一行代码跑起来:**
```python
from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall",
vad_model="fsmn-vad",
spk_model="cam++")
result = model.generate(input="meeting.wav")
```
输出自带说话人标签、时间戳、标点符号:
```
[00:00.4 → 00:03.8] Speaker 0: 我们来讨论一下 Q3 的计划。
[00:04.2 → 00:07.1] Speaker 1: 好的,我有三个点想说。
```
VAD 切分、语音识别、标点恢复、说话人分离——**一个模型一步到位**。
**想部署 API?** 一行命令启服务:
```bash
funasr-server --device cuda
```
自动暴露 OpenAI 兼容接口,可以直接对接 Claude、Cursor、Dify、LangChain 等 AI 工作流。
## 两个亲儿子衍生工具
FunASR 生态里还有两个好用的工具:
- **FunClip** — 智能视频裁剪
输入关键词或句子,自动在视频里定位对应的片段,一键裁剪导出。做短视频、剪辑回放的神器。
- **SenseVoice** — 深度语音理解
不光能听写,还能识别语种、情绪(高兴/悲伤/愤怒)、声音事件(掌声/笑声/背景音乐)。
## 适合谁用?
- **会议纪要党**:录完直接出稿,带说话人标签
- **AI 应用开发者**:自建 ASR 服务,白嫖云 API 费用
- **视频创作者**:用 FunClip 从长视频素材里一秒定位想要的口播片段
- **极客玩家**:本地部署,数据不出门
> **仓库地址**:[github.com/modelscope/FunASR](https://github.com/modelscope/FunASR)
>
> 一句话总结:Whisper 是步枪,FunASR 是加特林——都是免费,但火力不是一个量级。
*FunASR 是阿里通义实验室开源项目,MIT 协议随便用。*
AI工具推荐
每日AI大事件,好的AI早知道
(扫描关注订阅号 最新AI大事早知道)