
读懂、看懂与听懂小米快速务实加入中国开源生态
应用介绍
当小米拿出最新开源音频大模型MiDashengLM-7B时,市场有理由确信,这家,正在认真投身于中国开源模型生态的构建中。它构建于中国已有的开源生态,围绕着自身业务,服务于中国的AI硬件创新。
真正的科技巨头要做AI。今年,AI在小米集团正式扶正,“智能电动汽车等创新业务”分部,已经改成了“智能电动汽车及AI等创新业务”。小米承认2025年已是“大模型逐梦的后半程”,但它最新组建的AI团队追赶迅速,平均2个月开源一款大模型。在今年4月,小米开源了首个推理模型MiMo,6月开源了多模态大模型MiMo-VL,8月的是音频大模型MiDashengLM。
音频大模型经常被市场有意无意地忽略。包括阿里的Qwen-Audio、OpenAI的Whisper与Meta的Wav2Vec,几经迭代,但市场讨论度往往不及文、图与视频模型。但它的重要性会随着汽车、智能家居与耳机、眼镜等端侧设备AI化而逐步凸显。声音是主要模态,语音目前是最自然的交互方式。
小米一直在强调“人车家”的全生态。这次,它在MiDashengLM的技术报告中写道,“理解声音的能力,对于智能体全面参与物理世界而言,仍然至关重要。”
在小米看来,传统的自动语音识别(ASR)技术,已经暴露了明显的不足。物理世界中的音频一般涵盖了语音、环境音与音乐。市场上不少音频模型,语音模型与音乐模型往往是割裂的;环境音又往往被它们所抛弃。小米想要的,是更自然和真实的声音。
在训练中保留并利用这些“噪声”,是构建具备真实世界理解能力的音频模型所必需。AI耳机就不仅需要听到用户在说什么,也要完整远程拾音、识别环境,并从中提取有用的感知线索。环境声学也是“空间智能”的一部分。正是这些被视为“噪声”的部分,恰恰包含着关键的上下文信息。海浪声与键盘声都蕴藏着丰富的场景信息;异常噪声在制造业场景中往往代表着故障;很多时候,甚至“无声的停顿”,也是一种声音,包裹着丰富的情绪。
可以说,小米的MiDashengLM,瞄准的是统一原生的通用音频模型,而且是全局性的,而并非以往的单调的、线性的。以往,音频大模型的预训练非常依赖声学单元与转录文本的线性对齐,以及音乐歌词或环境音等单调的标注字幕。小米自建了高质量的训练数据集ACAVCaps与测试集,自研了音频编码器(encoder)Dasheng,实现了一个模型处理多种音频模态的任务能力。
在最新的测试基准X-Ares上,小米的Dasheng在大多数子测试集上胜过了当前主流的Whisper-Large v3编码器,验证了其在不同语义模态下拥有更强的泛化能力。在基于传统ASR技术的领域,Whisper仍然占据一定优势;但Dasheng在说话人身份识别(VoxCeleb1)、室内声音事件识别(DESED)、常见环境声音分类(FSD50k)与音乐演奏识别(MAESTRO)等领域遥遥领先。这使得MiDashengLM在完成具体任务时具备了全局通用的音频能力。
作为大模型预训练的后来者,从MiMo到MiMo-VL,再到MiDashengLM的演进中,小米布局的策略,至少反映出两条主线:一在于加入中国的开源生态,一在于紧紧围绕自身业务生态试水。
它们都是参数规模较小的模型,符合小米端侧布局。无论是MiMo、MiMo-VL还是MiDashengLM,构成三个模型系列的,主要都是70亿参数。
MiMo让小米旗下的智能终端拥有了文本推理的能力。它在数学和代码能力上有所突破,性能超越OpenAI闭源推理模型o1-mini,以及阿里巴巴开源推理模型QwQ-32B-Preview。MiMo-VL则让小米的智能终端拥有了多模态推理能力。在技术报告中,它频繁强调屏幕理解与GUI定位能力。它的目标很明确,就是赋予模型对屏幕内容与人机界面的感知与推理能力,从而支撑智能体在手机、平板或车载系统中,实现基于视觉的交互。而现在MiDashengLM的加入,则为部署在真实物理世界中的 AI 智能体,补全了“听觉”维度。
小米还在技术报告中强调了一下,还没特别针对多语种进行预训练,MiDashengLM就对“印尼语、越南语和泰语”有很强的理解能力,暗示了一把自己“人车家”生态出海的前景。
它们也都站在了DeepSeek与Qwen等中国开源生态的肩膀上,避免了重复造轮子,将资源集中于差异化创新上。
中国的,小米添上了最新一款砖。差不多同时,阿里开源了Qwen-Image,实现了复杂文本渲染和精确图像编辑,让图像生成中的文字,尤其是汉字,不再是“鬼画符”了。腾讯Hunyuan系列也开源了从5亿参数到70亿参数等消费级显卡可以运行的4个端侧模型。
开源模型+端侧智能,这也是中国AI落地有别于美国的关键路径。奥特曼判断,AI 应用将进入 SaaS 的“快时尚化”时代。这是美国擅长的游戏。但中国仍在为SaaS时代缺乏标准化数字化解决方案补课;中国跳过了PC时代,直接进入移动互联网时代,也成了当前AI在Web端渗透的无形的阻碍。但在终端上,包括承载于终端之上的应用领域,中国不是追赶者,而有可能是智能终端范式的定义者。