首页 资讯 下载 教程 Skills 社群

通义千问发布 Qwen3.5-Omni 全模态模型:支持文本、图像、音频统一处理

· 2 分钟 行业动态

全模态能力

2026 年 3 月底,通义千问团队发布了 Qwen3.5-Omni——一个真正的全模态(Omnimodal)AI 模型。与此前按模态分离的模型不同,Qwen3.5-Omni 在一个统一架构中同时处理文本、图像和音频输入。

核心能力

  • 超长音频处理:支持超过 10 小时的音频输入
  • 多语言语音:支持 113 种语言的语音识别
  • 多模态融合:在同一个对话中混合处理文本、图片和音频

对 OpenClaw 用户的意义

OpenClaw 已通过 Model Studio(modelstudio Provider)支持接入通义千问系列模型。Qwen3.5-Omni 的发布意味着 OpenClaw 用户可以获得更强的多模态处理能力:

  • 在聊天中直接发送语音消息,AI 用文字回复
  • 发送图片让 AI 分析内容
  • 处理会议录音、播客等长音频内容

行业趋势

Qwen3.5-Omni 的发布是 2026 年 AI 模型从"多模态"走向"全模态"的标志性事件之一。此前 Google 的 Gemini 3.1 也主打原生多模态推理能力。全模态模型的普及将让 AI 助手更自然地处理现实世界中的混合信息。

同期值得关注的行业动态还包括:Gartner 预测到 2028 年,50% 的 GenAI 部署将具备 LLM 可观测性(当前仅 15%),反映出企业对 AI 透明度和可解释性的重视正在快速增长。