小程序开放平台

文档中心
模型标准出入参
模型列表
文本模型
多模态(文生图&图片理解)
qwen-vl-max 的模型介绍
多模态(文档模态DOC、PDF)
图片编辑&人像风格

qwen-vl-max 的模型介绍

模型能力
>
模型列表
>
多模态(文生图&图片理解)
>
qwen-vl-max 的模型介绍
>
更新时间:2025-11-06 17:15:19

模型介绍

视觉理解

通义千问VL-Max(qwen-vl-max),即通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

模型效果演示

信息抽取 通义千问VL模型支持抽取票据证件表单中的信息,并以结构化的形式返回。

Prompt技巧:

  • 使用分隔符强调需要提取的字段
  • 明确输出格式,例如JSON格式
  • 在提示词中明确禁止可能的
    json
    代码段,如“请你以JSON格式输出,不要输出
    json
    代码段”

输入示例

提示词:提取图中的:'发票代码','发票号码','到站','燃油费','票价','乘车日期','开车时间','车次','座号',请你以JSON格式输出,不要输出

json
代码段”。

示例代码

# ======= 重要提示 =======
# 新加坡和北京地域的API Key不同。获取API Key:https://help.aliyun.com/zh/model-studio/get-api-key
# 以下为北京地域url,若使用新加坡地域的模型,需将url替换为:https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/text-generation/generation
# === 执行时请删除该注释 ===

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
    "model": "qwen3-vl-plus",
    "input":{
        "messages":[
            {
                "role": "user",
                "content": [
                    {"image": "http://duguang-labelling.oss-cn-shanghai.aliyuncs.com/demo_ocr/receipt_zh_demo.jpg"},
                    {"text": "提取图中的:['发票代码','发票号码','到站','燃油费','票价','乘车日期','开车时间','车次','座号'],请你以JSON格式输出,不要输出```json```代码段”。"}
                ]
            }
        ]
    }
}'

输出示例

{
    "发票代码": "221021325353",
    "发票号码": "10283819",
    "到站": "开发区",
    "燃油费": "2.0",
    "票价": "8.00<全>",
    "乘车日期": "2013-06-29",
    "开车时间": "流水",
    "车次": "040",
    "座号": "371"
}

适用场景

  • 图像问答:描述图像中的内容或者对其进行分类打标,如识别人物、地点、动植物等。
  • 数学题目解答:解答图像中的数学问题,适用于中小学、大学以及成人教育阶段。
  • 视频理解:分析视频内容,如对具体事件进行定位并获取时间戳,或生成关键时间段的摘要。
  • 物体定位:支持二维和三维定位,可用于判断物体方位、视角变化、遮挡关系。
  • 文档解析:将图像类的文档(如扫描件/图片PDF)解析为 QwenVL HTML或 Markdown格式,该格式不仅能精准识别文本,还能获取图像、表格等元素的位置信息。
  • 视觉编码:可通过图像或视频生成代码,可用于将设计图、网站截图等生成HTML、CSS、JS 代码。
  • 文字识别与信息抽取:识别图像中的文字、公式,或者抽取票据、证件、表单中的信息,支持格式化输出文本;Qwen3-VL模型支持的语言已增加至33种。

模型出入参

请求参数(入参)

字段名
字段类型
是否必传
字段默认值
字段说明
modelstring-模型名称,例如:qwen-vl-max、qwen-vl-plus
messagesQwenVlMaxMessage-对话消息数组,支持多轮对话
messages.role"system" | "user" | "assistant"-消息角色:system(系统)、user(用户)、assistant(助手)
messages.contentstring | Array<TextContent | ImageUrlContent>-消息内容,支持纯文本或多模态内容(文本+图片)
- 文本格式:
{ type: "text", text: "文本内容" }

- 图片格式:
{ type: "image_url", image_url: { url: "图片URL" } }
seednumber-生成时使用的随机数种子,用于控制模型生成内容的随机性

通用采样/控制参数请参考

../COMMON_PARAMS.md

响应参数(出参)

非流式响应(QwenVlMaxResponse)

字段名
字段类型
是否必传
字段默认值
字段说明
idstring-请求的唯一标识符
objectstring-对象类型,通常为 "chat.completion"
creatednumber-请求创建的时间戳(Unix时间戳)
modelstring-使用的模型名称
choicesArray-生成结果数组
choices.indexnumber-选择项的索引
choices.messageobject-生成的消息对象
choices.message.rolestring-消息角色,通常为 "assistant"
choices.message.contentstring-生成的消息内容
choices.finish_reasonstring-完成原因,如 "stop"(正常结束)、"length"(达到最大长度)等
usageobject-Token使用统计信息
usage.prompt_tokensnumber-输入提示的token数量
usage.completion_tokensnumber-生成内容的token数量
usage.total_tokensnumber-总token数量
usage.output_tokensnumber-输出token数量(部分接口返回)
usage.input_tokensnumber-输入token数量(部分接口返回)

流式响应(QwenVlMaxStreamChunk)

字段名
字段类型
是否必传
字段默认值
字段说明
idstring-请求的唯一标识符
objectstring-对象类型,通常为 "chat.completion.chunk"
creatednumber-请求创建的时间戳(Unix时间戳)
modelstring-使用的模型名称
choicesArray-流式生成结果数组
choices.indexnumber-选择项的索引
choices.deltaobject-增量更新对象
choices.delta.rolestring-消息角色(仅在第一个chunk中可能包含)
choices.delta.contentstring-增量生成的内容片段
choices.finish_reasonstring | null-完成原因,null表示未完成,非null表示已完成
usageobject-Token使用统计信息(通常在最后一个chunk中返回)
usage.prompt_tokensnumber-输入提示的token数量
usage.completion_tokensnumber-生成内容的token数量
usage.total_tokensnumber-总token数量

使用示例

非流式调用示例

typescript
{
  model: "qwen-vl-max",
  messages: [
    {
      role: "system",
      content: "你是一个专业的图像分析助手,能够理解图片内容并回答问题。"
    },
    {
      role: "user",
      content: [
        { type: "image_url", image_url: { url: "https://example.com/image.jpg" } },
        { type: "text", text: "请描述这张图片中的内容" }
      ]
    }
  ],
  parameters: {
    temperature: 0.7,
    top_p: 0.8,
    max_tokens: 1000
  }
}

流式调用示例

javascript
{
  messages: [
    {
      role: "user",
      content: "请分析这张图片"
    }
  ],
  stream: true,
  temperature: 0.7,
  max_tokens: 2000
}

注意事项

  1. 多模态输入:支持文本 + 图片的多模态输入,图片格式支持 jpg、png、webp 等常见格式
  2. 参数范围:temperature、top_p、frequency_penalty、presence_penalty 等参数有明确的取值范围,超出范围会被自动限制
  3. 流式响应:当
    stream: true
    时,响应会以流式方式返回多个 chunk,需要客户端逐块处理
  4. 思考模式:开启
    enable_thinking: true
    后,模型会显示思考过程(如果支持)
  5. 联网搜索:开启
    enable_search: true
    后,模型可以访问网络信息进行回答(如果支持)