视觉理解
通义千问VL-Max(qwen-vl-max),即通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。
信息抽取 通义千问VL模型支持抽取票据证件表单中的信息,并以结构化的形式返回。
Prompt技巧:
提示词:提取图中的:'发票代码','发票号码','到站','燃油费','票价','乘车日期','开车时间','车次','座号',请你以JSON格式输出,不要输出

# ======= 重要提示 =======
# 新加坡和北京地域的API Key不同。获取API Key:https://help.aliyun.com/zh/model-studio/get-api-key
# 以下为北京地域url,若使用新加坡地域的模型,需将url替换为:https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/text-generation/generation
# === 执行时请删除该注释 ===
curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "qwen3-vl-plus",
"input":{
"messages":[
{
"role": "user",
"content": [
{"image": "http://duguang-labelling.oss-cn-shanghai.aliyuncs.com/demo_ocr/receipt_zh_demo.jpg"},
{"text": "提取图中的:['发票代码','发票号码','到站','燃油费','票价','乘车日期','开车时间','车次','座号'],请你以JSON格式输出,不要输出```json```代码段”。"}
]
}
]
}
}'
{
"发票代码": "221021325353",
"发票号码": "10283819",
"到站": "开发区",
"燃油费": "2.0",
"票价": "8.00<全>",
"乘车日期": "2013-06-29",
"开车时间": "流水",
"车次": "040",
"座号": "371"
}
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| model | string | 是 | - | 模型名称,例如:qwen-vl-max、qwen-vl-plus |
| messages | QwenVlMaxMessage | 是 | - | 对话消息数组,支持多轮对话 |
| messages.role | "system" | "user" | "assistant" | 是 | - | 消息角色:system(系统)、user(用户)、assistant(助手) |
| messages.content | string | Array<TextContent | ImageUrlContent> | 是 | - | 消息内容,支持纯文本或多模态内容(文本+图片) - 文本格式: { type: "text", text: "文本内容" } - 图片格式: { type: "image_url", image_url: { url: "图片URL" } } |
| seed | number | 否 | - | 生成时使用的随机数种子,用于控制模型生成内容的随机性 |
通用采样/控制参数请参考
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| id | string | 是 | - | 请求的唯一标识符 |
| object | string | 是 | - | 对象类型,通常为 "chat.completion" |
| created | number | 是 | - | 请求创建的时间戳(Unix时间戳) |
| model | string | 是 | - | 使用的模型名称 |
| choices | Array | 是 | - | 生成结果数组 |
| choices.index | number | 是 | - | 选择项的索引 |
| choices.message | object | 是 | - | 生成的消息对象 |
| choices.message.role | string | 是 | - | 消息角色,通常为 "assistant" |
| choices.message.content | string | 是 | - | 生成的消息内容 |
| choices.finish_reason | string | 是 | - | 完成原因,如 "stop"(正常结束)、"length"(达到最大长度)等 |
| usage | object | 是 | - | Token使用统计信息 |
| usage.prompt_tokens | number | 是 | - | 输入提示的token数量 |
| usage.completion_tokens | number | 是 | - | 生成内容的token数量 |
| usage.total_tokens | number | 是 | - | 总token数量 |
| usage.output_tokens | number | 否 | - | 输出token数量(部分接口返回) |
| usage.input_tokens | number | 否 | - | 输入token数量(部分接口返回) |
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| id | string | 是 | - | 请求的唯一标识符 |
| object | string | 是 | - | 对象类型,通常为 "chat.completion.chunk" |
| created | number | 是 | - | 请求创建的时间戳(Unix时间戳) |
| model | string | 是 | - | 使用的模型名称 |
| choices | Array | 是 | - | 流式生成结果数组 |
| choices.index | number | 是 | - | 选择项的索引 |
| choices.delta | object | 是 | - | 增量更新对象 |
| choices.delta.role | string | 否 | - | 消息角色(仅在第一个chunk中可能包含) |
| choices.delta.content | string | 否 | - | 增量生成的内容片段 |
| choices.finish_reason | string | null | 是 | - | 完成原因,null表示未完成,非null表示已完成 |
| usage | object | 否 | - | Token使用统计信息(通常在最后一个chunk中返回) |
| usage.prompt_tokens | number | 否 | - | 输入提示的token数量 |
| usage.completion_tokens | number | 否 | - | 生成内容的token数量 |
| usage.total_tokens | number | 否 | - | 总token数量 |
{
model: "qwen-vl-max",
messages: [
{
role: "system",
content: "你是一个专业的图像分析助手,能够理解图片内容并回答问题。"
},
{
role: "user",
content: [
{ type: "image_url", image_url: { url: "https://example.com/image.jpg" } },
{ type: "text", text: "请描述这张图片中的内容" }
]
}
],
parameters: {
temperature: 0.7,
top_p: 0.8,
max_tokens: 1000
}
}
{
messages: [
{
role: "user",
content: "请分析这张图片"
}
],
stream: true,
temperature: 0.7,
max_tokens: 2000
}