小程序开放平台

文档中心
模型标准出入参
模型列表
文本模型
多模态(文生图&图片理解)
多模态(文档模态DOC、PDF)
qwen-doc-turbo 模型介绍
图片编辑&人像风格

qwen-doc-turbo 模型介绍

模型能力
>
模型列表
>
多模态(文档模态DOC、PDF)
>
qwen-doc-turbo 模型介绍
>
更新时间:2025-11-06 18:27:03

模型介绍

文本生成

数据挖掘模型专门针对信息抽取、内容审核、分类打标和摘要生成任务进行设计。相比通用对话模型,该模型能够快速且精确地输出规范的结构化数据(如JSON格式),解决通用对话模型返回不规范回复结构或提取信息不够准确的问题。

Qwen-Doc-Turbo 支持通过以下三种方式从文件中提取信息:

  • 通过文件URL传入 (推荐): 直接在API请求中提供文件的公开URL,模型即可访问并解析内容。此方法最多支持单次传入10个文件,并可通过 file_parsing_strategy 参数指定解析策略(auto、text_only 或 text_and_images),是处理多文件的唯一方式。

SDK: 文件URL方式当前仅支持DashScope协议,可以选择使用DashScope Python SDK或者HTTP方式调用(如curl)

  • 通过文件ID传入: 先将本地文件上传至百炼平台,生成一个当前阿里云账号下唯一的 file-id并开始解析,然后在后续的API请求中引用此id。此方法兼容 OpenAI SDK,适合需要重复使用同一份文件或处理本地文件的场景。

SDK: 文件上传与管理使用 OpenAI SDK,模型调用兼容 OpenAI SDK 和 DashScope SDK。

  • 通过纯文本传入:

对于较短或临时的文本内容,可以直接将其作为 system 消息的一部分传入。

SDK: 兼容 OpenAI SDK 和 DashScope SDK。

模型效果演示

简历优化小组件 传入pdf简历

调用模型能力进行解析后得到简历优化建议以及优化后的简历:

适用场景

  • 文档快速摘要与信息提取:适用于处理长文档(如报告、论文、合同),可快速提取关键信息(如核心观点、数据、条款要点)并生成精简摘要,提升阅读和信息筛选效率。
  • 非结构化文档结构化转换:能将PDF、Word等格式的非结构化文档(如手写笔记、扫描件文字、杂乱排版的文本)转换为结构化数据(如表格、JSON、规范文本),便于数据存储和后续分析(如企业档案数字化、数据录入自动化)。
  • 文档内容智能问答:支持基于特定文档内容进行精准问答,例如用户上传产品手册后,可直接提问“某功能的操作步骤”,模型会基于手册内容给出针对性答案,适用于客服查询、内部知识库检索等场景。

模型出入参

请求参数(标准调用入参)

字段名
字段类型
是否必传
字段默认值
字段说明
messagesArray<{ role: "system"|"user"|"assistant"; content: string | Array<Text|DocUrl> }>-标准多模态消息数组;
system
的 content 需为字符串;
user/assistant
支持文本与文档 URL
messages.role"system" | "user" | "assistant"-消息角色
messages.contentstring | Array<Text | DocUrl>-
system
角色必须为字符串;其余可为文本与文档链接的数组
contenttype=text{ type: "text"; text: string }-文本内容(问题、指令或上下文)
contenttype=doc_url{ type: "doc_url"; doc_url: string | string }-文档链接,支持单个或多个 URL(PDF、图片等)
parametersQwenDocTurboParameters见下模型参数对象
parameters.stream_options{ include_usage?: boolean }-流式选项(是否在流中附带 usage)
parameters.response_format{ type: "text" | "json_object" }-返回内容格式偏好
parameters.toolsArray-工具调用配置
parameters.tool_choicestring | object-工具选择策略
parameters.parallel_tool_callsboolean-是否并行工具调用

输入要求:

  • 必须提供文档(以
    doc_url
    指定)或可解析文本内容;常见格式:PDF、图片(jpg、png 等)
  • system
    提示用于设定整体任务;
    user
    传入具体文档与问题

请求参数(直连 API 入参)

字段名
字段类型
是否必传
字段默认值
字段说明
modelstringqwen-doc-turbo模型名称
inputobject-输入对象
input.messagesArray<{ role: "system"|"user"|"assistant"; content: string | Array<Text|DocUrl> }>-消息数组;与标准入参一致(
system
为字符串)
parametersQwenDocTurboParameters见上参数同上(temperature、top_p、max_tokens 等)

响应参数(出参)

非流式响应(QwenDocTurboResponse):

字段名
字段类型
是否必传
字段默认值
字段说明
request_idstring-请求 ID
output{ text?: string; choices?: Array<{ finish_reason: string; message: { role: string; content: string } }> }-输出对象;优先使用
choices[0].message.content
,其次
text
usage{ input_tokens?: number; output_tokens?: number; total_tokens?: number }-Token 统计

流式响应(QwenDocTurboStreamChunk):

字段名
字段类型
是否必传
字段默认值
字段说明
request_idstring-请求 ID
output同上,但字段可选-流式片段;
choices[0].message.content
text
为累积全文,SDK 会输出增量差值
usage{ input_tokens?: number; output_tokens?: number; total_tokens?: number }-一般在最后片段返回

标准化输出(SDK 适配后)说明:

  • 非流式:返回标准
    DoGenerateOutput
    ,内容来自
    choices[0].message.content
    text
  • 流式:SDK 对 DashScope 的“累积内容”做差分,仅输出新增增量内容

使用示例(标准调用)

javascript
{
  "messages": [{
    "role": "user",
    "content": [
      { "type": "doc_url", "doc_url": ["https://example.com/document.pdf"] },
      { "type": "text", "text": "请总结这份文档的主要内容" }
    ]
  }],
  "parameters": {
    "temperature": 0.3,
    "top_p": 0.8,
    "max_tokens": 2000,
    "frequency_penalty": 0.1,
    "presence_penalty": 0.1
  }
}