文本生成
数据挖掘模型专门针对信息抽取、内容审核、分类打标和摘要生成任务进行设计。相比通用对话模型,该模型能够快速且精确地输出规范的结构化数据(如JSON格式),解决通用对话模型返回不规范回复结构或提取信息不够准确的问题。
Qwen-Doc-Turbo 支持通过以下三种方式从文件中提取信息:
SDK: 文件URL方式当前仅支持DashScope协议,可以选择使用DashScope Python SDK或者HTTP方式调用(如curl)
SDK: 文件上传与管理使用 OpenAI SDK,模型调用兼容 OpenAI SDK 和 DashScope SDK。
对于较短或临时的文本内容,可以直接将其作为 system 消息的一部分传入。
SDK: 兼容 OpenAI SDK 和 DashScope SDK。
简历优化小组件
传入pdf简历
调用模型能力进行解析后得到简历优化建议以及优化后的简历:
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| messages | Array<{ role: "system"|"user"|"assistant"; content: string | Array<Text|DocUrl> }> | 是 | - | 标准多模态消息数组; system 的 content 需为字符串;user/assistant 支持文本与文档 URL |
| messages.role | "system" | "user" | "assistant" | 是 | - | 消息角色 |
| messages.content | string | Array<Text | DocUrl> | 是 | - | system 角色必须为字符串;其余可为文本与文档链接的数组 |
| contenttype=text | { type: "text"; text: string } | 否 | - | 文本内容(问题、指令或上下文) |
| contenttype=doc_url | { type: "doc_url"; doc_url: string | string } | 否 | - | 文档链接,支持单个或多个 URL(PDF、图片等) |
| parameters | QwenDocTurboParameters | 否 | 见下 | 模型参数对象 |
| parameters.stream_options | { include_usage?: boolean } | 否 | - | 流式选项(是否在流中附带 usage) |
| parameters.response_format | { type: "text" | "json_object" } | 否 | - | 返回内容格式偏好 |
| parameters.tools | Array | 否 | - | 工具调用配置 |
| parameters.tool_choice | string | object | 否 | - | 工具选择策略 |
| parameters.parallel_tool_calls | boolean | 否 | - | 是否并行工具调用 |
输入要求:
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| model | string | 是 | qwen-doc-turbo | 模型名称 |
| input | object | 是 | - | 输入对象 |
| input.messages | Array<{ role: "system"|"user"|"assistant"; content: string | Array<Text|DocUrl> }> | 是 | - | 消息数组;与标准入参一致( system 为字符串) |
| parameters | QwenDocTurboParameters | 否 | 见上 | 参数同上(temperature、top_p、max_tokens 等) |
非流式响应(QwenDocTurboResponse):
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| request_id | string | 否 | - | 请求 ID |
| output | { text?: string; choices?: Array<{ finish_reason: string; message: { role: string; content: string } }> } | 否 | - | 输出对象;优先使用 choices[0].message.content ,其次 text |
| usage | { input_tokens?: number; output_tokens?: number; total_tokens?: number } | 否 | - | Token 统计 |
流式响应(QwenDocTurboStreamChunk):
字段名 | 字段类型 | 是否必传 | 字段默认值 | 字段说明 |
|---|---|---|---|---|
| request_id | string | 否 | - | 请求 ID |
| output | 同上,但字段可选 | 否 | - | 流式片段; choices[0].message.content 或 text 为累积全文,SDK 会输出增量差值 |
| usage | { input_tokens?: number; output_tokens?: number; total_tokens?: number } | 否 | - | 一般在最后片段返回 |
标准化输出(SDK 适配后)说明:
{
"messages": [{
"role": "user",
"content": [
{ "type": "doc_url", "doc_url": ["https://example.com/document.pdf"] },
{ "type": "text", "text": "请总结这份文档的主要内容" }
]
}],
"parameters": {
"temperature": 0.3,
"top_p": 0.8,
"max_tokens": 2000,
"frequency_penalty": 0.1,
"presence_penalty": 0.1
}
}