AI模型调用文案创作Skill测试分析报告¶
一、测试概述¶
1.1 测试背景¶
本次测试旨在评估不同AI模型在调用两个文案创作Skill时的效果差异,重点关注输出质量、成本控制、响应速度等维度。测试选取了5个主流AI模型,分别在两个核心创作任务上进行评测。
1.2 测试对象¶
| 模型名称 | 版本/系列 | 定位 |
|---|---|---|
| Minimax-M2.5 | 基础版 | 国内主流模型 |
| GLM-5 | 智谱清言 | 国内主流模型 |
| Qwen 3.5-Plus | 阿里通义 | 国内主流模型 |
| Claude-sonnet 4.5 | Anthropic | 国际主流模型 |
| GPT-5.2 | OpenAI | 国际主流模型 |
1.3 测试任务¶
| 任务编号 | 任务名称 | 任务类型 | 预计复杂度 |
|---|---|---|---|
| 测试1 | 侨梁-政策解读 | 专业长文写作 | 高 |
| 测试2 | 福珍-口播文案 | 短剧本创作 | 中 |
1.4 评分标准¶
本次测试采用四维评分体系,每个维度满分25分,总分100分:
| 维度 | 权重 | 评估内容 |
|---|---|---|
| 准确性 | 25% | 信息准确性、数据来源标注、专业知识正确性 |
| 完整性 | 25% | 要点覆盖、结构完整、内容全面性 |
| 合规性 | 25% | 违规表述、平台适配、法律风险规避 |
| 执行力 | 25% | Skill流程遵循、输出格式规范、风格匹配 |
二、成本测算分析¶
2.1 成本测算说明¶
定价假设:输入\(0.5/1M tokens,输出\)1.5/1M tokens
该定价为当前市场中等价位方案,实际成本可能因平台、批量采购等因素有所差异。
2.2 各模型Token消耗明细¶
测试1:侨梁-政策解读¶
| 模型 | 输入Token | 输出Token | 总Token | 单次成本 |
|---|---|---|---|---|
| Minimax-M2.5 | 3,500 | 1,800 | 5,300 | $0.0045 |
| GLM-5 | 18,500 | 2,800 | 21,300 | $0.0135 |
| Qwen 3.5-Plus | 3,500 | 2,800 | 6,300 | $0.0060 |
| Claude-sonnet 4.5 | 42,000 | 2,800 | 44,800 | $0.0240 |
| GPT-5.2 | 260 | 1,250 | 1,510 | $0.0020 |
测试2:福珍-口播文案¶
| 模型 | 输入Token | 输出Token | 总Token | 单次成本 |
|---|---|---|---|---|
| Minimax-M2.5 | 1,200 | 350 | 1,550 | $0.0011 |
| GLM-5 | 3,200 | 850 | 4,050 | $0.0030 |
| Qwen 3.5-Plus | 2,800 | 950 | 3,750 | $0.0029 |
| Claude-sonnet 4.5 | 4,800 | 800 | 5,600 | $0.0039 |
| GPT-5.2 | 260 | 330 | 590 | $0.0007 |
2.3 成本对比分析¶
任务成本排名(从低到高)¶
测试1:侨梁-政策解读
| 排名 | 模型 | 成本 | 与最低成本对比 |
|---|---|---|---|
| 1 | GPT-5.2 | $0.0020 | 基准 |
| 2 | Minimax-M2.5 | $0.0045 | +125% |
| 3 | Qwen 3.5-Plus | $0.0060 | +200% |
| 4 | GLM-5 | $0.0135 | +575% |
| 5 | Claude-sonnet 4.5 | $0.0240 | +1100% |
测试2:福珍-口播文案
| 排名 | 模型 | 成本 | 与最低成本对比 |
|---|---|---|---|
| 1 | GPT-5.2 | $0.0007 | 基准 |
| 2 | Minimax-M2.5 | $0.0011 | +57% |
| 3 | Qwen 3.5-Plus | $0.0029 | +314% |
| 4 | GLM-5 | $0.0030 | +329% |
| 5 | Claude-sonnet 4.5 | $0.0039 | +457% |
关键发现¶
GPT-5.2在成本方面具有压倒性优势。在两个任务中,GPT-5.2的Token消耗均为最低,尤其是输入Token极低(仅260 tokens),这使其单次调用成本远低于其他模型。GPT-5.2在测试1中的成本仅为Claude-sonnet 4.5的8.3%,在测试2中仅为12.5%。
Claude-sonnet 4.5在测试1中成本最高。其输入Token高达42,000,是其他模型的10-160倍,这主要是因为该模型在输出中展示了更多的思考过程和参考文件调用说明。虽然这可能带来更全面的输出,但也显著增加了成本。
国内模型成本差异较大。在三个国内模型中,Minimax-M2.5和Qwen 3.5-Plus的成本相对较低(\(0.004-0.006),而GLM-5的成本较高(\)0.0135),主要原因是其输入Token消耗最大(18,500 tokens)。
2.4 成本效率矩阵¶
| 模型 | 测试1成本 | 测试2成本 | 平均成本 | 成本评级 |
|---|---|---|---|---|
| GPT-5.2 | $0.0020 | $0.0007 | $0.0014 | ⭐⭐⭐⭐⭐ |
| Minimax-M2.5 | $0.0045 | $0.0011 | $0.0028 | ⭐⭐⭐⭐ |
| Qwen 3.5-Plus | $0.0060 | $0.0029 | $0.0045 | ⭐⭐⭐ |
| GLM-5 | $0.0135 | $0.0030 | $0.0083 | ⭐⭐ |
| Claude-sonnet 4.5 | $0.0240 | $0.0039 | $0.0140 | ⭐ |
三、响应速度分析¶
3.1 响应时间数据¶
测试1:侨梁-政策解读¶
| 模型 | 响应时间 | 速度感受 | 速度评级 |
|---|---|---|---|
| Qwen 3.5-Plus | 1分04秒 | 快速 | ⭐⭐⭐⭐⭐ |
| GPT-5.2 | 1分22秒 | 快速 | ⭐⭐⭐⭐⭐ |
| Claude-sonnet 4.5 | 1分42秒 | 中等 | ⭐⭐⭐ |
| Minimax-M2.5 | 2分15秒 | 快速 | ⭐⭐⭐⭐ |
| GLM-5 | 3分32秒 | 快速 | ⭐⭐⭐ |
测试2:福珍-口播文案¶
| 模型 | 响应时间 | 速度感受 | 速度评级 |
|---|---|---|---|
| GPT-5.2 | 19秒 | 快速 | ⭐⭐⭐⭐⭐ |
| Qwen 3.5-Plus | 22秒 | 快速 | ⭐⭐⭐⭐⭐ |
| Claude-sonnet 4.5 | 59秒 | 快速 | ⭐⭐⭐⭐ |
| Minimax-M2.5 | 1分08秒 | 快速 | ⭐⭐⭐⭐ |
| GLM-5 | 1分52秒 | 快速 | ⭐⭐⭐ |
3.2 响应速度分析¶
GPT-5.2和Qwen 3.5-Plus响应最快。在两个任务中,这两个模型的响应时间均处于领先水平,尤其是处理短内容任务(测试2)时,GPT-5.2仅需19秒,Qwen 3.5-Plus仅需22秒。
长内容任务(测试1)耗时普遍较高。这是因为政策解读类长文需要更长的内容生成时间。Minimax-M2.5在测试1中耗时2分15秒,虽然绝对时间较长,但考虑到输出内容(约1,800 tokens),生成效率仍然较高。
GLM-5在测试1中耗时最长(3分32秒),这与其最高的输入Token消耗(18,500)相关,处理更长的输入会导致更长的推理时间。
3.3 响应速度综合评级¶
| 模型 | 测试1耗时 | 测试2耗时 | 平均耗时 | 综合评级 |
|---|---|---|---|---|
| GPT-5.2 | 82秒 | 19秒 | 50.5秒 | ⭐⭐⭐⭐⭐ |
| Qwen 3.5-Plus | 64秒 | 22秒 | 43秒 | ⭐⭐⭐⭐⭐ |
| Claude-sonnet 4.5 | 102秒 | 59秒 | 80.5秒 | ⭐⭐⭐⭐ |
| Minimax-M2.5 | 135秒 | 68秒 | 101.5秒 | ⭐⭐⭐ |
| GLM-5 | 212秒 | 112秒 | 162秒 | ⭐⭐⭐ |
| 注:千问3.5 flash版本测试结果:测试1耗时39秒,测试2耗时14秒 | ||||
| --- |
四、质量评估分析¶
4.1 各模型质量自评汇总¶
测试1:侨梁-政策解读¶
| 模型 | 准确性 | 完整性 | 合规性 | 执行力 | 总分 |
|---|---|---|---|---|---|
| Minimax-M2.5 | 好 | 好 | 好 | - | 75/100 |
| GLM-5 | 好 | 好 | 好 | - | 75/100 |
| Qwen 3.5-Plus | 好 | 好 | 好 | - | 75/100 |
| Claude-sonnet 4.5 | 好 | 好 | 好 | - | 75/100 |
| GPT-5.2 | 一般 | 好 | 好 | - | 65/100 |
测试2:福珍-口播文案¶
| 模型 | 准确性 | 完整性 | 合规性 | 风格匹配 | 总分 |
|---|---|---|---|---|---|
| Minimax-M2.5 | 好 | 好 | 好 | 好 | 100/100 |
| GLM-5 | 好 | 好 | 好 | 好 | 100/100 |
| Qwen 3.5-Plus | 好 | 好 | 好 | 好 | 100/100 |
| Claude-sonnet 4.5 | 好 | 好 | 好 | 好 | 100/100 |
| GPT-5.2 | 好 | 好 | 好 | 好 | 100/100 |
4.2 质量深度分析¶
测试1:侨梁-政策解读¶
Minimax-M2.5:输出结构完整,覆盖老法表A/表B、新法排期、不同人群行动建议。政策数据来源于2026年3月签证公告和网络搜索,已交叉验证。避免了"100%成功"等违规表述,有免责声明,CTA自然融入。
GLM-5:数据来源于美国国务院签证公告官方文件,标注了来源和日期。涵盖表A/表B数据、老法新法对比、关键时间节点、行动建议,符合1,500-2,000字要求。使用了"有望"、"建议"等表达方式,保持专业但有温度的调性。
Qwen 3.5-Plus:所有政策数据均来源于官方签证公告和权威移民机构解读,标注了数据来源和发布时间。覆盖老法/新法排期数据、深度解读、三类人群行动建议、风险提示、下一步行动指引。避免了"保证获批"等夸大表述,添加了免责声明。
Claude-sonnet 4.5:所有数据来自美国国务院官方2026年3月签证公告,已标注来源和发布日期。覆盖了EB-5各类别排期、政策背景、实际影响和行动建议。避免了"保证获批"等夸大表述,明确提示"具体情况请咨询专业移民律师"。
GPT-5.2:未能引用DOS/USCIS官方原文与具体cut-off日期,采用"方法论+影响路径"写法规避数字错误。覆盖表A/表B读法、Unreserved vs Set-Aside差异、对不同人群的行动建议,并提供可补全的占位符。准确性评分为"一般",其他维度表现良好。
测试2:福珍-口播文案¶
所有模型在测试2中的表现均较为出色:
内容结构:所有模型都包含了"钩子-案例-教训-CTA"的完整结构,符合口播文案的标准格式。
风格匹配:所有模型都严格按照娟姐的人设风格撰写,使用了亲切、接地气的话术,如"你猜是因为啥"、"我跟你说"、"前两天有个老板"等典型表达。
合规性:所有模型都添加了AI创作声明提醒,避免了绝对化用语和违规引导,互动引导合规(如使用"评论区扣1"而非直接要求"点赞收藏关注")。
停顿标注:多数模型在口播文案中标注了【停】【重】等录制提示,方便用户实际录制。
4.3 质量评分矩阵¶
| 模型 | 准确性(25) | 完整性(25) | 合规性(25) | 执行力(25) | 总分(100) |
|---|---|---|---|---|---|
| Claude-sonnet 4.5 | 25 | 25 | 25 | 22 | 97 |
| Qwen 3.5-Plus | 25 | 25 | 25 | 22 | 97 |
| Minimax-M2.5 | 23 | 25 | 25 | 22 | 95 |
| GLM-5 | 23 | 25 | 25 | 22 | 95 |
| GPT-5.2 | 18 | 25 | 25 | 22 | 90 |
说明:以上分数为基于测试表现的综合评分。准确性维度根据各模型在测试中的实际表现进行微调。
五、综合对比矩阵¶
5.1 多维度综合对比¶
| 评估维度 | Minimax-M2.5 | GLM-5 | Qwen 3.5-Plus | Claude-sonnet 4.5 | GPT-5.2 |
|---|---|---|---|---|---|
| 成本效率 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐ | ⭐⭐⭐⭐⭐ |
| 响应速度 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 输出质量 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 专业内容准确性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 创意内容匹配 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 综合推荐 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
5.2 性价比分析¶
| 模型 | 平均成本 | 质量得分 | 性价比指数 |
|---|---|---|---|
| GPT-5.2 | $0.0014 | 90 | 64.3 |
| Qwen 3.5-Plus | $0.0045 | 97 | 21.6 |
| Minimax-M2.5 | $0.0028 | 95 | 33.9 |
| GLM-5 | $0.0083 | 95 | 11.4 |
| Claude-sonnet 4.5 | $0.0140 | 97 | 6.9 |
性价比指数计算公式:质量得分 / 平均成本 × 10
关键发现:GPT-5.2的性价比指数远超其他模型,主要得益于其极低的成本。虽然在专业内容准确性上略逊于其他模型,但其极低的成本使其成为预算敏感场景的首选。
六、总结与建议¶
6.1 核心发现¶
1. 成本差异显著
不同模型的Token消耗差异巨大,GPT-5.2的Token消耗仅为Claude-sonnet 4.5的3-8%,这直接导致了成本数量级的差异。在大规模生产场景中,模型选择对总体成本的影响不容忽视。
2. 质量普遍较高,但有侧重
所有模型在创意内容匹配(口播文案)任务上均表现出色,准确率较高。但在专业内容(政策解读)任务上,GPT-5.2采用"方法论"写法规避数字错误,准确性略低于其他模型。
3. 响应速度整体可接受
所有模型的响应速度都在可接受范围内(最快19秒,最慢3分32秒)。GPT-5.2和Qwen 3.5-Plus在响应速度上表现最佳。
4. 各模型有明确的特点定位
| 模型 | 核心优势 | 适用场景 |
|---|---|---|
| GPT-5.2 | 成本极低、响应快 | 预算敏感、批量生产 |
| Qwen 3.5-Plus | 平衡型、响应快 | 日常内容生产 |
| Claude-sonnet 4.5 | 专业深度 | 高要求专业内容 |
| Minimax-M2.5 | 稳定性 | 常规内容生产 |
| GLM-5 | 中规中矩 | 通用场景 |
6.2 模型选用建议¶
场景一:预算敏感,需要大量产出
推荐使用GPT-5.2。虽然在专业内容准确性上略有不足,但其极低的成本使其非常适合预算敏感场景。可以考虑在产出后增加人工审核环节来弥补准确性不足。
场景二:追求质量,专业内容为主
推荐使用Claude-sonnet 4.5或Qwen 3.5-Plus。Claude-sonnet 4.5在专业内容上表现最为深入,Qwen 3.5-Plus则在质量和成本之间取得了较好的平衡。
场景三:日常内容生产
推荐使用Minimax-M2.5或Qwen 3.5-Plus。这两个模型在质量、稳定性和成本方面都有不错的表现,适合日常内容生产需求。
6.3 后续测试建议¶
1. 扩大测试样本
本次测试每个模型仅执行一次,建议后续增加重复测试以评估模型的一致性。
2. 增加任务类型
可以增加更多类型的创作任务,如敏感词检测、选题策划、案例故事等,以全面评估模型能力。
3. 引入人工评估
虽然模型自评提供了基本参考,但引入人工评估可以更准确地判断输出质量。建议后续测试增加人工评估环节。
4. 长期成本追踪
建议建立长期的成本追踪机制,统计实际生产环境中的Token消耗和成本数据,以获得更准确的成本分析。
附录:测试原始数据¶
附录A:Minimax-M2.5测试数据¶
| 任务 | 响应时间 | 输入Token | 输出Token | 成本 | 质量自评 |
|---|---|---|---|---|---|
| 侨梁-政策解读 | 2分15秒 | ~3,500 | ~1,800 | $0.0045 | 准确性好、完整性好、合规性好 |
| 福珍-口播文案 | 1分08秒 | ~1,200 | ~350 | $0.0011 | 准确性好、完整性好、合规性好、风格匹配好 |
附录B:GLM-5测试数据¶
| 任务 | 响应时间 | 输入Token | 输出Token | 成本 | 质量自评 |
|---|---|---|---|---|---|
| 侨梁-政策解读 | 3分32秒 | ~18,500 | ~2,800 | $0.0135 | 准确性好、完整性好、合规性好 |
| 福珍-口播文案 | 1分52秒 | ~3,200 | ~850 | $0.0030 | 准确性好、完整性好、合规性好、风格匹配好 |
附录C:Qwen 3.5-Plus测试数据¶
| 任务 | 响应时间 | 输入Token | 输出Token | 成本 | 质量自评 |
|---|---|---|---|---|---|
| 侨梁-政策解读 | 1分04秒 | 3,500 | 2,800 | $0.0060 | 准确性好、完整性好、合规性好 |
| 福珍-口播文案 | 22秒 | 2,800 | 950 | $0.0029 | 准确性好、完整性好、合规性好、风格匹配好 |
附录D:Claude-sonnet 4.5测试数据¶
| 任务 | 响应时间 | 输入Token | 输出Token | 成本 | 质量自评 |
|---|---|---|---|---|---|
| 侨梁-政策解读 | 1分42秒 | ~42,000 | ~2,800 | $0.0240 | 准确性好、完整性好、合规性好 |
| 福珍-口播文案 | 59秒 | ~4,800 | ~800 | $0.0039 | 准确性好、完整性好、合规性好、风格匹配好 |
附录E:GPT-5.2测试数据¶
| 任务 | 响应时间 | 输入Token | 输出Token | 成本 | 质量自评 |
|---|---|---|---|---|---|
| 侨梁-政策解读 | 1分22秒 | 260 | 1,250 | $0.0020 | 准确性一般、完整性好、合规性好 |
| 福珍-口播文案 | 19秒 | 260 | 330 | $0.0007 | 准确性好、完整性好、合规性好、风格匹配好 |
报告生成日期:2026年2月27日
测试方法:AI模型调用文案创作Skill效果测试
分析维度:成本测算、响应速度、输出质量