固定测试样本
准备短答、推理、结构化 JSON、长上下文和工具调用样本。每次测试保持模型名、参数和提示词一致,减少偶然因素。
准备短答、推理、结构化 JSON、长上下文和工具调用样本。每次测试保持模型名、参数和提示词一致,减少偶然因素。
记录模型字段、usage 字段、错误格式、流式事件、上下文上限和拒答边界。字段缺失或长期不一致,通常需要继续核验。
模型标价、倍率、消耗 token 和余额扣减应能解释。标称高阶模型但扣费、能力和上下文都异常时,应提高风险等级。
单次输出会受提示词、采样参数和服务波动影响。多轮固定样本更容易看出稳定差异和重复异常。
不够。模型名称可能由包装层返回,还需要看能力边界、上下文、错误结构、流式事件和计费记录。
暂停扩大使用,保留请求和扣费记录,要求供应商说明模型来源、权限和路由规则;核心业务建议切回已验证通道。