车型名称指导价二手车价格相关信息车型名称指导价二手车价格相关信息 ...
研究团队采用了一种基于评分的评估方式(VQAScore),通过调整同一问题下两个不同选项的得分差,确保模型在回答「是」和「否」时的比例保持一致。仅凭这一简单调整,像 GPT-4o 这样的强大模型的表现几乎翻了两倍!