11月9日是德国柏林墙倒塌35周年纪念日。就在这个纪念日的前夕,来自东德和中国的民主人士齐聚一堂,在柏林查理检查站旁的Asisi Panorama展馆,共同纪念35年前的柏林墙倒塌以及及天安门事件。
研究团队采用了一种基于评分的评估方式(VQAScore),通过调整同一问题下两个不同选项的得分差,确保模型在回答「是」和「否」时的比例保持一致。仅凭这一简单调整,像 GPT-4o 这样的强大模型的表现几乎翻了两倍!