EVALUATION - 搜索 News

2 小时

研究团队采用了一种基于评分的评估方式（VQAScore），通过调整同一问题下两个不同选项的得分差，确保模型在回答「是」和「否」时的比例保持一致。仅凭这一简单调整，像 GPT-4o 这样的强大模型的表现几乎翻了两倍！

2 小时

CHIEF在多种癌症类型中都达到了高准确率。在检测一种名为弥漫性大B细胞淋巴瘤的血液癌症中的EZH2基因突变时，CHIEF达到了96%的准确率；在检测甲状腺癌中的BRAF基因突变时，CHIEF的准确率达到了89%；在检测头颈部癌症中的NTRK1基因突变时，准确率为91%。

23 小时

哈佛全新类ChatGPT癌症诊断AI登上Nature，准确率最高96%

CHIEF在多种癌症类型中都达到了高准确率。在检测一种名为弥漫性大B细胞淋巴瘤的血液癌症中的EZH2基因突变时，CHIEF达到了96%的准确率；在检测甲状腺癌中的BRAF基因突变时，CHIEF的准确率达到了89%；在检测头颈部癌症中的NTRK1基因突 ...

腾讯网5 小时

超适合炒菜的油，很多人却只拿来凉拌

伴随着地中海饮食近几年知名度的飙升，中国人对橄榄油的认知和接受度也越来越高。不过，每每跟患者或朋友们建议适度使用橄榄油烹调，大家都会抱怨橄榄油不能高温。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍我就纳闷了？人家橄榄油咋就不能炒菜呢？再说了，恨不得全国人民一 ...

来自MSN13 小时

SafeBench：多模态大模型安全评估框架

相关论文以《SafeBench：多模态大型语言模型的安全评估框架》（SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models）为题发表在预印本网站 arXiv 上。此前，已经有部分研究针对 MLLMs 提出了一系列安全评估基准，但它们在数据质量和评估可靠性上仍存在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果