judge - 搜索 News

18 天

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

【新智元导读】AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

红板报 on MSN10 小时

在小红书上频繁看到带有李诞标志光头形象的直播切后，网友们开始觉得这一现象有些诡异。在李诞的带货直播间里，他常常一个人出现，用自己的上半身挤满整个竖屏画面，挨个读着粉丝投递的问题来信，像深夜电台的主播，观看并评论着来自陌生网友的各种情感八卦与生活疑惑 ...

18 天

AI时代的新纪元：田渊栋团队推出革命性Agent-as-a-Judge，成本降低97%

在当今数字化时代，人工智能（AI）正以前所未有的速度改变着我们的生活和工作方式。田渊栋教授领导的研究团队近日发布的全新框架——Agent-as-a-Judge，可能成为AI发展史上的一个重要里程碑。这一创新不是简单的技术提升，而是一场范式的转变，标志着AI自我评估能力的飞跃。研究指出，该框架能够将评估成本降低整整97%，引发了业内的广泛关注。一、什么是Agent-as-a-Judge？ Agen ...

美国之音1 天

年轻的黑人和拉丁裔男性：选择特朗普是因为经济和就业

来自德克萨斯州贝尔顿的31岁小企业主布莱恩·莱哈(Brian Leija)对今年越来越多的拉丁裔男性投票给唐纳德·特朗普(Donald Trump)并不感到惊讶。莱哈在2016年和2020年都投票支持共和党。

腾讯网2 天

清华、国科大、智谱提出LongReward：用AI反馈改进长文本LLM

他们提出了一个名为 LongReward 的新方法，旨在利用现有的大语言模型（LLM）从四个人类价值维度（帮助性、逻辑性、忠实性和完整性）为长文本模型的回复提供奖励，并结合强化学习进一步提升模型的性能，从而有效地改进 SFT 模型。

腾讯网7 天

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

美国之音5 天

法官暂停特朗普2020年选举干预案的法庭审理期限

一名美国联邦法官搁置了当选总统唐纳德·特朗普(Donald Trump)2020年干预选举案中面临的所有未到期的法庭最后期限。联邦地区法院法官塔尼娅·查特坎(Tanya Chutkan)星期五(11月8日)批准了特别检察官杰克·史密斯 (Jack ...

6 天

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

本片工作揭示了 AI 大模型在多轮对话场景下面临的安全风险，甚至对有强推理能力的 OpenAI o1 也是如此。如何让 AI 大模型在多轮长对话中也能保持安全意识成为了一个重要问题。研究人员基于 ...

腾讯网22 天

揭秘“AI偏好”，南加州大学任翔及合作团队开发解决标注者分歧的 ...

大语言模型（LLM）日益普及并为数以千万计用户提供服务，确保这些系统能够适应多元化的用户需求变得至关重要。在 AI ...

中時新聞網2 天

MLB》年度大奖入围者出炉大谷翔平预约第3座MVP

大联盟12日公布了2024年的最大奖项入围名单，今年头号惊喜应该是只剩「一刀流」的大谷翔平开创史无前例的50-50俱乐部（54轰59盗），他即将成为史上首位获选年度MVP的全职指定打击。前几年大谷在美联争夺MVP，几位顶 ...

财富中文网11 天

杰克·多尔西再次在Tidal大规模裁员

这是Tidal在不到一年的时间里第二次进行裁员。2023年12月，这家流媒体公司裁减了10%的员工。而在今年7月，多尔西告诉Block公司的员工，要为公司的全面重组做好准备，从而让公司回到“我们作为一家公司最初的样子”（据《财富》杂志当时报道）。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果