【新智元导读】AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。
在小红书上频繁看到带有李诞标志光头形象的直播切后,网友们开始觉得这一现象有些诡异。 在李诞的带货直播间里,他常常一个人出现,用自己的上半身挤满整个竖屏画面,挨个读着粉丝投递的问题来信,像深夜电台的主播,观看并评论着来自陌生网友的各种情感八卦与生活疑惑 ...
在当今数字化时代,人工智能(AI)正以前所未有的速度改变着我们的生活和工作方式。田渊栋教授领导的研究团队近日发布的全新框架——Agent-as-a-Judge,可能成为AI发展史上的一个重要里程碑。这一创新不是简单的技术提升,而是一场范式的转变,标志着AI自我评估能力的飞跃。研究指出,该框架能够将评估成本降低整整97%,引发了业内的广泛关注。 一、什么是Agent-as-a-Judge? Agen ...
来自德克萨斯州贝尔顿的31岁小企业主布莱恩·莱哈(Brian Leija)对今年越来越多的拉丁裔男性投票给唐纳德·特朗普(Donald Trump)并不感到惊讶。莱哈在2016年和2020年都投票支持共和党。
他们提出了一个名为 LongReward 的新方法,旨在利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的性能,从而有效地改进 SFT 模型。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
一名美国联邦法官搁置了当选总统唐纳德·特朗普(Donald Trump)2020年干预选举案中面临的所有未到期的法庭最后期限。 联邦地区法院法官塔尼娅·查特坎(Tanya Chutkan)星期五(11月8日)批准了特别检察官杰克·史密斯 (Jack ...
本片工作揭示了 AI 大模型在多轮对话场景下面临的安全风险,甚至对有强推理能力的 OpenAI o1 也是如此。如何让 AI 大模型在多轮长对话中也能保持安全意识成为了一个重要问题。研究人员基于 ...
大语言模型(LLM)日益普及并为数以千万计用户提供服务,确保这些系统能够适应多元化的用户需求变得至关重要。 在 AI ...
大联盟12日公布了2024年的最大奖项入围名单,今年头号惊喜应该是只剩「一刀流」的大谷翔平开创史无前例的50-50俱乐部(54轰59盗),他即将成为史上首位获选年度MVP的全职指定打击。前几年大谷在美联争夺MVP,几位顶 ...
这是Tidal在不到一年的时间里第二次进行裁员。2023年12月,这家流媒体公司裁减了10%的员工。而在今年7月,多尔西告诉Block公司的员工,要为公司的全面重组做好准备,从而让公司回到“我们作为一家公司最初的样子”(据《财富》杂志当时报道)。