品玩11月11日讯,据 斯坦福官方消息,李飞飞与吴佳俊团队联手,推出一个用于一小时视频语言理解的基准数据集,名为HourVideo。 据悉该数据集由一个新颖的任务套件组成,包括总结、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)和导航 ...