Humanity’s Last Exam一个致力于收集难题以评估和提升人工智能(AI)系统能力的平台,其鼓励用户提交那些能够难倒当前AI系统的高难度问题。以下是该网站的详细介绍:
提交问题:用户首先需要用英语提出一个有效且极具挑战性的问题,这个问题应该是AI和普通人类难以回答的。目标是提出那些只有杰出个体才能正确回答的问题。
AI评估问题难度:用户创建问题后,平台会要求最先进的AI模型尝试回答这个问题,以帮助确定问题的难度是否适中。
撰写答案解释:如果问题对AI来说并不容易,用户需要为其问题提供一个详尽但简洁的解答。
同行评审:提交问题、答案和理由后,平台会进行手动审核,以保持基准测试的质量。答案的理由将帮助专家和AI确定用户提供的答案是否正确。用户可以随时在仪表板上更改或删除已提交的问题。
发布:如果用户的问题被选入数据集,他们的贡献将与问题一起被突出显示。撰写更多被接受问题的人将在论文作者列表中更早出现,并且顶级问题撰写者也将在附录中被强调,如果他们选择出现在论文上。前50个问题将获得5000美元的奖金,接下来的500个问题将获得500美元的奖金,总共有500000美元的奖金。(一小部分这些问题将被保留为私有,以检测AI是否在作弊和记忆答案。如果用户的问题被放入私有的作弊检测数据集中,他们仍然会在论文中得到认可。论文的共同作者身份是可选的。)
问题要求:
原创性:问题必须是原创的,不能从他人那里复制粘贴。可以包括用户自己创建的考试问题,前提是答案不是公开的,且问题极具挑战性。
挑战性:问题应该对非专家来说很难,不容易被普通人回答。问题不应是简单的诡计问题,也不应是直接的计算/计算问题。这些问题可能如此具有挑战性,以至于它们对于现实世界的人类考试或问题集来说是不切实际的。答案不应容易通过谷歌搜索找到。如果AI正确回答了你的问题,应该会让你印象深刻。
客观性和自包含性:问题应该有其他具有相关专业知识的专家接受的答案。不接受高度争议的、“个人品味”的、模糊的或主观的问题。所有必要的上下文和定义都应包含在问题中(不要链接到外部来源)。只要它是标准的、明确的,并且在你的专业领域内被广泛认可,就可以使用技术术语或符号而不定义。答案不应有很多小数位或不精确。
无武器问题:不接受有关病毒学的问题。不接受与化学、生物、放射性、核武器或用于攻击关键基础设施的网络武器高度相关的问题。
该网站由多个AI领域的知名组织和公司支持,包括但不限于Scale AI、OpenAI、Claude AI和Google Gemini。
百度学术是一个综合性的学术资源搜索与服务平台,提供海量的学术文献信息,支持用户进行高效的学术研究和学习。