人工智能面临测评挑战
评估人工智能的困境
在人工智能领域,先进的工具如ChatGPT、Gemini和Claude等,虽然表现出色,但我们无法准确评估其智能程度。这是因为,人工智能模型在上市前没有统一的标准认证或独立的第三方严格测试。
相比汽车、药品或婴儿配方奶粉等产品,人工智能模型的测评体系缺乏透明度和可靠性。我们往往只能依赖人工智能公司提供的信息,而这些信息通常含糊不清,难以准确反映不同版本AI模型之间的实际差异。尽管已有一些测试体系用于评估模型在数学或逻辑推理方面的能力,但其结果的可靠性仍存疑。
缺乏标准评估体系的影响
没有可靠的信息,用户难以有效使用人工智能产品。即使是专门研究人工智能的专家,有时也难以追踪各种人工智能工具的相对优势和劣势。许多技术公司不会发布详细的使用说明,而人工智能模型的快速迭代更使得这种情况复杂化。某个前一天还困于某项任务的AI工具,可能第二天就会表现出色。缺乏高质量的测评标准,不仅使用户难以判断AI的进步速度,还可能忽视其潜在的社会危害。
传统测评方法的局限
多年来,图灵测试是衡量人工智能的流行方法。根据这一方法,如果机器能够与人类对话且不被辨认出其机器身份,就通过了测试。然而,现代人工智能已能轻松通过图灵测试,迫使研究人员寻找新的、更高难度的测评方法。
目前,最常用的测评工具是大规模多任务语言理解(MMLU)测试系统。MMLU包含约1.6万道选择题,覆盖数学、法律和医学等多个学科领域。AI模型答对的题目越多,其智能水平就越高。MMLU已成为人工智能公司争夺市场主导地位的黄金标准。然而,随着人工智能系统的不断进步,MMLU等现有测评体系将很快无法满足需求。
新的测评体系需求
现有的诸多测评手段,如TruthfulQA和HellaSwag等,也只能评估人工智能系统的一小部分能力,且无法回答许多用户关心的主观问题,如聊天体验、适用性和对话安全性等。此外,测试过程可能因公司而异,导致各类模型得分无法直接比较,还存在“数据污染”问题,即基准测试问题和答案可能包含在模型的训练数据中,从而变相允许其“作弊”。
没有独立测评或审核,意味着AI公司实际上是在给自己打分。目前的人工智能测评体系充满了草率的测试、不相容的对比和自我宣传,用户、监管机构和开发者因此难以找到头绪。
解决方案:公共与私人力量的结合
为解决这些问题,公共力量和私人力量需共同努力。政府应建立有效的人工智能测试标准和平台,评估AI模型的实际能力和安全风险,并资助研发高质量测评标准的研究项目。例如,斯坦福大学推出的新测试利用人工而非自动化系统来评判AI能力;加州大学伯克利分校的开放平台Chatbot Arena随机选择两个模型对决,让用户投票评估性能。
人工智能公司也应积极配合,与第三方评估人员合作测试模型,允许更多研究员使用新模型,并提高模型迭代的信息透明度。
结论
我们不能仅凭直觉评估AI技术。建立高质量的测评体系是有效利用人工智能的前提,也能帮助我们更好地应对其带来的挑战。只有通过科学、透明的测评,我们才能真正理解和控制人工智能的发展。
版权保护: 转载本文请保留链接: meiwen/217.html

