12月28日,2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会(下称“大会”)将在成都市正式举办。
一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”,将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
大会举办前夕,红星资本局对话了香港科技大学计算机系助理教授何俊贤,他主要研究关注大语言模型的efficient adaption, factuality, reasoning, evaluation等方向。何俊贤担任ACL和EMNLP的领域主席,论文入选ACL 2019最佳系统论文提名、ICLR 2022最有影响力论文榜单(paper digest),曾获百度AI博士奖学金、AI华人新星百强等荣誉。他指导学生发布了大模型的中文权威评测基准C-Eval,发布以来下载量超过50万次。
何俊贤表示,大语言模型距离大众很近,新技术很快会被大众感知。他们工作的终极目标,是实现真正意义上的强人工智能。
以下是对话实录:
红星资本局:ChatGPT很受欢迎,也正是你研究的语言方向大模型。如何来衡量一个大语言模型的智能程度?
何俊贤:真正的智能,是用户已经分辨不出,对面到底是一个专家,还是一个机器。
真正的智能不只是闲聊,比如推荐商品,询问今天的天气,还可以问关于历史数学物理的各种知识,甚至可以上传一道考试题,直接问这道题怎么做,也可以帮你写代码,帮你写新闻稿。
如果这些方方面面的事情都可以做得很好,感觉很聪明,可以获取世界上的知识,也有很强的推理能力。那么我们觉得这已经和真人无异了。
红星资本局:你指导学生发布了大模型的中文权威评测基准C-Eval,和之前的评测榜单有什么区别?
何俊贤:C-Eval是中文的第一个测大模型的评测基准。
以前在自然语言处理方向,也有很多中文的数据集和评测基准被广泛应用。但随着去年底像GPT这样的大模型出来后,很多以前的测评就没那么全面,因为大模型的能力实在太强了。以前的评测基准的区分度不够,行业突然经历大变革,急需新的评测基准来帮助大家开发模型。
如果没有评测基准,开发会非常困难,就像航行没有指南针。因为在整理数据做训练来开发模型的过程中,没有标准来告诉你,方向到底是对还是错。
之前传统评测基准的任务就像有一条点评,帮我预测到底是一星的还是两星的,到底是正面还是负面的评价,这种任务相对来说很简单。
现在C-Eval的任务是真的高考、考研的,以及清华北大上交这些学校本科生的数学物理生物真题,有50多个科目,和以前的难度很不一样。
红星资本局:如果要处理现在更高的难度,对大模型提出的新要求在哪?
何俊贤:大模型需要能够准确记忆更多的知识,且能够进行更复杂的推理。
红星资本局:从C-Eval的题目来看,不只考验信息的储备能力,还有数理类的解题能力?
何俊贤:一个模型除了知识以外,还很重要的是分析能力,因为我们认为真正的智能是需要推理的。
一方面,以中文的背景来说,模型需要知道很多知识,包括和中国文化有关的历史、政治、地理等各方面的知识。这需要记忆能力,但记忆能力比较浅显,只需要记住就可以。
另一方面,数学和物理需要的逻辑推理能力很难。知道数学和物理的原理,要运用原理,用一定的逻辑把题目解出来。这本质上是一种强逻辑的测试,往往对大脑非常难,因为某种程度上,这才关系到真正的智能。
红星资本局:C-Eval榜单测过的近100个模型中,中文的大语言模型到哪个阶段了?和ChatGPT4.0的差距还有多少?
何俊贤:跟ChatGPT4.0的差距还是很大的。因为ChatGPT在中文基准上,没有办法完全反映出它的优势。
我们5月份测的时候,ChatGPT4.0是遥遥领先的,比第二名要高很多。但是现在ChatGPT4.0在我们的榜单上,可能只排到前10左右。一方面因为C-Eval测评的一部分需要死记硬背,测的又是中国文化,ChatGPT没有那么擅长。另一方面因为国内很多模型有对C-Eval进行针对性的优化,导致榜单数字虚高,也就是我们常说的“刷榜”行为。
但是从更多的评测来看,以及大家直观的感受,其实国内的模型和ChatGPT4.0的差距还很大。用户的感受是最直观的,这很难欺骗大众。
红星资本局:对中文的大模型来说,需要解决的差距在哪?
何俊贤:国内的模型和ChatGPT最大的差距,还是强推理能力上。这关系到更高层次的智能,真正的差距并不是死记硬背的那部分。
真正的差距,是一些很难的任务,比如说让它帮你写代码,让它理解一个很长的指令,然后让它自己推理的能力,这方面的差距非常大。这是很关键的能力,死记硬背上的差距并没有那么大。