5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵,论坛上对该评测标准质疑的声音越发多了,这是为什么?大模型评测标准设立的难度又在哪里?
科大讯飞董事长刘庆峰认为:如果要努力追赶OpenAI的进度,需要一套科学系统的评测体系;用这一套科学系统,来判定技术迭代到底到了什么程度,还有哪些任务是不达标的。
市场看重中文大模型评测标准主要基于三方面考虑因素。
(资料图)
第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异,需要针对中文特点开发相应的数据集,以确保评测结果的准确性和公正性。
第二、语言结构和语法的差异。例如中文是一种“主谓宾”结构的语言,而英文则是“主语动词宾语”结构的语言。这些差异导致了中英文之间在语言处理任务上存在很大的区别,需要不同的评测标准和方法。
第三、中文词汇量和歧义性。中文的词汇量非常大,而且存在很多歧义性,需要更复杂的处理方法和技术,如分词、词性标注、命名实体识别等。
华尔街见闻·见智研究认为:中文大模型评测标准的重要性在于它可以帮助厂商相对客观地评估模型的质量和性能,比较不同模型的性能和差异。更重要的是标准化的评估方法和数据集能够为开发者提供很好的方向,促进模型迭代速度。
此前,IDC发布的大模型评测标准,从三个维度(产品能力、应用能力和生态能力)、6个一级指标和11个二级指标来评估中国大模型的能力。
并且给出结论:文心大模型在产品力和生态能力上都超过平均分水平。但是由于评测方法没有完全公开,貌似并没有被市场所完全认可。
所以,在大模型层出不穷的当下,市场上非常需要对模型的评估方法和一致性标准。
但从当下来看,这貌似又是一个在短期内非常难以兑现的预期。
刚刚发布的文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。
SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。
专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
以SuperCLUE测试结果来看,文心一言的评测结果远不如星火大模型;
而以另一种比较火的评测标准是JioNLP,该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室(简称“计算所NLP”)开发和维护的。
JioNLP评测还提供了多种评测指标和计算工具,以帮助研究者和开发者客观地评估模型的性能和效果,并比较不同模型的优缺点和适用范围。
JioNLP评测方式目前的总下载量达到2.4万次,近三十天下载量为1634次。
通过JioNLP评测,研究者和开发者可以获取实时的评测结果和排名,以及相应的源代码和技术报告,为中文自然语言处理的研究和应用提供参考和支持。
从JioNLP评测的结果来看:文心一言的得分却又高于星火大模型。
这背后的原因是两种评测的方法的设置有很大的差异性。
SuperCLUE是只通过选择题对模型能力进行测试,而JioNLP采用的是客观选择题+主观题(生成题、翻译题和聊天题)进行测试。
但相同的是,在官网留言区对于两个测试标准都出现很多质疑声音。
如:对SuperCLUE评测方法如何限定测试题目数量,生成和创作类评测用选择题测试是否合理,以及建议SuperCLUE像中文Alpaca一样适度公开评测说明和标准。JioNLP也同样存在测试精度、样本量小等问题。
见智研究认为:当下对大模型的评估方法和指标还没有形成共识、更没有统一的标准出现,特别是对于不同场景和任务可能有不同的评价体系和需求出现。
常用的机器学习模型评估标准有7个比较重要的方向:
包括准确度(针对分类能力)、精确度和召回率(模型正确预测的内容占该样本的比例)、对抗攻击鲁棒性(模型在受到输入干扰时保持稳定的能力)、计算效率、均方误差、R方值以及数据隐私。
从当下来看,SuperCLUE的评测方式单一性确实存在一定的弊端,但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。
总的来说,大模型测试标准化是行业所需要的,但同样也是非常难实现的。
标签:
数据集的差异性、语言结构语法差异是需要中文评体系的原因,但是不...
交行:预计二季度对公信贷增速较一季度将有所放缓,交行,信贷,金融,...
1、这次我们能在语文科小品《小兔梦游记》比赛中获奖,首先要感谢每...
辽港股份(601880)05月10日在投资者关系平台上答复了投资者关心的问题。
人民网上海5月10日电(陈晨)粉墙黛瓦、古朴大方的建筑风格尽现浙东...
在李俊慧的苏杯经历中,既有2017年六连冠终结的挫折,又有2019年重...
迫在眉睫!美智库:美国或最早6月出现债务违约,耶伦,两党,美智库,美...
1、岩色跃蛛。2、Sitticussaxicola(C L Koch)。3、跳蛛科跃蛛属的...
6 28万起!“超大微卡”五菱龙卡正式上市!
欢迎观看本篇文章,小勉来为大家解答以上问题。苏青个人资料简介,...
10日,“北京工业大学出版社”微信公号就网友反映《写给孩子看的中...
2003年,中国航天员杨利伟从酒泉卫星发射中心出发,迈出了中国人遨...
每经记者:林姿辰 每经编辑:陈俊杰5月10日,中国中药产业战...
金投网提供2023版8克熊猫金币价格(2023年05月10日),2023年8克面...
“养老驿站”助乡村老人乐享晚年,
1、平顶山实验高中升学率怎么样郏县实验高中师资力量雄厚,校园环境...
当前,“必须关注公众号才能开发票”“必须使用小程序才能点餐”“...
5月9日,太极股份(002368)融资买入4279 46万元,融资偿还4034 3...
“以钢炼钢”节能减排四川泸州钢铁企业加快转型
为配合虹桥人才公寓项目的投入使用,日前,由区房管局实施的住宅配...
5月9日,新凤鸣(603225)融资买入319 43万元,融资偿还127 61万...
金融界基金05月10日讯华夏中证基建ETF基金05月09日下跌2 26%,现价...
自闭症(Autism)是一种包含多种症状的障碍,包括社交困难、沉迷于某...
没有女人不爱打扮的,除非她放弃做女人改做女汉子,但是有一部分的...
1、无限斯特拉托斯改编自弓弦逸鹤著作的轻小说《InfiniteStratos》...
1、截止至2014年底,我国的高速公路总里程已经达到了11 195万公里...
欢迎观看本篇文章,小柴来为大家解答以上问题。qq高清头像怎么设置...
今年一季度,我国海洋产业稳步发展,海洋经济实现良好开局。“随着...
1、这部电影叫做《提防老千》中文名:防止老千外文名:WiseGuysNeve...
1、徂徕cúlài徂徕山,又称龙徕山,驮来山,是泰山的姊妹山。2、地...