【世界热闻】模型“日日新”！中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

2023-06-22 18:58:28 来源：新民晚报

来源/东方IC

【资料图】

近日，商汤科技公布了自研中文语言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果，“商量2.0”在三个测试集中表现均领先ChatGPT，实现了我国语言大模型研究的重要突破。

截至目前，已有近千家企业客户通过申请，应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

图说：各语言大模型在三个评测基准中的得分情况采访对象供图（下同）

“商量2.0”综合能力超ChatGPT

商汤科技公布的评测结果，选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval，结果显示“商量2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT-4的水平。

图说：图中粗体表示结果最佳，下划线表示结果第二

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。在该评测中，“商量2.0”综合得分为68.6，超过了ChatGPT（67.3分），落后GPT-4（86.4分）。

图说：图中粗体表示结果最佳，下划线表示结果第二

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中，“商量2.0”测出49.91的分数，再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中一项评测子集中，“商量2.0”以58.5分仅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准，“商量2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom等一众海内外大模型。

技术创新+应用落地推动能力持续提升

今年4月，商汤正式发布“商汤日日新”大模型体系，以及自研中文语言大模型“商量”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中，通过对比成绩与表现，可以了解各大预言模型的特点与差异，并且直观地了解每个大语言模型当前的智能水平。目前“商量2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中，“商量2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

此外，“商量2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的“二八定律”——80%的代码由AI生成，20%则由人工生成。

据悉，商汤大语言模型能力的提升源于更多高质量中文数据的训练学习，得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型增强推理能力的同时，减轻了传统大模型的幻觉问题。

【世界热闻】模型“日日新”！中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

为您推荐

【世界热闻】模型“日日新”！中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

2023年06月21日全国甜瓜报价分析

赵本山宋小宝范伟电影全集赵本山导演兼主演

环球快看点丨大菠萝证实打美网传言，萨芬也要凑热闹，杭州国际网球名人赛即将挥拍

聚焦“百千万工程”｜新兴12个乡镇“政银企村户”共建家庭农场项目全部开建_每日速讯

官方独立第一导航_第一导航勃起|快看点

马自达CX3更大更性感CX3-世界热讯

众生胶囊处方药转换为非处方药

君越艾维亚音响声音突然变大_别克老君越发动机舱声音变大-全球热讯

微速讯：柳州市人民医院创新打造首席专家团队切实提升患者就医体验

下一代保时捷911 GT3可能会配备涡轮增压器-世界观焦点

鲜红釉金彩云龙纹盘_关于鲜红釉金彩云龙纹盘简述

焦点关注：续写CBR400R赛道精彩传奇｜南京站圆梦收官！

9年来首次，北京冲上40℃

每日快看：存款利率降了，对我们有哪些影响？

世界热门:合肥到宿州大巴多少小时到_合肥到宿州大巴时刻表

热热热持续多地发布高温预警世界热资讯

哈尔滨学院举办“创意设计创客周”文创博览会资讯推荐

新华视点丨做好黄河“水文章” 美丽乡村入画来环球报道

距离宣布胜利还有一段距离？市场恐低估了美联储的决心前沿热点

果品

蔬菜