环球快消息!商汤科技:“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT
(资料图)
讯(记者 王可)中国证券报记者6月22日从商汤科技获悉,公司近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。
MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了ChatGPT(67.3分)、LLaMA-65B(63.5分)仅落后GPT-4(86.4分),位居第二。
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中,“商量SenseChat 2.0”测出49.91的分数,遥遥领先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中的AGIEval(GK)评测子集中,“商量SenseChat 2.0”以58.5分全面领先,仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准,“商量SenseChat 2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat 2.0”也表现居于前列。
今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。目前“商量SenseChat 2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。例如在需要大量文案工作的场景中,“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量SenseChat 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。
此外,“商量SenseChat 2.0”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的二八定律,即80%的代码由AI生成,20%则由人工生成。
商汤科技表示,截至目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat 2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
关键词:
相关阅读
-
环球快消息!商汤科技:“商量SenseChat...
中证网讯(记者王可)中国证券报记者6月22日从商汤科技获悉,公司近日 -
世界最资讯丨厦门献上文旅大餐,丰富端...
我市热门旅游景区人流量大。(本组图 厦门日报记者林铭鸿摄)中华城此 -
深圳龙华区2023年秋季民办学校小一初一...
深圳龙华区2023年秋季民办学校招生计划一览表序号所属办事处学校名称招 -
天天观热点:2023年龙泉驿区小升初公办...
2023年龙泉驿区小升初公办初中学校电摇号报名公告根据《成都经开区教育 -
2023成都金沙遗址博物馆端午节门票价格...
2023成都金沙遗址博物馆端午节门票门票价格:成人票70元优惠门票政策: -
增额终身寿险科普?增额终身寿险的全面...
增额终身寿险科普,增额终身寿险是保额会逐渐增加的、保障至终身的、以 -
市场动态汇总:波津三方交易将达成 湖...
北京时间6月22日,距离选秀大会只剩一天了,NBA各队抓紧谈判,寻求交易 -
游泳的香烟多少钱一条_游泳香烟一包多少...
问题:我没买过烟,所以不知道。现在一包烟的售价是多少?我去了解一下 -
当前速递!织牢全民禁毒网:首都禁毒戒...
人民网北京6月22日电(高清扬)近日,北京市监狱戒毒管理局召开专题新闻 -
速递!快来,一起感受端午传统文化魅力
端午节起源于中国,是中国首个入选世界非物质文化遗产的节日,习俗有划 -
天天短讯!福州、合肥、贵阳等城市GDP增...
福州、合肥、贵阳等城市GDP增速超过130%,你还在等什么?随着经济全球 -
知名品牌正式公告破产清算!网友唏嘘:...
6月20日“上海破产法庭”发布了一则公告:拉夏贝尔,期待与您牵手!... -
天天滚动:重庆东站4栋配套房建工程预计...
华龙网-新重庆客户端讯(记者刘艳)今(22)日,在中铁八局承建的重庆 -
【聚看点】两部门:优化研发费用加计扣...
国家税务总局、财政部6月21日发布公告,明确进一步优化研发费用加计扣 -
锦州古塔夜市…… 当前看点
为确保中考顺利进行,给广大考生营造一个良好的休息及出行环境,有效控 -
喝什么奶粉有助于长高(长高奶粉有哪些牌子?)
可以长高的奶粉要怎么选呢?1、蛋白质含量:蛋白质是儿童成长的重要营养 -
天天日报丨帅气!摩托车爱好者化身志愿...
随着摩托车和骑行者数量的不断增加,部分摩托车驾驶人安全意识、文明意 -
三羊马不超2.1亿可转债获深交所通过 申...
三羊马不超2 1亿可转债获深交所通过申港证券建功 -
端午临近 市场消费升温 今亮点
松花江网,是经国家互联网信息办公室批准的国家一类新闻网站,吉林省重 -
焦点热讯:中企与柬埔寨学生“沉浸式”过...
松花江网,是经国家互联网信息办公室批准的国家一类新闻网站,吉林省重