近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的应用。随着海外科技巨头微软、谷歌、Meta等加大投入,国内科技企业如百度、华为、阿里等纷纷布局,人工智能大模型的发展日新月异。
为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
(资料图片)
在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。
在评价规则上,课题组以各个大模型对参与测评的题目回答完成度,进行了综合考量,其中评测规则分为:答案较为完美,内容可在实际场景中直接使用;基本可用,可在实际场景中使用;调整可用,但需人工进行调整后方可使用;大略可用,需要较多人工调整方可使用;不可用,答非所问、语言不通等五个层级。
注:基于评测条件、评测时间等限制,本次评测结果存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。
通过围绕四个维度的综合测试,课题组发现,由OpenAI开发的Chat-GPT系列模型各项指标表现优异,且Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升。而由百度开发的人工智能大模型文心一言表现较为抢眼,是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。
针对各维度能力测评,该报告还给出了相应的案例展示和分析。
在基础能力部分,百度文心一言表现最为抢眼,讯飞星火、阿里巴巴通义千问、智谱ChatGLM表现优良;商汤商量、Vicuna-13B表现尚佳。
在智商测试部分,百度文心一言在该环节意外超过ChatGPT3.5,表现突出,阿里巴巴通义千问分数接近GPT3.5,商汤商量、讯飞星火、智谱ChatGLM表现尚佳;Vicuna-13B表现有待改进。
在情商测试部分,百度文心一言表现最佳;阿里巴巴通义千问与讯飞星火表现优良;商汤商量、智谱ChatGLM表现尚可;Vicuna-13B表现一般。
在工作提效部分,百度文心一言与智谱ChatGLM最佳,讯飞星火次之;阿里巴巴通义千问及Vicuna-13B表现尚可;商汤商量表现一般。
研究发现,人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。
报告指出,随着人工智能的地位和作用越来越重要,政府、企业和社会需要共同努力,各大厂商应投入更多资源,头部企业可以持续发力自研大模型,而专注于解决方案的行业厂商可以考虑通过深耕行业来彰显特色。
研判该报告的测评结果,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林建议,国内大模型发展应从两方面着力,一方面是大语言模型,中文并非ChatGPT的强项,OpenAI主业在英语,所以中文大语言模型对于中国市场还是有发展空间的;另一方面则是在细分领域应用,比如编程、专业知识问答、中文PPT制作等,这些细分的功能领域才是未来大模型真正需要关注的领域,也是从单个应用转变为生态应用的关键。
扫码查看
AI大模型体验报告
↓↓↓
关键词:
-
当前快报:实际使用感受如何?来看看这份《人工智能大模型体验报告》
近年来,人工智能技术迎来了新一轮大变革,其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的
-
天天微速讯:300英雄账号_300英雄账号密码大全
1、楼上在胡扯,密码记得却不记得帐号是找不回帐号的,记得自己的ID的话客服一定有能力帮你找到帐号。2、但
-
最新快讯!美调查:过半教师认为在校持枪会让学生更危险
美国又一起校园枪击案后,民众自发悼念遇难学生。海外网6月1日电据美国哥伦比亚广播公司报道,美国智库兰德
-
4消息!小胡特训,矣进宏试训北控,同曦官宣变动,李柏润或入京
4消息!小胡特训,矣进宏试训北控,同曦官宣变动,李柏润或入京,同曦,李柏润,胡明轩,cba,后卫线,矣进宏,北
-
全球微速讯:赛力斯:5月新能源汽车销量8562辆 同比降18.08%
赛力斯(601127)6月1日晚间公告,公司新能源汽车5月销量8562辆,同比下降18 08%;本年累计销量35,452辆,同
-
今日快看!试用员工转正申请表 试用期总结_试用员工转正申请表
1、转正申请书人力资源部:我叫XX,是本公司XX部员工,自XX年X月X日进入本公司,开始试用期工作。2、到目前
-
西班牙抗议摩洛哥将休达和梅利利亚称为摩洛哥领土|天天热文
此前,西班牙和摩洛哥双方签署的双边协议中重要的一条在于双方各自尊重对方的领土主权,但未具体提及领土范
-
当前视讯!板芙镇人民政府网站_板芙镇
1、板芙镇,隶属于广东省中山市,地处中山市南部,东傍五桂山,西临西江,南连珠海经济特区,北枕石岐中山
-
【焦点热闻】家常水煮肉片,盛夏的下饭神器
家常水煮肉片原料:里脊肉适量、豆芽适量、豆腐适量、豆腐皮适量、胡萝卜适量、西兰花适量、洋葱适量、小葱
-
全球简讯:SM回应称对EXO边伯贤金珉锡金钟大结算没有问题
搜狐韩娱讯SMTOWN否认结算有问题,对EXO边伯贤、金珉锡、金钟大解除专属合约的通报表明了追加立场。1日,SM
-
每日热点:热稳定性分析_热稳定性
1、热稳定性解释:试样在特定加热条件下,加热期间内一定时间间隔的粘度和其它现象的变化。2、在化学方面,
-
财通证券:首予哔哩哔哩-W(09626)“增持”评级 降本增效有望推动盈利拐点到来_世界快播报
智通财经APP获悉,财通证券发布研究报告称,首予哔哩哔哩-W(09626)“增持”评级,为国内中视频内容社区龙头
-
环球速递!万科股份旗下西安地产公司成被执行人 执行标的3393元
执行标的3393元,执行法院为西安市未央区人民法院。
-
小动物学游泳_小动物学游泳的故事 速读
小动物学游泳的故事点评:
-
短债基金防守属性凸显 国联安鸿利短债基金正在发行中
二季度以来A股震荡波动加剧,市场风险偏好明显降低,风险更低的短债基金配置需求升温。与此同时,市场对于
-
环球观焦点:赈早见琥珀川高清图片_赈早见琥珀川
1、千与千寻里的白龙名字到底叫什么我还是搞不清楚两个都写出来吧赈早见琥珀川にぎはやみこはくがわnigihay
-
noprintcartridge惠普m1005怎么解决_no print_当前报道
1、意思是:无打印墨盒。2、重点词汇:no英[nəʊ]释义:adv 不,完全不n 否定的回答;(复数:noes)(投票表
-
*ST嘉凯:公司股票将被终止上市,6月1日开市起停牌_全球信息
因触及交易类强制退市情形而终止上市的除外。”因此,公司股票不进入退市整理期。
-
稳健医疗:融资净偿还18.5万元,融资余额1.81亿元(05-31)|快播报
2023年5月31日稳健医疗融资净偿还18 5万元,融资余额1 81亿元
-
句句说到心里的句子(句句说到心坎上的句子100句)-世界微动态
来为大家解答以上问题。句句说到心里的句子,句句说到心坎上的句子100句这个很多人还不清楚,现在一起跟着