腾讯大模型的绝活,居然是发布会上没吹的写代码?
就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。
为什么要说终于?
(资料图片仅供参考)
在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。
其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。
方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。
后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。
所以这也让差评君对混元的期待值,越来越高。
毕竟上一个用 “hun yuan ” 名号的,可是打了一整套闪电五连鞭。
话不多说,下面就开始新一轮大模型测试。
本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT。
整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。
这次我们一反常态,把长文总结能力的测评放在了第一位。
因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。
至于能不能当成省流版,往下看你就懂了。
混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。
但当我让他展开讲讲的时候其实还行,但可惜无中生有了 “ 长文总结 ” 这个模块。
而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。
在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。
向上滑动
看来,这俩大模型总结得都没那么完美,想看看两家到底什么水平,大家还得仔细往下看正文。
首先我们做的测试是常规的语义理解问题。
问题是理解 “ 原来谁都看不上,现在谁都看不上 ” 。
这句话混元理解得挺好,基本解释了我对单身这事的调侃,两个 “ 看不上 ” 都解释上了。
但 ChatGPT 说的依旧很 ChatGPT ,说最多的话,犯最蠢的错。
他本来解释得相当到位,特别是分析这句话是用幽默的方式来调侃单身,还带着一丝无奈情绪,很高级。
但它完全没品出这前后两个 “ 看不上 ” 里,带有反转的幽默感,遗憾。
向上滑动
接下来我们看混元的复杂问题理解能力。
问题是魂穿到官渡之战中袁绍身上,时间节点是骂完许攸之后。
既要回答怎么破局赢下官渡之战,还要提供进一步统一全国的规划。
要给大家稍微讲下这题为啥是复杂提问。
因为要回答这题,首先得熟悉三国这些人物历史背景、相关故事,特别是骂完许攸这个时间节点很微妙。
因为在这之后许攸投靠曹操,献计火烧袁绍囤积在乌巢的粮草。
最终以少胜多击败袁绍,随后几年内彻底吞下冀北逐渐统一北方。
而进一步设想里的统一全国,更是曹操本人都没能实现。
所以大模型们要完美理解并回答这个问题,那网文作者们基本可以宣告失业了。
AI 浪潮下的网文作者现状
经过测试,两个大模型的回答都很一般。
从一开始,二者都没能理解自己穿越扮演袁绍角色的指令。
混元急哄哄地给袁绍出主意, ChatGPT 则是以为我要穿越,教我做事。
至于两个给的回答,既没有 get 到我提出这个微妙时间节点的用意,也没有什么行之有效的战略规划,都是些泛泛而谈的车轱辘话。
相对而言,个人感觉ChatGPT 的稍胜一筹。
毕竟 混元 可是希望袁绍去和曹操建立互利共赢的关系,哈哈哈。
向上滑动 ▼
既然一个复杂指令两个考试都理解不好,那干脆简单点,让两者去角色扮演一个婚礼主持人,一点点诱导进行连续对话。
结果立马就能发现混元和 ChatGPT,就像理科生和文科生的区别。
混元的回答简单不啰嗦,但有的时候过于生硬。
你说有错吧,谈不上,你要说给高分肯定不可能。
而 ChatGPT 就是不管对不对,先把字写满再说。
看里面的描述啥的都很好,但其实从中间就已经理解错意思,搞混了我的意图。
所以两者都不完美,都有待改进。
向上滑动 ▼
然后我们还重点考验了下大模型的文字学习能力。
搬出了当年的火星文,给两个考生上上强度。
先是丢了一篇火星文版的朱自清《 背影 》名场面给大模型学习。
然后让他们分别用这种风格写一篇养金毛心得。
结果就是,混元不愧是本土大模型,背靠火星文鼻祖发源地 QQ 空间就是有优势,火星文的熟练度相当不错。
第一眼就悟到了火星文的精髓,非常顺利地学习了火星文的创作手法。
而 ChatGPT 虽然意识到火星文是一种不标准的中文形式,但他实在学不会这种方式,最后甚至直接承认自己不行了。
向上滑动 ▼
接下来就到了代码能力的考核。
这次出的题目是,写一个现代极客风格的 925 活动抽奖页面,页面中必须有醒目的 925 标志。
说起来,因为混元发布时对代码能力基本没咋提,所以本来我们对混元的代码能力没啥期待。
但论这个题目,混元的效果相当不错,黑白配色的极客风有了,页面逻辑也没啥问题。
甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域,相当成熟。
对比之下, ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。
混元页面效果
ChatGPT页面效果
除了代码问题,数学就是另一个大模型的老大难了。
这次我们也挑了不少数学问题给两个考生做,从小学 1 年级一直做到了初一。
最终混元大模型在六年级时挑战失败,到了初一开始胡言乱语,也让我们彻底放弃测试了。
而 ChatGPT 明显还有余力。
5年级测试题 向上滑动
6年级测试题 向上滑动
初一测试题 向上滑动
当然,最后也少不了网友们喜闻乐见的 “ 弱智吧 ” 精选套餐。
这次我们更新了题库,用上了今年上半年最新的弱智吧精选问题,我们发现可能 AI 最后的图灵测试可能还真是弱智吧。
因为在大部分测试里,混元和 GPT 基本都不够弱智而无法正确理解问题,这点上,人类遥遥领先!
向上滑动
除了以上这些常规测试外,混元发布会后的媒体采访上,很多媒体也在询问腾讯这么晚掏出大模型,那和市面上的竞品们有什么优势。
腾讯方面则是说,混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉( 胡言乱语 )等通病上,有了针对性的改善。
所以我们在实际测试时,也专门留心感受了这两块内容。
不得不说,混元的大模型幻觉减少较为明显,这大概也和他惜字如金有关系,毕竟说多错多还是很有道理的。
但容易受诱导这方面的改善其实并不明显,一些该跳的坑还是很难避免,只能说千防万防,人心难防。
而且作为一个刚上市的大模型,一些小问题比起同期早已发布的前辈们还是有待改进。
比如“ 重新生成 ” 答案经常性会失灵,甚至有的时候重启重新输入问题都没法解决。
而当你发现混元说错了某个回答希望他改正,他总是倔强地虚心认错,死不悔改。
还有就是,他对一些比较简单的提问,反而有时候会抽风,有点像抓关键词一样作答,很让人抓狂,只能不停修改提示词才会好点。
再吹毛求疵一点的话,这个生成问题时的头像动效,有种二胡卵子的异样美感,咱也不知道这是高级呢还是可爱呢?
这些小问题其实还挺频繁,真要列起来又有点太稀碎,大家还是自己体验后会有更深刻的理解。
不过这些小毛病,后续的更新迭代倒也简单,等用户数多了,相信很快就能优化。
总的来说,混元和 ChatGPT 在中文环境下的 PK 中,二者其实水平差不多,放到国产大模型梯队里,也能有个平均水平。
只是在用了这么多大模型后,我们感觉混元特别之处是给人的感觉,它更像个理工科直男,主打一个废话少说。
而 GPT 为首的其它大模型们则是典型的文科小编,主打能水就水,油多不坏菜。
而这种感觉也更贴合腾讯对混元大模型 “ 实用级 ” 的定义。
毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。
那对于差评君来说,混元大模型更让人期待的,反而是和腾讯旗下应用的深度融合。
现在大家手里没个七八九十个腾讯系应用,都不敢说自己在互联网上冲浪的。
虽然眼下,我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。
但在这些办公软件之外,腾讯系里游戏、社交、影音等等,才是更和大家休闲快乐相关的业务。
在这些领域,大模型的未来会是什么形式、什么程度的结合,才更是大家所最期待的。
更关键的是,在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上,腾讯却已经有了成功经验。
此前腾讯多模态 AI 大模型率先被应用在广告投放,当时累计给广告主带来 15% 的 GMV 提升。
所以,被网上吐槽的最晚发布大模型的大厂,这么看起来好像也不是什么飞龙骑脸的天崩局面。
好饭不怕晚嘛。
撰文:八戒 编辑:江江 & 面线 封面:萱萱
图片、资料来源:
腾讯混元大模型
责任编辑:
标签:
-
2022-05-23 16:13:32
上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<
本报上海5月21日电 (记者刘士安、曹玲娟)上海正在奉贤等区开展常态化防疫压力测试。在21日召开的上海市疫情防控工作新闻发布会上,奉
-
2022-05-23 16:13:32
“抗疫 宅家云课堂”,吸引沪上老同志观看50万人次<
由上海市委老干部局主办,上海市老干部大学、市科技助老服务中心承办的“抗疫 宅家云课堂”系列直播讲座自4月12日启动以来,深受老同
-
2022-05-23 16:13:32
“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<
“真是太感谢了,解决了我的燃眉之急!”家住假日万恒社区的杨女士对前来送药的居委会工作人员说。 自5月17日6时起,丰台区对青塔街...
-
2022-05-23 16:13:32
上海嘉定:儿童计划免疫接种全部恢复,实行预约制<
在5月22日召开的上海市新冠肺炎疫情防控新闻发布会上,嘉定区副区长王浩介绍,从4月28日开始,嘉定在防范区逐步有序恢复老年人疫苗接种
-
2022-05-23 16:13:32
乡村振兴看新疆 | 种下红樱桃 结出“致富果”<
央广网阿图什5月22日消息(记者 罗成 通讯员 杨林)乡村振兴靠产业,产业发展靠特色。新疆阿图什市阿扎克镇麦依村积极引导农民因地制
-
2023-09-09 10:32:47
腾讯大模型的绝活,居然是发布会上没吹的写代码?
在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数
-
2023-09-09 08:48:55
2005年高考满分作文我想牵着你的手(2005年高考满分作文)
2005年,17岁的董何以总分660的成绩成为贵州省文科状元,报考了复旦大
-
2023-09-09 06:52:09
董卿主持人的节目 董卿主持的节目有哪些
1、应该主持过《快乐大篷车》、《人世风情》、《流金岁月》、《相约星
-
2023-09-09 02:54:56
苏州为洞庭山碧螺春茶保护立法
9月6日,苏州市政府召开常务会议,审议并原则通过了《苏州市洞庭山碧螺
-
2023-09-08 22:01:53
贝斯特:宇华精机已完成直线导轨副等产品首台套下线 已将部分产品送样至战略客户处进行验证
贝斯特近期在接受调研时表示,上半年宇华精机已经成功完成了高精度滚珠
-
2023-09-08 19:05:59
常州嬉戏谷冰雪奇境游玩攻略
一、常州嬉戏谷「冰雪奇境」游玩攻略耗时两个月占地近二千平方米,三十
-
2023-09-08 17:58:42
针对驻日美军基地搬迁问题 日本冲绳县知事将在联合国会议上发表演讲
央视新闻客户端讯据日本共同社当地时间8日报道,日本冲绳县知事玉城丹
-
2023-09-08 16:54:50
央行:引导金融资源倾斜支持乡村振兴重点领域和薄弱环节
近日,中国人民银行召开了定点帮扶乡村振兴工作领导小组会议。会议强调
-
2023-09-08 14:09:05
荣誉勋章2010配置要求_荣誉勋章2010配置
荣誉勋章2010配置要求,荣誉勋章2010配置这个很多人还不知道,现在让我
-
2023-09-08 13:03:16
腾讯音乐娱乐集团携手腾讯公益共同打造“云湾之夜”,薛凯琪、王靖雯唱响公益之声
腾讯音乐娱乐集团携手腾讯公益共同打造“云湾之夜”,薛凯琪、王靖雯唱
-
2023-09-08 11:36:19
国产mini纯电动车型将于2024年出口海外市场
9月8日,记者从宝马方面获悉,下一代MINI纯电动车型计划在2024年正式推
-
2023-09-08 10:40:40
河北:加快推进中医药传承创新发展
原标题:省政府办公厅印发《关于支持中医药产业高质量发展的若干措施》
-
2023-09-08 10:12:54
森之国度魔导技能怎么加点 森之国度魔导技能加点攻略
森之国度魔导技能怎么加点森之国度魔导技能加点攻略,
-
2023-09-01 10:47:17
《光与夜之恋》最新兑换码大全
这款游戏中最近很多玩家都在找《光与夜之恋》最新兑换码大全的攻略,下
-
2023-09-01 09:54:05
顾家家居9月1日盘中涨幅达5%
以下是顾家家居在北京时间9月1日09:55分盘口异动快照:9月1日,顾家家
-
2023-09-01 08:04:10
2023年全国广播电视媒体融合先导单位名单
8月31日,国家广播电视总局办公厅发布关于公示2023年全国广播电视媒体
-
2023-09-01 06:13:35
220万名中小学生和幼儿迎来新学期,光盘行动从开学第一餐开始|开学啦
【编者按】今天(9月1日)是上海约220万名中小学生和幼儿开学的第一天
-
2023-09-01 02:12:20
男人衣服“在精不在多”,尤其到了中年,秋天穿这3件衣服就够了
现代人都主张“断舍离”,果断扔掉一些不需要、不必要、不合适的东西,
-
2023-08-31 21:55:39
9000h 刷机(新版I9000的刷机方法请android高手指教!)
1、新版本是锁三建的就是按住音量下中间的实体键和开机键不能进入挖煤
-
2023-08-31 20:51:01
家长注意!湖南中小学生在涉摩电事故中很受伤
华声在线8月31日讯(记者施泉江通讯员邓彪)31日,省公安厅交警总队对
-
2023-08-31 19:02:27
别大意!近视手术有度数要求,但绝不是唯一指标
别大意!近视手术有度数要求,但绝不是唯一指标,
-
2023-08-31 18:05:15
金价又涨了!2023年8月31日各大金店黄金价格多少钱一克?
今天是8月31日,金店黄金价格又涨了,最大涨幅为11元 克,除了菜百和中
-
2023-08-31 17:01:00
新华传媒:获得264万元投资收益
【新华传媒:获得264万元投资收益】8月31日电,新华传媒公告,公司收到
-
2023-08-31 15:51:18
8月31日我乐家居涨停分析:家具家居,新零售概念热股
我乐家居涨停收盘,收盘价11 02元。该股于9点30分涨停,未打开涨停,截
-
2023-08-31 14:25:16
国家移民管理局:暑期超8200万人次出入境
今年暑期是新型冠状病毒感染“乙类乙管”后的第一个暑期,中国公民出入
-
2023-08-31 13:13:09
海南省红十字会金秋助学 学子圆梦再起航
商报全媒体讯(椰网 海拔新闻记者孙鑫)为深入推进白石村的教育事业,
-
2023-08-31 11:52:40
西安警方捣毁特大“网络水军”团伙
以上团伙以牟利为目的,披着文化传媒、法律咨询公司的外衣,通过隐瞒真
-
2023-08-31 10:23:27
iQOO Z8 系列今晚发布 6000mAh 电池加持 性价比或惊人!
【手机中国新闻】根据iQOO手机官方此前公布的信息,在8月31日晚间19点
-
2023-08-31 09:34:41
贵南高铁全线开通运营 南宁至成都将开行直达动车
贵南高铁全线开通运营南宁至成都将开行直达动车
-
2023-08-31 08:37:44
新兴铸管:融资净买入1487.99万元,融资余额6.27亿元(08-30)
新兴铸管融资融券信息显示,2023年8月30日融资净买入万元;融资余额亿
-
特写:风吹稻香忆袁老——袁隆平逝世一周年的墓前追思
2022-05-23 16:13:29 -
北京5月21日区域核酸筛查初筛10管混采阳性
2022-05-23 16:13:29 -
北京两地由高风险降为中风险 一地降为低风险地区
2022-05-23 16:13:29 -
5月21日15时至22日15时,北京新增本土新冠肺炎病毒感染者94例
2022-05-23 16:13:29 -
108岁病人顺利出院,瑞金医院卢湾分院已收治10位百岁老人
2022-05-23 16:13:29 -
生态花园助力乡村振兴 重庆小山村展现“乡土美学”
2022-05-23 16:13:29 -
上海金山政务服务场所逐步恢复服务
2022-05-23 16:13:29