多模态GPT-4被吹爆，但仍会“一本正经胡说八道”

2023-03-15 17:12:49 来源: 观察者网

今年初以来，以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注，股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时，微软投资的OpenAI又推出了GPT-4，号称功能比GPT3.5更强大。

【资料图】

北京时间3月15日凌晨，OpenAI正式发布大型多模态模型GPT-4。据介绍，与ChatGPT只能接收文字不同，GPT-4能接收图像和文本输入来输出文本内容；扩写能力得到增强，能处理超过2.5万个单词的文本；更具创造力，回答准确性显著提高；能够生成歌词、创意文本，实现风格变化；并且能够处理更细微的指令。

“这是我们迄今为止功能最强大的模型！”OpenAI的高管和工程师在介绍视频里直言：“GPT-4是世界第一款高体验、强能力的先进AI系统，我们希望很快把它推向所有人。”

新的大模型一经发布，便受到网友们的热捧。但仍然值得的一提的是，虽然GPT-4的功能进一步增强，但仍然不完全可靠。OpenAI坦言，GPT-4仍然会产生幻觉、生成错误答案，并出现推理错误。

自去年11月推出以来，ChatGPT已经能够根据用户提示生成原创文章、故事和歌词，但它也引发了一些担忧。最近几周，人工智能聊天机器人（包括来自微软和谷歌的工具）因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。

GPT-4文字输入限制提升至2.5万个单词

专业场景中接近人类水平

开发GPT大模型的OpenAI称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。

之前人们使用的ChatGPT只有处理文本的能力，GPT-4开始接受图像作为输入介质。比如，给它展示一张图片，问它手套掉下午会发生什么，很快会得到“它会掉到木板上，并且球会被弹飞”的回答。

OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问：解释下图的笑点是什么，并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口，是荒谬的。

GPT-4也能简练指出图片的违和之处。用户提问：“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。

不仅是图像理解，它还可以阅读图片形式的论文。通过几张论文的图片，GPT-4可以总结内容，也可以对指定内容展开解释。

除了在文本输入的基础上进一步接受了图像输入外，GPT-4还升级成为了一个“学霸”，基准测试表现远远优于现有模型。OpenAI表示，如果是随意聊天，用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4将明显比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

根据测试，在“美国高考”SAT中，GPT-4的分数增加了150分，现在能拿到1600分中的1410分。它还通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

此外，GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能，OpenAI使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。在测试的26种语言中，有24种语言，GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。

在API（应用程序编程接口）方面，GPT-4还开放了一个使用功能，允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡，这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话，GPT-4就可以展现出更多样的性格，比如扮演苏格拉底。

OpenAI请GPT-4模型以苏格拉底风格教学，绝对不能给学生答案；相反地，还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱，以提问代替直接回答。取自OpenAI官网

仍然不完全可靠

在体验ChatGPT之时，不少用户会发现ChatGPT时不时会“一本正经地胡说八道”，而GPT-4尽管号称功能更全面，但会出现幻觉、胡说八道的毛病还是没能完全改掉。

OpenAI介绍，尽管功能已经非常强大，但GPT-4仍与早期的GPT模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案，并出现推理错误。

也就说，在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调，仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文，甚至在高风险情境中，要避免使用它。

不过OpenAI也提到，该系统已经接受了六个月的安全培训，在内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高：“响应不允许内容的请求的可能性降低了82%，产生真实事实的可能性提高了40%，优于GPT-3.5。”

网传GPT-3和GPT-4参数对比图，但此次OpenAI没有给出GPT-4参数量

“它仍然存在缺陷，仍然有限，但它有明显的改进。它比以前的模型更有创意，它的幻觉明显减少，而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称，GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。

这也意味着，相较之前的模型来说，GPT-4虽然仍可能“一本正经地胡说八道”，但频率有所减小。

不过频率的减小还是不能让人们放松警惕。在GPT-4发布后，微软营销主管表示，“如果你在过去六周内的任何时候使用过新的Bing预览版，你就已经提前了解了OpenAI最新模型的强大功能。”

这似乎可以理解为，微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看，已经用上了GPT-4的新必应还是出现了不少“发疯”行为。

此外，与前一代一样，GPT-4是基于2021年9月之前的数据训练的，所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解，也不会从其经验中进行学习。OpenAI表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，例如社会偏见、幻觉和对抗性提示。”

本文系观察者网独家稿件，未经授权，不得转载。

恭城250亩旱地

1小时13分钟！

百色市田阳区坡

巩固拓展脱贫攻

三季报密集披露

【文明执法】全

多模态GPT-4被吹爆，但仍会“一本正经胡说八道”

热门资讯

多模态GPT-4被吹爆，但仍会“一本正经胡说八道”

信用卡和网贷逾期被起诉怎么办?信用卡逾期无力心偿还怎么办?

全国人大代表张天任：从实际出发，对锂离子电池应用采取分级管理

信用卡逾期被发律师函怎么办?信用卡逾期利息不合理怎么办?

信用卡逾期法院立案了怎么办？信用卡逾期恐吓催收怎么办?

信用卡逾期了利息太多了怎么办？信用卡逾期了经济状况怎么办？

所有的信用卡逾期还不上怎么办？信用卡逾期16次还款怎么办？

焦点精选！2023年国考成绩出炉，国考上岸真的很难吗？

这事儿｜“二三孩中考加10分”被舆论审视：正向激励还是用力过猛？

信用卡逾期房产抵债怎么办？信用卡逾期时间长利息高怎么办？

信用卡严重逾期过多怎么办？信用卡逾期15w怎么办？

全球短讯！天箭科技：公司正在研发的新型相控阵天线可广泛应用于星载、机载、弹载产品中

日本大企业今年加薪幅度料创26年来新高 但日本央行政策仍难转向

全球新消息丨伊利股份：公司在持续加强核心业务平台的信息化建设，通过数据治理以及AI算法平台的部署上线，为数字化业务转型提供了系统及数据环境保障

热门看点：天永智能(603895.SH)股东陈丽红拟减持不超1%股份

【世界聚看点】港股异动 | 香港银行股反弹 汇丰涨3%领涨

天天热门:分销业务稳步增长 深圳华强2022年净利润同比增长7.81%

讯息：​提前跑路？硅谷银行高管被爆套现8400万美元

信用卡逾期协商怎么办？信用卡几年没用逾期未还怎么办？

天天快看：女儿出嫁了猜一个字是什么_女儿出嫁了猜一个字

信用卡十万逾期十年怎么办？无收入信用卡逾期怎么办？

信用卡6万逾期了怎么办？逾期信用卡被起诉怎么办？

女性不孕常见原因，早知了早受益

埃菲社：西甲官方与国际足联对薄公堂 指控世界杯扩军影响西甲比赛和收入

华特达因(000915.SZ)：右旋糖酐铁和盖笛欣2023年预算是过亿或者接近1亿的产品

快看：为什么通胀下不来？下周美联储会大反转吗？看看大摩如何解读

环球快报:华特达因(000915.SZ)：目前治疗药物中从产品布局的数量中最多的是儿童精神类的药物

前沿热点：华特达因(000915.SZ)：中长期激励的试点，今年重新开始积极申请

智能自控(002877.SZ)：公司下游客户的占比，石油化工领域的业务占比较大约为62%

世界最资讯丨卡莱特2022年营收净利双增 加速全球市场布局

商汤科技发布多模态多任务通用大模型“书生2.5”

每日消息!​美国银行危机，日本股市挨最狠的打

天天快资讯丨上海农商银行静安支行新址开业，一站式提供普惠、企业和零售等金融服务

世界观点：加拿大环球：加拿大小学生吃不上免费午餐 物价飙升让学校食堂难以为继

当前看点!俄新社：沙特警告别对沙特石油设置上限 谁搞就断掉谁的供应

全球视点！日本共同社：索尼黑科技惠及视力残障人士 图像投影到视网膜

世界时讯：今日俄罗斯：美军死神无人机在黑海上空坠毁 美俄双方透露了什么信息

日本NHK：春季劳资纠纷主战场集中在汽车电子大公司 物价上涨带动工资上涨

专业、高效的积加ERP结算中心，自动对账核销帮卖家提高做账效率

最新快讯!世界自然景观排名分享 世界自然景观排名一览

八年级英语书下册课文有哪些 八年级英语书下册课文分享

全球要闻：初中作文怎么写 初中作文范文欣赏

每日热讯!励志标语口号怎么写 励志标语口号大全分享

不为五斗米折腰说的是谁 不为五斗米折腰指的是谁？

世界资讯：怎么抓松鼠 怎么捉小松鼠？

地球的周长是多少 地球在赤道处的周长有多长？

天天快看：蜂蜜的保质期是多久 蜂蜜的保质期有多少天？

当前视讯！牡丹花什么时候开 牡丹花的花期是什么时候？

梵蒂冈在地球仪的哪个位置 梵蒂冈在什么地方？

火龙果产地在哪里 火龙果产地在什么地方？

焦点热议:水污染的原因是什么 水污染的原因有哪些？

全球视点！卢沟桥在哪里 卢沟桥在什么地方？

秦灭六国顺序是什么 秦灭六国顺序介绍

世界热点评！茉莉花茶是绿茶吗 茉莉花茶是什么茶？

过年的习俗有哪些 过年的习俗有什么？

磷肥的作用是什么 磷肥的作用有哪些？

今日最新！什么是垃圾食品 垃圾食品通常指的是什么？

六安特产是什么 六安特产有哪些？

青海湖鱼叫什么 青海湖盛产什么鱼？

环球快看点丨港股异动 | 山高新能源(01250)涨7% 本周起进入港股通交易 去年料扭亏净赚至多约2.82亿港元

智莱科技：有机构通过电话来了解公司近况。现已近年报期窗口，一般不接待机构调研

天天微动态丨据悉美银数日内吸150亿美元新存款 成硅谷银行等倒闭大赢家

异动快报：龙建股份（600853）3月15日13点59分触及涨停板

当前最新：博汇股份(300839.SZ)：文魁集团以大宗交易转让“博汇转债”79.4万张

打造多元化户外空间 畅游户外生活新方式 ｜ 3月18日，与您约定第六届环球花园生活节

世界短讯！菲拉格慕女鞋原版 菲拉格慕女鞋

前沿生物：公司已商业化产品艾可宁为多肽类药物，公司生产基地具有多肽类产品的生产能力

大酒店(00045)第四季度香港半岛酒店客房出租率25%，同比下降10个百分点

当前资讯!大酒店(00045.HK)2022年度基本亏损2.05亿港元 同比收窄20%

【天天速看料】*ST荣华因未及时披露公司重大事件等违规行为被上海证券交易所通报批评

天德化工(00609.HK)3月25日举行董事会会议审批年度业绩

环球精选！宏柏新材2022年净利润同比增长110% 产品订单量价齐升

【独家焦点】云天化拟收购两家公司股权 加码“化肥+新能源”领域布局

暖心相伴，中荷人寿与您一起守望幸福

天天短讯！港股异动 | 康方生物-B(09926)涨近6% 开坦尼联合化疗一线治疗胃癌III期入组完成

【天天速看料】港股异动 | 医脉通(02192)升8% 富达国际再度增持 去年归母溢利至少增1.46倍

天天快讯:港股异动 | 中远海控(01919)午前涨超7% 控股股东累计增持公司1.15亿股A股及3582.2万股H股

环球简讯:港股异动 | 基石药业-B(02616)升7% 阿伐替尼治疗ISM注册性研究数据发布 今年5月将迎来关键催化

日本大企业今年加薪幅度料创26年来新高但日本央行政策仍难转向

【世界聚看点】港股异动 | 香港银行股反弹汇丰涨3%领涨

天天热门:分销业务稳步增长深圳华强2022年净利润同比增长7.81%

讯息：提前跑路？硅谷银行高管被爆套现8400万美元

埃菲社：西甲官方与国际足联对薄公堂指控世界杯扩军影响西甲比赛和收入

世界最资讯丨卡莱特2022年营收净利双增加速全球市场布局

每日消息!美国银行危机，日本股市挨最狠的打

世界观点：加拿大环球：加拿大小学生吃不上免费午餐物价飙升让学校食堂难以为继

当前看点!俄新社：沙特警告别对沙特石油设置上限谁搞就断掉谁的供应

全球视点！日本共同社：索尼黑科技惠及视力残障人士图像投影到视网膜

世界时讯：今日俄罗斯：美军死神无人机在黑海上空坠毁美俄双方透露了什么信息

日本NHK：春季劳资纠纷主战场集中在汽车电子大公司物价上涨带动工资上涨

最新快讯!世界自然景观排名分享世界自然景观排名一览

八年级英语书下册课文有哪些八年级英语书下册课文分享

全球要闻：初中作文怎么写初中作文范文欣赏

每日热讯!励志标语口号怎么写励志标语口号大全分享

不为五斗米折腰说的是谁不为五斗米折腰指的是谁？

世界资讯：怎么抓松鼠怎么捉小松鼠？

地球的周长是多少地球在赤道处的周长有多长？

天天快看：蜂蜜的保质期是多久蜂蜜的保质期有多少天？

当前视讯！牡丹花什么时候开牡丹花的花期是什么时候？

梵蒂冈在地球仪的哪个位置梵蒂冈在什么地方？

火龙果产地在哪里火龙果产地在什么地方？

焦点热议:水污染的原因是什么水污染的原因有哪些？

全球视点！卢沟桥在哪里卢沟桥在什么地方？

秦灭六国顺序是什么秦灭六国顺序介绍

世界热点评！茉莉花茶是绿茶吗茉莉花茶是什么茶？

过年的习俗有哪些过年的习俗有什么？

磷肥的作用是什么磷肥的作用有哪些？

今日最新！什么是垃圾食品垃圾食品通常指的是什么？

六安特产是什么六安特产有哪些？

青海湖鱼叫什么青海湖盛产什么鱼？

环球快看点丨港股异动 | 山高新能源(01250)涨7% 本周起进入港股通交易去年料扭亏净赚至多约2.82亿港元

天天微动态丨据悉美银数日内吸150亿美元新存款成硅谷银行等倒闭大赢家

打造多元化户外空间畅游户外生活新方式｜ 3月18日，与您约定第六届环球花园生活节

世界短讯！菲拉格慕女鞋原版菲拉格慕女鞋

当前资讯!大酒店(00045.HK)2022年度基本亏损2.05亿港元同比收窄20%

【独家焦点】云天化拟收购两家公司股权加码“化肥+新能源”领域布局

【天天速看料】港股异动 | 医脉通(02192)升8% 富达国际再度增持去年归母溢利至少增1.46倍

环球简讯:港股异动 | 基石药业-B(02616)升7% 阿伐替尼治疗ISM注册性研究数据发布今年5月将迎来关键催化

全球快资讯丨康弘药业(002773.SZ)：控股股东增持量过半累计增持350万股

全球观热点：来凯医药二度赴港上市近两年累计亏损超15亿元

天天头条：【券商聚焦】华泰期货：美国核心通胀仍有粘性油价继续回落

【新要闻】国海证券：国内电解铝行业新增产能有限经济复苏预期下铝价有望保持高位

环球今日报丨华泰证券：零食量贩店处于加速发展阶段新一轮渠道红利有望孕育行业机遇

需求“错位”降糖药司美格鲁肽在欧供不应求本土药企抢滩百亿元级市场

【世界速看料】福岛核事故避难者状告日本政府索赔遭拒同类诉讼还有30多起

以“数”赋能百融智汇云助力普惠金融驶入快车道