GPT-4

GPT-4 发布了,史上最强的多模态模型。

GPT-4
GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人

北京时间今天凌晨1点,OpenAI发布了全网期待已久的GPT-4。

  • GPT-4是一个超大的多模态模型,可以输入文字(上限2.5万字)和图片
  • 在各种专业和学术基准上和人类相当
  • 更安全
  • New Bing 其实早已用上了GPT-4

GPT-4 的论文:Read PaperSystem Card

GPT-4发布后,OpenAI马上把 ChatGPT 直接升级成了 GPT-4 版的,也开放了 GPT-4 的 API。

视觉输入

多模态终于来啦,GPT-4 可以接受图像作为输入并生成说明、分类和分析

除此之外,它还能够看懂图表,理解图片中的逻辑

更长的上下文

GPT-4 能够处理超过 25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

理解力 & 创造力

GPT-4 是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

看起来,现在的 GPT 已经不会在计算上胡言乱语了,而且还会做物理题:

GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:

局限性

尽管GPT-4具有很强的功能,但它仍然存在与之前的GPT模型类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻想”事实并产生推理错误)。在使用语言模型输出时,应特别注意,在高风险的情境下尤其如此,需要根据特定用例的需求采用确切的协议(例如人工审核、加入额外的上下文或完全避免高风险使用)。虽然这仍然是一个真正的问题,但相对于之前的模型,GPT-4显著减少了幻觉现象(这些模型在每次迭代中都在不断改进)。在他们的内部对抗事实性评估中,GPT-4的得分比最新的GPT-3.5高40%。

这个模型的输出可能存在各种偏差,OpenAI 在这方面已经取得了进展,但还有更多工作要做。OpenAI 的目标是使人工智能系统具有合理的默认行为,反映广泛用户的价值观,允许在广泛范围内对这些系统进行定制,并征求公众对这些范围的意见。

GPT-4 还是缺乏对其数据截止日期(2021年9月)之后发生的事件的了解,并且不会从其经验中学习。它有时会出现简单的推理错误,这些错误似乎不符合跨越如此多个领域的能力,或者在接受用户明显错误的陈述时过于轻信。有时,它可能像人类一样在解决难题时失败,例如在其生成的代码中引入安全漏洞。

GPT-4在其预测中也可能会出现错误,并且不会在可能犯错时仔细检查工作。有趣的是,基础预训练模型高度校准(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过我们当前的后期训练过程,校准会降低。