据报道,OpenAI发布事端陈述阐明,当时遭受GPT-4o和4o-mini模型功能直线下降问题,现在正在做出具体的查询,并将赶快发布最新消息。
近期,科研人员立异性地推出了一项名为LONGPROC的基准测验东西,该东西专为评价模型在处理长上下文中的杂乱信息并生成相应回复的才能而规划。
试验成果略显意外:包含GPT-4o在内的很多顶尖模型,虽然在惯例长上下文回想基准测验中体现优异,但在应对杂乱的长文本生成使命时,仍暴露出显着的改善需求。
具体而言,虽然一切参测模型均声称其上下文窗口巨细超越32K tokens,但实在的状况却截然不同。开源模型在处理仅含2K tokens的使命时便暴露疲态,而比如GPT-4o等闭源模型,在应对8K tokens使命时功能也显着下滑。
以GPT-4o为例,在要求其生成具体游览规划的使命中,即使供给了清晰的时刻节点和直飞航班信息,模型的输出成果中仍呈现了不存在的航班信息,即产生了“错觉”现象。
试验进一步提醒,即使是最前沿的模型,在生成连接且冗长的内容方面仍存在比较大提升空间。特别是在需求输出8k tokens的使命中,即使是参数巨大的先进模型也未能幸免于难,这或许预示着未来大型言语模型(LLM)研讨的一个极具潜力的方向。