苹果开发出新款AI：可"看懂"屏幕内容并语音回复

4月2日消息，据媒体报道，苹果公司近日宣布，成功研发出一款前沿的人工智能系统——ReALM（Reference Resolution As Language Modeling，即基于语言建模的参考解析）。

据悉，该系统具备卓越能力，能够精准解析屏幕上模糊的内容，同时深入理解相关对话及背景环境，从而为用户提供更为自然流畅的语音助手交互体验。

ReALM系统通过运用大语言模型技术，巧妙地将识别屏幕视觉元素这一复杂任务转化为纯语言处理问题。这一创新转换使得ReALM在性能上相较于传统技术实现了质的飞跃。

值得一提的是，ReALM的独特之处在于其能够重新构建屏幕内容。通过深入分析屏幕上的信息及其位置分布，系统能够生成精准的文本表示，这对于捕捉视觉布局中的关键信息至关重要。

研究人员进一步展示了将ReALM与专门针对内容指向优化的语言模型相结合的方法，结果显示在执行相关任务时，ReALM的性能已超越业界翘楚GPT-4。

研究人员兴奋地表示：“我们对现有系统进行了深度优化和显著改进，使其在处理各种类型的内容指向任务时均表现出卓越性能。即便是我们的最小模型，也实现了超过5%的性能提升；而大型模型的表现更是显著超越GPT-4，令人瞩目。”

长期以来，苹果在创新领域更多扮演跟随者的角色，然而随着人工智能技术的迅猛发展，市场格局正发生深刻变革。如今，苹果正积极迎接挑战，努力在人工智能领域占据一席之地。

此外，备受瞩目的全球开发者大会即将在6月盛大召开。届时，苹果预计将推出一系列创新成果，包括全新大语言模型框架、“Apple GPT”聊天机器人及其生态系统中的其他AI功能。

苹果开发出新款AI：可"看懂"屏幕内容并语音回复第1张