不知不觉,LLM已经高歌猛进到了第四年。依然清晰记得两年前使用ChatGPT时候的震撼。那个时候大家认为提出问题是非常重要的能力,这里面也包括prompt优化。很多人的第一次震撼应该大多来自于提出一个好问题后LLM给的超出预期的反馈。
两年过去了,以上提到的依然重要。但是LLM也展示了一些新的魅力。
首先是菜市场大妈都耳熟梦想的DeepSeek R1。用刘飞的总结就是“开城墙”:MIT最友好开源协议,数量级降低训练成本,纯强化学习。分析DeepSeek的文章很多,这里主要是为了引出后面的两个应用。
第一个应用是 OpenAI 的 Operator:
Operator 通过“观察”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)与浏览器进行通信,使其无需定制 API 集成即可在 Web 上执行操作。
简单总结:
- 感知:文本+截图
- 交互:确定点击位置
- 思考决策:GPT-4o 多模态
第二个应用来自字节的UI-TARS:
UR-TARS 是该系统系统视觉大模型,执行可以通过 UI-TARS desktop (支撑各种应用程序)以及Midscene.js(仅浏览器)。
UI-TARS is a next-generation native GUI agent model designed to interact seamlessly with graphical user interfaces (GUIs) using human-like perception, reasoning, and action capabilities.
Unlike traditional modular frameworks, UI-TARS integrates all key components—perception, reasoning, grounding, and memory—within a single vision-language model (VLM), enabling end-to-end task automation without predefined workflows or manual rules.
以上三个看似LLM不同方向的进展其实背后都在强调一个概念:推理。从效果看,也就是大众口中的端到端。而推理本质上其实就是让大模型能够的进行自主planning。
在Lillian的范式:agent = LLM + planning + memory + tools中,有过落地经验的就会发现,最重要也最挑战的就是planning。解决planning无论是形式上还是概念是都很多,比如思维链、思维树、反思、SOP等,但其本质上都是为了让LLM去follow某个flowgraph以完成任务。
很多应用场景中使用LLM落地,其实就是围绕如何产出这个flowgraph。比如面向普通用户的可视化画布,面向power user的编码式SOP。而一旦这个flowgraph的产出需要依赖人工参与,那么其可泛化性一定是有限的,再结合成本问题,往往让很多应用场景要么铩羽而归,要么看起来是为了用而用。
而LLM基本都在相同时间专项推理的时候,大家发现flowgraph很多时候可以是LLM内置的。这个时候,LLM的应用场景就会有一个质的飞跃。比如Operator和UI-TARS,都是在这个方向上的尝试。而这是今年区别于两年前很重要的一个跃迁。
因此,今年进行LLM场景落地不妨考虑这两个思路:
- 对于容错性高的场景,解决思路多想想怎么激发LLM内部的这个flowgraph。
- 对于容错性低的场景,尝试挖掘LLM的内在flowgraph,然后结合人工的审核再应用。
当然也有不变的点:工具的建设依然很重要。只不过,今年需要更多的思考如何将这些基建工具与上述的flowgraph结合起来。