近期LLM的一些趋势

不知不觉,LLM已经高歌猛进到了第四年。依然清晰记得两年前使用ChatGPT时候的震撼。那个时候大家认为提出问题是非常重要的能力,这里面也包括prompt优化。很多人的第一次震撼应该大多来自于提出一个好问题后LLM给的超出预期的反馈。

两年过去了,以上提到的依然重要。但是LLM也展示了一些新的魅力。

首先是菜市场大妈都耳熟梦想的DeepSeek R1。用刘飞的总结就是“开城墙”:MIT最友好开源协议,数量级降低训练成本,纯强化学习。分析DeepSeek的文章很多,这里主要是为了引出后面的两个应用。

第一个应用是 OpenAI 的 Operator:

Operator 通过“观察”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)与浏览器进行通信,使其无需定制 API 集成即可在 Web 上执行操作。

简单总结:

  • 感知:文本+截图
  • 交互:确定点击位置
  • 思考决策:GPT-4o 多模态

第二个应用来自字节的UI-TARS

UR-TARS 是该系统系统视觉大模型,执行可以通过 UI-TARS desktop (支撑各种应用程序)以及Midscene.js(仅浏览器)。

UI-TARS is a next-generation native GUI agent model designed to interact seamlessly with graphical user interfaces (GUIs) using human-like perception, reasoning, and action capabilities.

Unlike traditional modular frameworks, UI-TARS integrates all key components—perception, reasoning, grounding, and memory—within a single vision-language model (VLM), enabling end-to-end task automation without predefined workflows or manual rules.

以上三个看似LLM不同方向的进展其实背后都在强调一个概念:推理。从效果看,也就是大众口中的端到端。而推理本质上其实就是让大模型能够的进行自主planning。

在Lillian的范式:agent = LLM + planning + memory + tools中,有过落地经验的就会发现,最重要也最挑战的就是planning。解决planning无论是形式上还是概念是都很多,比如思维链、思维树、反思、SOP等,但其本质上都是为了让LLM去follow某个flowgraph以完成任务。

很多应用场景中使用LLM落地,其实就是围绕如何产出这个flowgraph。比如面向普通用户的可视化画布,面向power user的编码式SOP。而一旦这个flowgraph的产出需要依赖人工参与,那么其可泛化性一定是有限的,再结合成本问题,往往让很多应用场景要么铩羽而归,要么看起来是为了用而用。

而LLM基本都在相同时间专项推理的时候,大家发现flowgraph很多时候可以是LLM内置的。这个时候,LLM的应用场景就会有一个质的飞跃。比如Operator和UI-TARS,都是在这个方向上的尝试。而这是今年区别于两年前很重要的一个跃迁。

因此,今年进行LLM场景落地不妨考虑这两个思路:

  • 对于容错性高的场景,解决思路多想想怎么激发LLM内部的这个flowgraph。
  • 对于容错性低的场景,尝试挖掘LLM的内在flowgraph,然后结合人工的审核再应用。

当然也有不变的点:工具的建设依然很重要。只不过,今年需要更多的思考如何将这些基建工具与上述的flowgraph结合起来。

创造者的自我创造之2024

几天前看到刘飞推荐Neo Zhang用40个问题牵引的年终总结。挺有启发,很好的避免了一些纯感受的主观叙事,同时也能更加全面的回顾过去和展望来年。索性在蛇年春晚的背景音下,给“不容易”的过去一年做一个总结。

What did you do this year that you’d never done before?

  • 带上妻儿徒步
  • 开始正视和认真的实践如何跟人性打交道
  • 赞助两边的父母买了大件,全家都很开心
  • 生日那天,单人单车自驾川西理小路,一日往返

What would you like to have next year that you lacked this year?

Make things that I am proud of.

What was your biggest achievement of the year?

内心真正的宁静,以及面对不确定性的勇气和坦然。

What was the best thing you bought?

应该是给自己6年前的车买了各种配件修复一些小问题,让它又焕发了青春。其实也没花几个钱,但是听着初夏的嘀嗒雨声,一个人沉浸在车库里,修理车子,很解压。

Where did most of your money go?

赞助两边的父母买了大件。我自己本来今年有一个购车计划,但是赞助父母后,比自己买车还开心。所以购车的计划暂时搁置了。

本来今年计划把新房子装修一下,但是因为今年时间原因,也暂时搁置了。这个就明年一定啦。

财富上,越来越重视使用时候的效用最大化,而不是绝对值的最大化。整体实践下来,算是打开幸福的钥匙之一。

What did you get really, really, really excited about?

主要有两个:

  • 马斯克的筷子夹火箭
  • 大模型的逐步渗透

作为相关从业者,能参与到这些历史moment之中无疑是让人兴奋的。希望明年能够make things.

What song will always remind you of this year?

西城的《My Love》。高中母校20年,回了趟母校;离京10年回了趟北理。眼角不经意间湿润,因为我对这一片片土地和时光真的爱得深沉。

What do you wish you’d done more of?

  • 对身边的人更加耐心和细致一些
  • 阅读计划执行完成率较往年低

What do you wish you’d done less of?

短期都不买车了,少看点车评啦。

How are you spending the holidays?

跟家人在一起,理所当然的趁饭,也带他们出去体会他们平时不愿意花钱的体验。

What was your favorite show?

《凡人修仙传》,一声道友尽沧桑。给常人一个更长的时间尺度审视人生和意义。

What was the best book you read?

《以利为利》。

What did you want and get?

属于自己的龙年,敬畏风险,对可能出现的灰犀牛,尽力做好充分的准备,安稳度过。

What did you want and not get?

谋事,成事。

What one thing would have made your year immeasurably more satisfying?

晚上偶尔醒来,耳畔呼呼熟睡的妻儿。

How would you describe your personal fashion this year?

如果不是翻不出什么衣服穿了,一般不会主动买衣服。所以,下次遇到不错的穿搭,希望妞儿能够更加大胆一点,一次来个5件?

What kept you sane?

阅读和写作,以及长视频。完全摒弃了短视频。

Which celebrity/public figure did you admire the most?

马斯克,不过我研究这哥们和购入他的股票是很久前的事了。

Who did you miss?

回不去的老家宅基地。

2024年终总结

今年对于自己和妞儿来说都是特殊的一年。所以,开年上班的第一天很中意公司开工红包里面“龙华富贵”的贴纸。并把它贴在了电脑的左下角。如今看来,从踏入新年伊始,就注定了今年会有很多独特而深刻的体验和经历。

今年是工作时间最忙的一年。从结果上来看,引入了一些新的思路和做法,事后来看,感觉再正常不过,但是有时候也难免问自己,为什么常规武器几年前就没引入呢。人的行动惯性有时候是可怕的,思维惯性更甚。从结果上来看,突破上乏善可陈,但是给六年前自己接手的一个项目交代,几乎没人会在乎和看见,但是心里莫名的满足。依然没有忘记从6月份就开始提醒自己要阶段性总结一下工作的这十年,一方面是因为时间,另一方面也是因为时间。但现在来看,依然没有逃过拖延症的传统,应该是明年才有机会来还债了。

今年也是最 chill 的一年。跟上面并不矛盾,一方面自己在年初了却了一个事情,使得家庭财务中短期没有了压力。另一方面,我把更多的时间放在了陪家人和自己身上。这种状态的改变,让我有了更多的时间和精力去做自己想做的事情。比如,徒步。今年的徒步,是我这几年以来最难忘的。每一条路线,每一次登山,每一次山顶的风,都让我感受到了不一样的自己,以及更重要的,带着女儿和妻的那种幸福和满足感。虽然后面北上的时候意识到今年的徒步经历几难复刻,但是依然感恩今年每次徒步的路上的一草一木。这种感受,是一种对自己的认知,也是一种对自然的敬畏。这种敬畏,让我更加珍惜每一次的徒步,每一次的登山,每一次的山顶风。

在力所能及的范围了了,也支持家人满足了他们的合理需求。这其实是一种财富观的转变。虽然现在的自己依然在乎时间和现金的燃烧效率,但是也能坦然的为情绪价值买单。无意中,自己以及家人体会到了一种心智带宽的解放,跳出了传统文化一直隐隐束缚的稀缺感。整体上,依然提醒自己要践踏实地,尊重和敬畏客观规律,但是也会如雷军在SU7发布会上所说,合理的范围了奖励家人和自己。

今年是归去来兮的一年。分别是自己高中和大学两个十年的归去。虽然回高中时候是仓促的,北上之行是始料未及的,但是每一次归去都让自己深刻的的感慨适时交代的缘分和弥足珍贵。这种感慨,让自己更加珍惜家人,更加珍惜自己的责任。这种责任,让自己更加珍惜自己的时间和精力,更加珍惜自己的生活。

今年想通了很多事情,有时候也会把自己思考的结果跟朋友分享。也许并不能解答他人之惑,但自己完全没有了所谓年龄焦虑。接受也自以为能够承担起更多可能性。尝试系统化的方法发展第二曲线,这种尝试区别于以前的那种强假设以及侥幸,或者是彩票心态。这种尝试,也让自己能够更加客观和真实的考到行业翘楚的内在思考和行动框架。如同跟妞儿说的那样,就算去工地板砖,我应该也能做到最能吃苦和效率最高的那几个。

今年一如既往的延续了感恩、平和的心态,ego也保持在一个比较恰当的水平。如果明年有什么特别想去突破的话,一个是自己系统化尝试的框架,以及自己曾经不太在意的软技能,另一个就是希望自己能把能量影响到更多的人,没有任何崇高感的利他,同时也尝试发现另一个维度的自己。