Thoughts · 想法笔记

零碎但认真
的一些想法。

不定期更新。关于 AI 产品、ToB 落地、内容创作,和做人。

2026.05

用统计局公报的语气推演你的人生。

最近做了一个叫"人生决策回旋镖"的东西——选一个人生决策,比如花38.8万彩礼结婚,然后AI用统计局公报和新闻联播的语气,推演它在5年、10年、15年后会怎么回来找你。

做这个项目的时候,我发现了一件关于Prompt工程的事:约束越具体,AI的输出越有趣。如果只是说"帮我预测一下花彩礼结婚的未来",AI会给你一段温吞的人生建议。但当你加了约束——"用新闻联播的语气、必须包含具体统计数据、荒谬程度随时间递增、最后一句必须让人沉默"——同样的模型,出来的东西完全不一样。

这个发现和做PM工具箱时的经验是一致的。需求翻译机的Prompt不是一次写好的,而是反复加约束:指标必须有数字维度、行为假设必须包含场景、问题必须是"开工前最先要问的"。每加一条约束,输出质量就提升一个台阶。Prompt工程不是跟AI说话,是给AI画一个越来越精确的笼子。

另一件让我想了很久的事:黑色幽默的公式是什么。回旋镖里最好笑的内容,都是"严肃的数字乘以荒谬的处境"——比如"你累计缴纳房贷利息47.3万元,相当于每天早上醒来先亏230块"。统计是真的,处境也是真的,放在一起就好笑。幽默不是编出来的,是把两件真的东西摆在一起,让它们自己产生落差。

2026.05

五个工具,和"把模糊变成可操作"这件事。

PM工具箱从四个变成了五个。新加的是"职场黑话生成器"——输入一句大白话,输出温和版、委婉版、阴阳怪气版三种体面话,每个附带"对方听完的真实感受"。

这个工具和之前的"甲方话术解码器"是一对镜像:解码器是把暗话变成明话,生成器是把明话变成暗话。做完之后我发现,五个工具本质上都是同一件事——输入是模糊的,输出是可以直接行动的。区别只在于模糊的方向不同:有的是对方的话模糊,有的是自己的需求模糊,有的是自己的勇气模糊。

做黑话生成器让我想通了一个设计问题:为什么要有三个版本而不是一个?因为体面话没有标准答案,只有光谱。同一件事,对不同的人、在不同的关系里,说得方式完全不同。给用户三个选项,比给一个"最佳回复"更诚实——它承认了职场沟通的本质是场域判断,不是公式套用。

另一个收获是关于Prompt设计的。黑话生成器的Prompt比解码器难写——解码器只需要拆解,生成器需要创造。我花了很长时间调试"阴阳怪气版"的边界:太轻了不好笑,太重了变成人身攻击。最后加了一条约束:"听着客气但扎心"。好的Prompt不是描述你要什么,是描述你要的东西刚好停在哪里。

2026.05

做了一个真的可以访问的东西。

把音乐助手上线那天,我在手机上打开链接,AI 真的回应了,音乐真的播出来了。这个感觉和之前在本地看着 localhost:5173 跑完全不一样。

"能跑"和"上线了"之间,是一整套对真实世界的适应。环境变量、进程守护、Nginx 反向代理、WebSocket 在生产环境里的连接行为——这些在本地开发时统统不会出现,但上线之后每一个都会找上门来。我之前以为把代码写完就差不多了,后来发现部署才算是一半。

做这个项目里让我想得最多的,是模型降级那块。主服务挂掉、API 额度用完、网络超时——这些情况都可能发生。所以我把 Claude 和智谱 GLM 做成了一条降级链路,通过环境变量动态判断,主模型不可用就自动切换。这个逻辑本身不复杂,但必须想清楚:你的系统在最坏的情况下应该是什么样的?能回答这个问题,才算真的把这个功能想完了。

另一件事是上下文注入。我把实时天气、今天的日历、最近播放记录都塞进了 System Prompt,让 AI 回应的时候能感知到"现在是什么情况"。这个功能加上去之后,同样一句"给我推首歌",回答就不一样了。Prompt 工程的本质,是替用户想他没说出口的那部分。

2026.05

遇到问题,我的第一反应是先停下来。

有一段时间我养成了一个习惯:出了问题,先把手从键盘上挪开,在脑子里把"现象"和"原因"分开。这一步看起来很慢,但每次都帮我省了很多时间。

不要急着改代码,先确认你改的是不是真正的问题。做知识库的时候,有个 PDF 生成出来的内容完全是错的——全变成了另一个产品的信息。最快的反应是改提示词,但我先去检查了原始文本提取结果,发现文本本身是对的。问题出在提示词里有个具体产品名的示例,模型把它当成了模板去套。改的地方只有两行,但如果没有先定位,可能会改一堆不相关的东西还越改越乱。

区分"解决了问题"和"解决了症状"。有时候加一个判断能让报错消失,但问题还在。我尽量在改之前先问自己:如果这里不改,最差会怎样?如果答案是"根本不影响",那大概率是在改症状。

没有答案,也是一种答案。之前为了让模型在任何情况下都能输出结果,加了很多兜底逻辑。后来发现,强行输出的内容质量很差,还不如直接说"未生成",让人来处理。接受边界,比填满它更诚实。

现在遇到问题,我会先写一句话描述它——"什么在什么情况下做了什么"。能写清楚的问题,解决起来通常不难。写不清楚的,才是真正需要花时间的那种。

2026.05

画流程图,让我重新看了一遍自己做的东西。

最近用 draw.io 把 QA 对云端生成的流程和 AI 报表的数据流都画了出来。画的过程里,有两件事让我印象很深。

第一件:你以为你懂,但能不能画出来是另一回事。QA 对生成这个事,我已经做了一段时间了,逻辑在脑子里转得很熟。但真的要把"文件怎么进来、怎么校验、怎么进队列、多模态怎么解析、模型怎么生成、异常怎么处理"逐个节点写清楚的时候,我发现有几个判断分支一直是模糊的——我只是没有被迫把它们变成文字,所以看起来好像懂了。

第二件:流程图是一种沟通工具,不只是文档。我以前觉得流程图是给别人看的交付物,画完就存着。但这次画完之后拿去和同事对了一遍,发现有两个节点我的理解和他的完全不一样——我们都以为对方懂了,但其实谁也没有说清楚。把图摆出来之后,分歧马上就可见了,五分钟就讨论完了。

现在我的习惯是:一个流程,能不能画成图;一个图,能不能让没有上下文的人也看懂。做不到的话,大概率是设计本身还不够清晰。

2026.05

ToB 项目里,最难的从来不是模型。

参与甲方沟通之后,最大的感受是:技术问题往往是最容易解决的。真正卡住进度的,是数据安全的边界没谈清楚、验收标准每个人理解不一样、甲方内部意见不统一。

有一次会议里讨论了很久"数据能不能出内网"。这个问题没有技术答案,有的是立场、顾虑和责任边界。你要做的不是说服他,而是先搞清楚他在怕什么。把这件事想清楚之后,才有可能找到一个大家都能接受的方案——比如本地部署、比如数据脱敏、比如权限分级。

还有一件让我感触很深的事:同一份方案文档,不同的人看完之后,理解可以差很远。这不是因为文档写得不清楚,而是每个人带着自己的预设进来读。所以与其写一份"全面"的文档,不如写一份"每一页都知道读它的人是谁"的文档。

这让我重新理解了"产品能力"——不是会用什么工具,而是能不能在不确定性里把问题定义清楚,然后推着它往前走。

2026.05

做内容和做产品,其实是同一件事。

在测评团队的时候,选题的逻辑是:这个话题用户会不会搜?看完之后会不会转发?这和写产品需求时的逻辑几乎一模一样:这个功能用户会不会用?用完之后会不会再来?

有一次选题会,有个话题我们自己都很感兴趣,觉得做出来一定好看。但拉了一下数据,发现这个关键词搜索量很低,相关内容互动率也平平。最后砍掉了。这件事让我很不舒服,但也让我明白:内容不是你觉得好就好,是用户觉得好才好。这句话说起来容易,真到做决定的时候,能不能过自己那关才是真的。

做产品之后,我发现这个问题换了一张脸又出现了。我有时候会喜欢某个功能的设计,觉得很聪明、很优雅,但用户可能根本不在意那一层。"我喜欢"和"用户需要"之间有一条沟,做内容的时候填过一次,做产品的时候还得再填一次。

都是从用户视角倒推。只是一个输出是视频,一个是功能。工具不同,那条沟是同一条。

2026.04

做知识库,我踩过的三个坑。

在做销售陪练 RAG 知识库的过程中,遇到了很多预料之外的问题。把它们写下来,算是对这段经历的一个复盘。

一、文档要分段,不是整个扔给模型。最开始直接把整个 PDF 传给本地模型,发现长文档会返回空输出。后来改成每 2500 字为一段处理,再合并去重,问题基本解决。模型的上下文窗口是有限的,这是最基础但最容易忽视的事。

二、OCR 质量决定知识库质量的上限。PDF 里有扫描件、图片、表格,文字识别出来的结果参差不齐。识别不准,模型生成的 QA 就没有意义。AI 的输入端比输出端更重要。

三、人工审核不是 AI 的对立面,是它的必要补充。本地模型精度有边界,有些内容模型就是做不好。与其强行生成,不如直接说"没有",然后让人来补。我们累计人工修正接近两周,但这让知识库的可信度高了很多。

2026.04

荒谬学刊、塔罗牌,和那些没有 KPI 的东西。

我的主页上有一个 AI 塔罗牌。荒谬正经学刊里有一篇论文,专门论证了塔罗牌不如边境牧羊犬。这两个东西是同一个人做的,而且是故意这样的。

做一个"没有正经用途"的东西,反而会逼你想清楚它为什么存在。做 AI 客服方案有明确目标:系统要能接入、能跑通、能交付。但做哲学问答机的时候,没有需求文档,也没有验收标准。你得自己回答:用户体验完之后应该得到什么?是答案,还是一个更好的问题?

塔罗牌那个项目让我想了很久"体验的尽头是什么"。算命这件事,本质上是自我投射——用户从模糊的语言里读出自己想看到的东西。所以我在流程最后加了一个巴纳姆效应的揭穿环节,但只在用户玩完之后才出现。如果一开始就剧透,整个体验就没有意义了。这个逻辑和任何一个产品设计都是相通的:用户得先在里面待一会儿,才会在意你想说的话。

荒谬学刊用学术论文的壳讲荒唐话题,哲学机用严肃的问答格式让人承认自己什么都不知道——形式和内容之间的落差本身就是设计。做这些的时候,我花时间最多的不是代码,是"它读起来要有多荒唐又有多认真"的拿捏。这种拿捏在正经项目里很少需要,但做完之后,我发现这是一种真正意义上的产品感觉。

2026.04

AI 产品不是模型能力,是组合能力。

在做 AI 客服方案的过程中,发现大家对"AI 能不能用"的判断,几乎都集中在模型回答得准不准。但真正让一个 AI 客服好用的,从来不是模型本身——是模型 × 业务流程 × 人工复核机制 × 可维护性的组合。

有一次讨论接入方案,甲方问:模型答错了怎么办?我们花了很长时间解释模型的准确率。但后来才意识到,这个问题真正的答案不在模型上——答案是:设计一套人工接管流程,让模型答错的代价可控。模型会答错是既定事实,产品要做的是在它答错的时候不崩。

模型只是其中一个变量,而且往往不是最难的那个。最难的是:谁来审核输出?异常时怎么转人工?知识库怎么维护?这些问题不在模型的能力范围里,但如果没有人回答它们,再好的模型也没办法真正落地。

这个认知改变了我看待"AI 产品"的方式。我现在评估一个 AI 方案,第一个问题不是"模型准不准",而是"这套东西在最坏的情况下会怎样"。能回答这个问题的方案,才是认真设计过的。

2026.03

进了一个真正的内容团队,才知道自己之前做的是什么。

在 B 站 200W+ 科技测评团队待了两个月。他们做的是那种把产品买回来、真的用、真的测、把数据记下来,然后想清楚观众会关心什么,再写文案、搭场景、打灯、拍摄的团队。

加入之前我以为自己大概理解"做内容"是什么。进去之后发现,我之前做的东西有一个根本性的问题:我不知道自己是在替观众想,还是在替自己想。这两件事在感觉上很像,但结果完全不同。认真的内容团队每一步都在问:这个观众会不会在意?这个细节能不能让人感知到?50W+ 播放量不是偶然,是一次次把这个问题答对了之后的积累。

另一件让我印象深的事:团队里每个人都很清楚自己在做什么、为什么这样做。布景不是随便摆的,灯光不是随便打的。这种"每个决定都有理由"的工作方式,让我后来做产品文档的时候也开始这样想:这一页在讲什么?读它的人需要知道什么?我有没有替他想清楚?

2026.02

给别人做了一个网站,第一次感受到"交付"的压力。

接了一个远程兼职,用 WordPress + Elementor 给一个品牌做官网。时间不长,页面也不复杂,但这是我第一次做一个完全不能按自己想法来的东西。

客户说的需求和他真正想要的之间,有一道翻译层。他说"要有高级感",真正的意思是字少、留白多、颜色克制。他说"要把产品都放上去",实际上只有两三个是他真正在意的。我花了一半时间做出来,另一半时间在理解他说的话和想要的东西之间的差距。这道翻译的工夫,比做页面本身要难。

还有一件事:SEO 基础优化。原来页面标题、描述、关键词的排布是有逻辑的——搜索引擎看的是结构,用户看的是感受,两件事得同时顾到。这件事让我第一次把"给人看"和"给机器看"这两种产品视角放在一起想。

2026.02

一张地图,和把一件事做完的感觉。

食迹地图是我第一个真正从零开始、自己写完的可视化项目。起点是一个很普通的想法:把各地特色美食画在地图上。但"画在地图上"本身是模糊的——2D 还是 3D?点击之后显示什么?传播路径怎么展示?每个问题背后都有很多条路可以走。

这个项目让我体会到"一直往下做"是什么感觉。用 globe.gl 渲染 3D 地球、集成 GeoJSON 省份边界、口味分类着色、搜索 autocomplete——这些功能都不是一开始规划好的,是一个接一个"那如果还能加这个呢"叠上去的。我没有砍掉任何功能,把每一个想加的东西都做进去了。

中间卡住过一次:地图上 HTML 标签太多,页面严重卡顿,帧率掉到个位数。没有现成的解决方案,最后把渲染逻辑拆开,只在可视区域内动态渲染标签,才把性能拉回来。"能用"和"好用"之间的距离,往往藏在这种你没预料到的地方。

最后那个 3D 地球真的转起来、食物点真的亮起来的时候,我高兴了一会儿。不是因为它有多复杂,是因为它是完整的——从数据结构到视觉呈现,每一层都是我自己搭的。做完一件事的感觉,和做了一半的感觉,完全不一样。

2025.12

两个月 15 条视频,我开始学着用数据说话。

做抖音运营助理的时候,最让我不习惯的一件事,是节奏。15 条视频、两个月、平均四天一条——这不是"灵感来了就做"的节奏,是排期。做不到的时候也得做,质量不稳定是常态,但不能断更。

这段时间让我真正开始看数据。完播率低,说明前几秒没抓住人;点赞多但转发少,说明内容好看但不够触动;评论区出现某种反应,说明这类话题用户有情绪。数据不会告诉你为什么,但会告诉你发生了什么。为什么,得你自己去想。

有一条视频播放量突破了 30W。事后复盘,主要原因是话题选对了——那个时间节点那个话题正好有流量。不是我们做得特别好,是我们在对的时间做了不太差的东西。这让我意识到,运营里有一部分是判断,有一部分是运气,把两者混为一谈会让你得出错误的结论。

2025.10

全国第 2,其实更像一个开始,不是终点。

得奖的时候很开心,但回过头来看,那道题能做出来靠的是配合默契,不是我有多厉害。

比赛过程里有一段时间我们卡住了,那道题的方向我们判断错了,时间又不多。后来是队友先说了一句"我觉得应该从这里切",我接上去说"那这一块我来",然后就顺了。这不是什么策略,就是在对的时候信任了对的人。很多时候事情能不能成,就卡在这一步。

后来接触 AI 工具之后,发现——那种"配合默契、相互补位"的感觉,才是我想在工作里找的东西。不是非要有一个很厉害的人,而是一个大家都知道自己在做什么、出了问题知道找谁的团队。这种状态下,人会比平时好用很多,事也会推得比预期快。

奖项能证明你在某个时间点做到了某件事。但更重要的是,它让你知道自己在什么状态下能发挥出最好水平——以及,那个状态是怎么来的。