Thoughts · 想法笔记

零碎但认真
的一些想法。

不定期更新。关于 AI 产品、ToB 落地、内容创作，和做人。

2026.05

用统计局公报的语气推演你的人生。

最近做了一个叫"人生决策回旋镖"的东西——选一个人生决策，比如花38.8万彩礼结婚，然后AI用统计局公报和新闻联播的语气，推演它在5年、10年、15年后会怎么回来找你。

做这个项目的时候，我发现了一件关于Prompt工程的事：约束越具体，AI的输出越有趣。如果只是说"帮我预测一下花彩礼结婚的未来"，AI会给你一段温吞的人生建议。但当你加了约束——"用新闻联播的语气、必须包含具体统计数据、荒谬程度随时间递增、最后一句必须让人沉默"——同样的模型，出来的东西完全不一样。

这个发现和做PM工具箱时的经验是一致的。需求翻译机的Prompt不是一次写好的，而是反复加约束：指标必须有数字维度、行为假设必须包含场景、问题必须是"开工前最先要问的"。每加一条约束，输出质量就提升一个台阶。Prompt工程不是跟AI说话，是给AI画一个越来越精确的笼子。

另一件让我想了很久的事：黑色幽默的公式是什么。回旋镖里最好笑的内容，都是"严肃的数字乘以荒谬的处境"——比如"你累计缴纳房贷利息47.3万元，相当于每天早上醒来先亏230块"。统计是真的，处境也是真的，放在一起就好笑。幽默不是编出来的，是把两件真的东西摆在一起，让它们自己产生落差。

2026.05

五个工具，和"把模糊变成可操作"这件事。

PM工具箱从四个变成了五个。新加的是"职场黑话生成器"——输入一句大白话，输出温和版、委婉版、阴阳怪气版三种体面话，每个附带"对方听完的真实感受"。

这个工具和之前的"甲方话术解码器"是一对镜像：解码器是把暗话变成明话，生成器是把明话变成暗话。做完之后我发现，五个工具本质上都是同一件事——输入是模糊的，输出是可以直接行动的。区别只在于模糊的方向不同：有的是对方的话模糊，有的是自己的需求模糊，有的是自己的勇气模糊。

做黑话生成器让我想通了一个设计问题：为什么要有三个版本而不是一个？因为体面话没有标准答案，只有光谱。同一件事，对不同的人、在不同的关系里，说得方式完全不同。给用户三个选项，比给一个"最佳回复"更诚实——它承认了职场沟通的本质是场域判断，不是公式套用。

另一个收获是关于Prompt设计的。黑话生成器的Prompt比解码器难写——解码器只需要拆解，生成器需要创造。我花了很长时间调试"阴阳怪气版"的边界：太轻了不好笑，太重了变成人身攻击。最后加了一条约束："听着客气但扎心"。好的Prompt不是描述你要什么，是描述你要的东西刚好停在哪里。

2026.05

做了一个真的可以访问的东西。

把音乐助手上线那天，我在手机上打开链接，AI 真的回应了，音乐真的播出来了。这个感觉和之前在本地看着 localhost:5173 跑完全不一样。

"能跑"和"上线了"之间，是一整套对真实世界的适应。环境变量、进程守护、Nginx 反向代理、WebSocket 在生产环境里的连接行为——这些在本地开发时统统不会出现，但上线之后每一个都会找上门来。我之前以为把代码写完就差不多了，后来发现部署才算是一半。

做这个项目里让我想得最多的，是模型降级那块。主服务挂掉、API 额度用完、网络超时——这些情况都可能发生。所以我把 Claude 和智谱 GLM 做成了一条降级链路，通过环境变量动态判断，主模型不可用就自动切换。这个逻辑本身不复杂，但必须想清楚：你的系统在最坏的情况下应该是什么样的？能回答这个问题，才算真的把这个功能想完了。

另一件事是上下文注入。我把实时天气、今天的日历、最近播放记录都塞进了 System Prompt，让 AI 回应的时候能感知到"现在是什么情况"。这个功能加上去之后，同样一句"给我推首歌"，回答就不一样了。Prompt 工程的本质，是替用户想他没说出口的那部分。

2026.05

遇到问题，我的第一反应是先停下来。

有一段时间我养成了一个习惯：出了问题，先把手从键盘上挪开，在脑子里把"现象"和"原因"分开。这一步看起来很慢，但每次都帮我省了很多时间。

不要急着改代码，先确认你改的是不是真正的问题。做知识库的时候，有个 PDF 生成出来的内容完全是错的——全变成了另一个产品的信息。最快的反应是改提示词，但我先去检查了原始文本提取结果，发现文本本身是对的。问题出在提示词里有个具体产品名的示例，模型把它当成了模板去套。改的地方只有两行，但如果没有先定位，可能会改一堆不相关的东西还越改越乱。

区分"解决了问题"和"解决了症状"。有时候加一个判断能让报错消失，但问题还在。我尽量在改之前先问自己：如果这里不改，最差会怎样？如果答案是"根本不影响"，那大概率是在改症状。

没有答案，也是一种答案。之前为了让模型在任何情况下都能输出结果，加了很多兜底逻辑。后来发现，强行输出的内容质量很差，还不如直接说"未生成"，让人来处理。接受边界，比填满它更诚实。

现在遇到问题，我会先写一句话描述它——"什么在什么情况下做了什么"。能写清楚的问题，解决起来通常不难。写不清楚的，才是真正需要花时间的那种。

2026.05

画流程图，让我重新看了一遍自己做的东西。

最近用 draw.io 把 QA 对云端生成的流程和 AI 报表的数据流都画了出来。画的过程里，有两件事让我印象很深。

第一件：你以为你懂，但能不能画出来是另一回事。QA 对生成这个事，我已经做了一段时间了，逻辑在脑子里转得很熟。但真的要把"文件怎么进来、怎么校验、怎么进队列、多模态怎么解析、模型怎么生成、异常怎么处理"逐个节点写清楚的时候，我发现有几个判断分支一直是模糊的——我只是没有被迫把它们变成文字，所以看起来好像懂了。

第二件：流程图是一种沟通工具，不只是文档。我以前觉得流程图是给别人看的交付物，画完就存着。但这次画完之后拿去和同事对了一遍，发现有两个节点我的理解和他的完全不一样——我们都以为对方懂了，但其实谁也没有说清楚。把图摆出来之后，分歧马上就可见了，五分钟就讨论完了。

现在我的习惯是：一个流程，能不能画成图；一个图，能不能让没有上下文的人也看懂。做不到的话，大概率是设计本身还不够清晰。

2026.05

ToB 项目里，最难的从来不是模型。

参与甲方沟通之后，最大的感受是：技术问题往往是最容易解决的。真正卡住进度的，是数据安全的边界没谈清楚、验收标准每个人理解不一样、甲方内部意见不统一。

有一次会议里讨论了很久"数据能不能出内网"。这个问题没有技术答案，有的是立场、顾虑和责任边界。你要做的不是说服他，而是先搞清楚他在怕什么。把这件事想清楚之后，才有可能找到一个大家都能接受的方案——比如本地部署、比如数据脱敏、比如权限分级。

还有一件让我感触很深的事：同一份方案文档，不同的人看完之后，理解可以差很远。这不是因为文档写得不清楚，而是每个人带着自己的预设进来读。所以与其写一份"全面"的文档，不如写一份"每一页都知道读它的人是谁"的文档。

这让我重新理解了"产品能力"——不是会用什么工具，而是能不能在不确定性里把问题定义清楚，然后推着它往前走。

2026.05

做内容和做产品，其实是同一件事。

在测评团队的时候，选题的逻辑是：这个话题用户会不会搜？看完之后会不会转发？这和写产品需求时的逻辑几乎一模一样：这个功能用户会不会用？用完之后会不会再来？

有一次选题会，有个话题我们自己都很感兴趣，觉得做出来一定好看。但拉了一下数据，发现这个关键词搜索量很低，相关内容互动率也平平。最后砍掉了。这件事让我很不舒服，但也让我明白：内容不是你觉得好就好，是用户觉得好才好。这句话说起来容易，真到做决定的时候，能不能过自己那关才是真的。

做产品之后，我发现这个问题换了一张脸又出现了。我有时候会喜欢某个功能的设计，觉得很聪明、很优雅，但用户可能根本不在意那一层。"我喜欢"和"用户需要"之间有一条沟，做内容的时候填过一次，做产品的时候还得再填一次。

都是从用户视角倒推。只是一个输出是视频，一个是功能。工具不同，那条沟是同一条。

2026.04

做知识库，我踩过的三个坑。

在做销售陪练 RAG 知识库的过程中，遇到了很多预料之外的问题。把它们写下来，算是对这段经历的一个复盘。

一、文档要分段，不是整个扔给模型。最开始直接把整个 PDF 传给本地模型，发现长文档会返回空输出。后来改成每 2500 字为一段处理，再合并去重，问题基本解决。模型的上下文窗口是有限的，这是最基础但最容易忽视的事。

二、OCR 质量决定知识库质量的上限。PDF 里有扫描件、图片、表格，文字识别出来的结果参差不齐。识别不准，模型生成的 QA 就没有意义。AI 的输入端比输出端更重要。

三、人工审核不是 AI 的对立面，是它的必要补充。本地模型精度有边界，有些内容模型就是做不好。与其强行生成，不如直接说"没有"，然后让人来补。我们累计人工修正接近两周，但这让知识库的可信度高了很多。

2026.04

荒谬学刊、塔罗牌，和那些没有 KPI 的东西。

我的主页上有一个 AI 塔罗牌。荒谬正经学刊里有一篇论文，专门论证了塔罗牌不如边境牧羊犬。这两个东西是同一个人做的，而且是故意这样的。

做一个"没有正经用途"的东西，反而会逼你想清楚它为什么存在。做 AI 客服方案有明确目标：系统要能接入、能跑通、能交付。但做哲学问答机的时候，没有需求文档，也没有验收标准。你得自己回答：用户体验完之后应该得到什么？是答案，还是一个更好的问题？

塔罗牌那个项目让我想了很久"体验的尽头是什么"。算命这件事，本质上是自我投射——用户从模糊的语言里读出自己想看到的东西。所以我在流程最后加了一个巴纳姆效应的揭穿环节，但只在用户玩完之后才出现。如果一开始就剧透，整个体验就没有意义了。这个逻辑和任何一个产品设计都是相通的：用户得先在里面待一会儿，才会在意你想说的话。

荒谬学刊用学术论文的壳讲荒唐话题，哲学机用严肃的问答格式让人承认自己什么都不知道——形式和内容之间的落差本身就是设计。做这些的时候，我花时间最多的不是代码，是"它读起来要有多荒唐又有多认真"的拿捏。这种拿捏在正经项目里很少需要，但做完之后，我发现这是一种真正意义上的产品感觉。

2026.04

AI 产品不是模型能力，是组合能力。

在做 AI 客服方案的过程中，发现大家对"AI 能不能用"的判断，几乎都集中在模型回答得准不准。但真正让一个 AI 客服好用的，从来不是模型本身——是模型 × 业务流程 × 人工复核机制 × 可维护性的组合。

有一次讨论接入方案，甲方问：模型答错了怎么办？我们花了很长时间解释模型的准确率。但后来才意识到，这个问题真正的答案不在模型上——答案是：设计一套人工接管流程，让模型答错的代价可控。模型会答错是既定事实，产品要做的是在它答错的时候不崩。

模型只是其中一个变量，而且往往不是最难的那个。最难的是：谁来审核输出？异常时怎么转人工？知识库怎么维护？这些问题不在模型的能力范围里，但如果没有人回答它们，再好的模型也没办法真正落地。

这个认知改变了我看待"AI 产品"的方式。我现在评估一个 AI 方案，第一个问题不是"模型准不准"，而是"这套东西在最坏的情况下会怎样"。能回答这个问题的方案，才是认真设计过的。

2026.03

进了一个真正的内容团队，才知道自己之前做的是什么。

在 B 站 200W+ 科技测评团队待了两个月。他们做的是那种把产品买回来、真的用、真的测、把数据记下来，然后想清楚观众会关心什么，再写文案、搭场景、打灯、拍摄的团队。

加入之前我以为自己大概理解"做内容"是什么。进去之后发现，我之前做的东西有一个根本性的问题：我不知道自己是在替观众想，还是在替自己想。这两件事在感觉上很像，但结果完全不同。认真的内容团队每一步都在问：这个观众会不会在意？这个细节能不能让人感知到？50W+ 播放量不是偶然，是一次次把这个问题答对了之后的积累。

另一件让我印象深的事：团队里每个人都很清楚自己在做什么、为什么这样做。布景不是随便摆的，灯光不是随便打的。这种"每个决定都有理由"的工作方式，让我后来做产品文档的时候也开始这样想：这一页在讲什么？读它的人需要知道什么？我有没有替他想清楚？

2026.02

给别人做了一个网站，第一次感受到"交付"的压力。

接了一个远程兼职，用 WordPress + Elementor 给一个品牌做官网。时间不长，页面也不复杂，但这是我第一次做一个完全不能按自己想法来的东西。

客户说的需求和他真正想要的之间，有一道翻译层。他说"要有高级感"，真正的意思是字少、留白多、颜色克制。他说"要把产品都放上去"，实际上只有两三个是他真正在意的。我花了一半时间做出来，另一半时间在理解他说的话和想要的东西之间的差距。这道翻译的工夫，比做页面本身要难。

还有一件事：SEO 基础优化。原来页面标题、描述、关键词的排布是有逻辑的——搜索引擎看的是结构，用户看的是感受，两件事得同时顾到。这件事让我第一次把"给人看"和"给机器看"这两种产品视角放在一起想。

2026.02

一张地图，和把一件事做完的感觉。

食迹地图是我第一个真正从零开始、自己写完的可视化项目。起点是一个很普通的想法：把各地特色美食画在地图上。但"画在地图上"本身是模糊的——2D 还是 3D？点击之后显示什么？传播路径怎么展示？每个问题背后都有很多条路可以走。

这个项目让我体会到"一直往下做"是什么感觉。用 globe.gl 渲染 3D 地球、集成 GeoJSON 省份边界、口味分类着色、搜索 autocomplete——这些功能都不是一开始规划好的，是一个接一个"那如果还能加这个呢"叠上去的。我没有砍掉任何功能，把每一个想加的东西都做进去了。

中间卡住过一次：地图上 HTML 标签太多，页面严重卡顿，帧率掉到个位数。没有现成的解决方案，最后把渲染逻辑拆开，只在可视区域内动态渲染标签，才把性能拉回来。"能用"和"好用"之间的距离，往往藏在这种你没预料到的地方。

最后那个 3D 地球真的转起来、食物点真的亮起来的时候，我高兴了一会儿。不是因为它有多复杂，是因为它是完整的——从数据结构到视觉呈现，每一层都是我自己搭的。做完一件事的感觉，和做了一半的感觉，完全不一样。

2025.12

两个月 15 条视频，我开始学着用数据说话。

做抖音运营助理的时候，最让我不习惯的一件事，是节奏。15 条视频、两个月、平均四天一条——这不是"灵感来了就做"的节奏，是排期。做不到的时候也得做，质量不稳定是常态，但不能断更。

这段时间让我真正开始看数据。完播率低，说明前几秒没抓住人；点赞多但转发少，说明内容好看但不够触动；评论区出现某种反应，说明这类话题用户有情绪。数据不会告诉你为什么，但会告诉你发生了什么。为什么，得你自己去想。

有一条视频播放量突破了 30W。事后复盘，主要原因是话题选对了——那个时间节点那个话题正好有流量。不是我们做得特别好，是我们在对的时间做了不太差的东西。这让我意识到，运营里有一部分是判断，有一部分是运气，把两者混为一谈会让你得出错误的结论。

2025.10

全国第 2，其实更像一个开始，不是终点。

得奖的时候很开心，但回过头来看，那道题能做出来靠的是配合默契，不是我有多厉害。

比赛过程里有一段时间我们卡住了，那道题的方向我们判断错了，时间又不多。后来是队友先说了一句"我觉得应该从这里切"，我接上去说"那这一块我来"，然后就顺了。这不是什么策略，就是在对的时候信任了对的人。很多时候事情能不能成，就卡在这一步。

后来接触 AI 工具之后，发现——那种"配合默契、相互补位"的感觉，才是我想在工作里找的东西。不是非要有一个很厉害的人，而是一个大家都知道自己在做什么、出了问题知道找谁的团队。这种状态下，人会比平时好用很多，事也会推得比预期快。

奖项能证明你在某个时间点做到了某件事。但更重要的是，它让你知道自己在什么状态下能发挥出最好水平——以及，那个状态是怎么来的。

零碎但认真的一些想法。

用统计局公报的语气推演你的人生。

五个工具，和"把模糊变成可操作"这件事。

做了一个真的可以访问的东西。

遇到问题，我的第一反应是先停下来。

画流程图，让我重新看了一遍自己做的东西。

ToB 项目里，最难的从来不是模型。

做内容和做产品，其实是同一件事。

做知识库，我踩过的三个坑。

荒谬学刊、塔罗牌，和那些没有 KPI 的东西。

AI 产品不是模型能力，是组合能力。

进了一个真正的内容团队，才知道自己之前做的是什么。

给别人做了一个网站，第一次感受到"交付"的压力。

一张地图，和把一件事做完的感觉。

两个月 15 条视频，我开始学着用数据说话。

全国第 2，其实更像一个开始，不是终点。

零碎但认真
的一些想法。