品玩

科技创新者的每日必读

打开APP
关闭

AI懂我,甚至比我自己还准?一场关于“人类口味是否可预测”的真实实验

你觉得自己很特别,AI可能也觉得——而且它真的能猜中。

大模型机动组

发布于 7小时前

在泛滥的信息洪流中,我们总以为“口味”是一种难以被量化的东西:对哲学的偏爱、对小众导演的欣赏,甚至是小时候追过的动漫……这些构成了我们的精神指纹,也构成了我们相信“AI永远学不会人类品味”的底气。

但这真的是现实吗?

在生成式AI技术突飞猛进的2025年,前内容平台创始人 Edmar Ferreira 决定用自己过去6个月的真实浏览数据做一个实验。他想知道,AI是否真的能预测我们的喜好?是否能理解“我喜欢的东西”背后的复杂线索?

这篇文章,是他的一份自我实验报告,也是一份关于“AI理解人类”边界的反思:

如果加入一段“我喜欢什么”的描述,AI的预测准确率竟然能提升至 80%

AI比我们以为的更懂我们,而“最后那20%不可预测性”,正藏着我们最真实的自我。

以下为文章完整编译:

AI 能预测我的口味吗?我用六个月的浏览数据做了一场实验

作者:Edmar Ferreira|编译:周华香|原文发表于 Every.to

https://every.to/source-code/has-ai-gotten-good-enough-to-predict-my-taste-i-had-to-know

我曾无数次思考:我的喜好是否可以被预测?

我一直觉得自己的兴趣很特别——喜欢的音乐、电影、哲学话题,甚至那些源自童年的动漫痕迹,像是我独有的精神指纹。我们大多数人或许都带着这样的自我认知:我们塑造了自己的品味,但它终究是模糊的、难以被捕捉的。没有哪台机器能还原这份复杂,无法复制我们独特的世界体验。

可如果这种独特,并不像我们想的那么特别呢?如果我们的口味,其实早已在 AI 的预测能力之内?

我从业早期,就在一家为电商开发推荐系统的公司工作。那时,我对“内容发现引擎”着了迷:一种与你主动搜索相反的机制,它能在你尚未意识到前,就递来你会喜欢的东西。

这类引擎的诞生将彻底改变我们与信息的关系。不是“还行”的推荐,而是精准匹配心灵共鸣的电影;不是随机刷到一首歌,而是每首都让你感同身受。这将是一种令人深度满足的内容体验,也是一片尚未开发的商业蓝海。

随着生成式 AI 的爆发,我越来越想知道——如今的机器,是否已经聪明到可以读懂并预测“人类的口味”?为了回答这个问题,我决定对自己下手:用我的浏览历史,做一场实验。

一、品味,真的能被“自动化”吗?

要开始实验,首先得面对一个问题:我们能不能“数字化”人的品味?

许多聪明人,包括 Every 的 CEO Dan Shipper,都认为:品味,是人类区分于机器最后的堡垒。因为真正的喜好往往藏在暗处——我们会看不点赞,会喜欢不分享。最了解我们的平台守着数据如同巨龙守宝。而“品味”本身也不稳定,它跟随经验变幻流动:一位厨师的味觉,不是算法演算出来的,而是无数次失败与灵感之后,与情绪和记忆交织而成。

我们的喜好并非静止不变,它们会随着人生阶段、文化接触和环境迁移而演化。比如曾排斥电子乐的人,可能因为一场震撼的现场表演,从此爱上它;原本偏爱小说的读者,在经历情感转折后,也可能突然爱上散文。

这些因素似乎让“自动化品味”看起来几乎不可能。但正是因为品味如此个体化、流动性强、扎根于经验——也许才正好为新一代 AI 提供了结构化理解的切口。

二、为什么大模型能看见 Netflix 看不见的东西?

传统推荐系统的逻辑很简单,像个懒散的媒人:“你看过科幻片?那就再给你来几部。”Netflix 也许知道你最近连看三部科幻片,但它不知道你究竟是被其中的哲学深度吸引,还是单纯喜欢演员的脸。Facebook 也可能推给你点赞过的文章,但它根本区分不了你是感动点赞,还是顺手一点。

真正的口味,是微妙的,具有深层语义与美学逻辑的。

这正是大语言模型(LLMs)与传统推荐算法的分水岭。LLMs 拥有数十亿参数,能理解上下文、文化语境与概念之间的微妙联系。传统协同过滤模型顶多知道“喜欢A的人也喜欢B”,而 LLM 能理解:“A 和 B 都带有黑色电影美学、都是道德灰色主角、都受到德国表现主义影响”。

这层上下文理解的能力,意味着 LLM 在理论上,具备更强的个性化推荐能力。

于是,我决定验证它:LLM 能不能预测我在日常刷网页时,哪篇内容能吸引我驻足?

三、实验开始:我把自己的行为数据交给了AI

为了测试 AI 是否能预测我的口味,我收集了自己在线行为的两份数据集:

一份是我过去六个月在 Hacker News 上点赞的记录,包括我点赞的帖子和我滑过未点赞的内容。

另一份是我的 Readwise Reader Shortlist,它分为两层:第一层是我保存下来“打算日后阅读”的内容;第二层是真正被我打开阅读的文章。

这两组数据捕捉了我内容消费中的“偏好判断”。而且我发现,在这两种情境下,我“真正喜欢”的内容比例都不到 10%。这说明,人的品味确实很挑剔。

1. 没有上下文,AI 就像在瞎猜

我首先让模型在完全没有背景信息的前提下,预测我是否会喜欢某篇文章。

在 Readwise 的数据上,GPT-4.1-mini 仅有 50.7% 的准确率,GPT-4.1 则是 52.2%,几乎跟掷硬币没区别。这说明:如果不了解你这个人,AI 很难判断你会对什么感兴趣。

Hacker News 的数据表现稍好,准确率为 65.5%,可能因为内容风格更统一,模式更容易被识别。

2. 添加一段“品味提示”,准确率大幅提升

我将自己所有喜欢的文章整理出来,并结合我与 ChatGPT 的聊天记录,写出了一段我称为“品味准则”(taste rubric)的描述,告诉 AI:我对什么感兴趣、对什么没兴趣。

给模型加入这段上下文后,它的表现跃升:

GPT-4.1-mini 在 Readwise 数据上从 56.7% 提升到 67.2%

GPT-4.1 从 52.2% 提升到 70.1%

OpenAI 的 o3 模型达到 70.2%

Hacker News 数据中,GPT-4.1 提升至 76.2%

也就是说,哪怕只是一段文字介绍,模型就能更准确地模拟我做判断的逻辑。这就像让人随便给你推荐一部电影,和提前告诉他“我喜欢哲学类的科幻片,但讨厌无脑打斗片”之间的差别。

Graphs courtesy of Every.
Graphs courtesy of Every.

3. 微小提示优化,也能带来提升

我用了一种叫 DSPy 的方法,通过提示工程优化提示语,进一步微调模型行为。

提升虽然不大,但稳定有效:

Readwise 准确率从 70.1% 提升至 73.9%

Hacker News 从 76.2% 升至 78.6%

这说明提示设计的细节,哪怕是很小的改动,也能帮助模型更精准地理解“我想要什么”。

4. 相对判断,比绝对判断更有效

我尝试不再让模型判断“这篇文章我喜欢吗”,而是改问:“这两篇文章中,我更喜欢哪一篇?”

这种更接近人类真实选择方式的问题结构,效果明显:

没有背景信息时,准确率只有 49.1%

加入品味准则后提升至 62.3%

加入 DSPy 优化后,提升至 62.9%

而在 Hacker News 的“二选一”判断中:

无上下文时为 58.7%

加入品味提示提升至 77.3%

DSPy 优化后更是达到了 80.9% ——这是本次所有实验中准确率最高的一组。

这种相对判断方式,可能揭示了人类与 AI 在偏好决策上都更擅长比较,而非判断绝对值。

四、80%的准确率,是奇迹,还是隐忧?

实验结果验证了我的一个猜想:LLMs 可以理解、编码并应用个体偏好

但也显露出一些深层差异:

加入“品味准则”能将准确率提升近 18%;

“二选一”判断方式更接近人类的行为逻辑;

在 Hacker News 这样的统一场景下,AI 更容易预测,而面对 Readwise 这种包含哲学、小说、深度文章等多元内容时,准确率明显下降。

这也提醒我们:当人类已经对某些内容“筛过一轮”后,AI 要在这些“我都感兴趣”的选项中选出“我最感兴趣的”,变得更加困难。

五、预测与不可预测之间

这场实验让我既感到震撼,也隐隐不安。

基础模型在没有上下文的情况下,几乎等于乱猜。这说明人的兴趣判断是极为私密的,是非共识的——你觉得有趣的,别人不一定能感同身受。

但一旦加入那段描述我的“品味”的提示,模型就能以超过 80% 的准确率预测我的点击行为。它不需要成千上万条样本数据,只要一段短短的文本。

这是令人震惊的:我们自认为高度个体化的行为,居然能被一句话浓缩、被机器复制。

尤其在 Readwise 的实验中,AI 发现我“感兴趣”的主题没问题,比如我对意识研究、哲学家的兴趣,但它无法准确判断:哪一篇能真正吸引我读完,哪一篇我可能看两段就放弃了。

AI 的确在快速接近我们,但真正的“味道”——那些细腻的感知、偶然的共鸣、理性之外的喜欢——仍然保留在人类身上。

那是机器还碰不到的 20%。但我感觉,这 20%,也许已经没那么远了。

大模型机动组

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测