Joffoo's blog

The ethereal flight, oft rehearsed in the theater of one's dreams...

“直到脑中观众笑出声来”:AI大喜利团队合作

突发奇想,问了 NotebookLM 一个问题:有什么研究用 AI 回答“大喜利”的新文章吗?

笑点的要点

在搜到许多来源之后,NotebookLM 总结出了这样几个要点——

温度配置

模型的“温度”是控制其创造性和随机性的重要参数。在 AI 大喜利工作流中,我们采取了“温度解耦”的策略:

  • 分析与评估阶段:在提取视觉事实或进行“笑果”评估时,使用极低温度,以确保模型输出的逻辑一致性和可重复性,避免不必要的“幻觉”。
  • 生成阶段:为了实现幽默所需的“思维飞跃”(LoT),生成阶段需要调高温度,以最大化模型的创造力和发散性。

技巧增强

仅靠“发烧”是不够的。

根据 Oogiri-Master1 的研究,在提示词中显式加入对 简洁度(Brevity)视角转换(Perspective Shift) 的要求,能显著提升幽默评分。

然而,为避免模型过于僵化,我们建议采用“仅在不确定时参考(Uncertain style)”的指令方式,允许模型直觉优先。

共鸣提炼

因为没有生命体验,所以 AI 生成的幽默,往往“新颖”有余,但“共鸣”不足。

为了弥补这一缺陷,HumorSkills2 的思路是:不要只盯着图片题目本身,而是要将场景类比到现代生活的典型冲突,例如“周一早八”、“小组作业”、“职场内卷”或“恋爱压力”等话题,这样能让 AI 产出的幽默更容易引起年轻人的共鸣。

当然了,这一点是为了增强传播效果,我个人则偏好那些更古怪的回答。

编剧团队流水线

在用 NotebookLM 总结之后,我用 Google AI Studio 编写了新版大喜利应用——OOGIRI. OS3。该应用通过串行执行 5 个独立的 AI Agent 来完成从图像识别到“大喜利”生成与筛选的全过程。

为了在保证高质量输出的同时控制运行成本,我们在不同阶段采用了不同的模型:生成答案时优先使用功能更强大的 Gemini 3.0 Pro 模型(如果用量已尽,就自动改用 Gemini 2.5 Pro),而其余识别、评估过程则主要依赖于更高效的 Gemini 3.0 Flash 模型。

Stage 1:视觉分析

此阶段由一个“叙事事实提取器” Agent 负责。其核心职责是从输入图像中,客观地提取所有具有潜在叙事功能的视觉元素。我们严格限制此 Agent 进行任何幽默创作,仅输出纯粹的事实。

  • 配置:Gemini 3.0 Flash,温度 0.2
  • 核心维度:该 Agent 关注主体行为、对象关联、环境反差、面部微辞等关键信息。

Stage 2:策略制定

在视觉事实提取之后,“双向幽默策略师” Agent 会基于这些事实,制定两条截然不同的幽默路径:“嘲笑(Tsukkomi)”与“装傻(Boke)”

  • 配置:Gemini 3.0 Flash,温度 0.1
  • 输出:此阶段的输出并非直接的幽默段子,而是为下一个 Agent (Agent C) 提供具体的切入点,指明幽默创作的方向。

Stage 3:创意发散

作为工作流的核心创意引擎,“Z 世代幽默博主” Agent 结合视觉信息和策略建议,生成 10 个候选回答。此阶段采用“直觉优先 + 理论兜底”的创作流,以平衡自由联想与策略指导。

  • 配置:Gemini 3.0 Pro(或 Gemini 2.5 Pro),温度 1.0
  • 核心禁令严禁笑点解压缩。信任读者的智商,禁止模型添加任何解释性后缀(例如,当比喻“这板子跟我年底的余额一样”已足够巧妙时,不应画蛇添足地解释“干净得令人心碎”),力求戛然而止,把包袱及时抛向观众。

Stage 4:笑果评估

为了对生成的幽默进行量化评估,“幽默逻辑批评家” Agent 会对 10 条候选回答进行 0-4 分的量化打分。

  • 配置:Gemini 3.0 Flash,温度 0.1
  • 评分维度:包括原创性(Novelty)、共鸣感(Empathy)、简洁度(Brevity)、关联距离(Distance)、智力感(Intelligence)和不一致解决(Incongruity)等六个关键维度。

Stage 5:最终决选

在所有评估完成之后,“社交媒体总编辑” Agent 进行裁决,力求最终产出的幽默回答能够覆盖不同的受众偏好。

  • 配置:Gemini 3.0 Flash,温度 0.3
  • 核心功能:基于多维审计报告,选出三个赛道的冠军回答:【最共鸣(The Relatable)】、【最荒谬(The Absurd)】和【最毒舌(The Snark)】。

孰幽孰默

这一节里,我用了三个示例展示 OOGIRI. OS 的生成质量。

为了对比,每个示例的答案中包含了直接使用 Gemini 2.5 Pro 和 Gemini 3.0 Pro 两个模型和之前简单提示词(参考一句正经没有:Gemini和Seedream的大喜利双簧组合)的结果。

因为幽默极其主观,所以孰幽孰默还是交由读者评说吧。

模型 大喜利
Gemini 2.5 Pro 我佛慈悲,阿密个汉堡
Gemini 3.0 Pro 愿世间再无疯狂星期四
OOGIRI. OS - 最共鸣 为了冲 KPI,手都搓掉漆了!
OOGIRI. OS - 最荒谬 脚下的袋子里……装的是肯德基上校?
OOGIRI. OS - 最毒舌 这就是月薪三千的虔诚吗?

模型 大喜利
Gemini 2.5 Pro 我的脑部扫描图
Gemini 3.0 Pro 别拍脸,我是负责打反光板的
OOGIRI. OS - 最共鸣 这一年,白干了
OOGIRI. OS - 最荒谬 这是一个字号 1000 的“口”
OOGIRI. OS - 最毒舌 这是明年的涨薪计划

模型 大喜利
Gemini 2.5 Pro 房租该交了,别躲在里面!
Gemini 3.0 Pro 正在确认这台贩卖机是公的还是母的
OOGIRI. OS - 最共鸣 这就是我月底唯一的理财渠道
OOGIRI. OS - 最荒谬 正在给贩卖机做前列腺指检
OOGIRI. OS - 最毒舌 正在抄底我那跌停的人生

该应用还可以一键导出日志文件,包括全部 Agent 的中间输出。尤其是 Agent B 的思路分析,非常值得广大的大喜利从业者(值得怀疑)下载学习。

2026-02-19


  1. Oogiri-Master: https://arxiv.org/abs/2512.21494↩︎

  2. HumorSkills: https://arxiv.org/html/2502.07981v1↩︎

  3. OOGIRI. OS: https://ai.studio/apps/drive/1u7is3f4_RKQEFKpwBJHC4hXkaoSnRrzL↩︎

文章目录

  1. 笑点的要点
    1. 温度配置
    2. 技巧增强
    3. 共鸣提炼
  2. 编剧团队流水线
    1. Stage 1:视觉分析
    2. Stage 2:策略制定
    3. Stage 3:创意发散
    4. Stage 4:笑果评估
    5. Stage 5:最终决选
  3. 孰幽孰默

Proudly powered by Hexo and Theme by Hacker
© 2026 Fengyukongzhou