Data Journalist Agent — 把数据变成可审计的多媒体故事

这篇论文提出 Data2Story，一个“虚拟 newsroom”式的多智能体系统。它的目标不是只回答一个数据问题，而是从原始数据出发，完成找背景、跑统计、选故事角度、设计多媒体素材、生成网页、检查页面、绑定证据链，最后产出一篇普通读者能读完、也能追溯证据的数据新闻文章。论文最重要的点不是“AI 写新闻”，而是把可验证性做成产物的一部分。

背景铺垫

数据新闻是跨学科工作。 一篇好文章通常要查背景、清洗数据、做统计、选叙事角度、设计图表和网页，不是一个简单摘要任务。
已有 agent 多半只覆盖局部环节。 数据科学 agent 会跑分析，设计 agent 会做网页，搜索 agent 会找资料，但它们很少端到端产出可读的数据新闻。
新闻产物最怕不可追溯。 读者需要知道数字来自哪里、图表是否真的反映数据、背景说法是否有来源，否则 agent 很容易变成漂亮但不可信的页面。
多媒体不只是装饰。 地理题材可能需要交互地图，音乐题材可能需要音频片段，时间线题材可能需要动画或可探索图表。

问题是什么

从数据到故事不是线性生成。 先分析再写作还不够，因为写作角度会反过来影响要查什么背景、展示什么图表。
单个大模型难同时扮演整间 newsroom。 侦查、统计、编辑、设计、前端实现和审校需要不同技能，强行揉在一个提示里容易漏步骤。
人类文章强在角度和设计，但证据链不总是机器可查。 读者能读懂文章，却未必能追到每个数字对应的脚本行或数据来源。
评价这类产物也很难。 不能只看 BLEU 或准确率，因为文章同时包含叙事、交互、图表、审美和数据可信度。

核心想法

把 agent 系统做成虚拟 newsroom。 Data2Story 用七个角色协作：Detective、Analyst、Editor、Designer、Programmer、Auditor 和 Inspector。
每个角色产出可追踪中间物。 背景来源、统计代码、分析结果、编辑计划、视觉素材和 HTML 片段都会留下结构化记录。
Inspector 把最终页面绑回证据。 它把文章中的句子、数字、图表和交互元素连接到代码行、数据文件或外部 URL。
最终产物是可读网页而不是报告。 论文强调普通读者消费的是故事页面，所以系统直接生成多媒体 HTML article。

Raw data

CSV / table / source files

输入

结构化数据和少量任务上下文

风险

数据本身通常没有故事角度

→newsroom

Specialist agents

search, analysis, edit, design

工作

查背景、跑代码、选角度、做素材

约束

中间结果都要能追踪

→publish

Auditable story

interactive HTML article

输出

多媒体网页和 Inspector 证据链

目标

能读、能查、能复核

方法怎么做

Detective 负责补上下文。 它用 web search 给原始数据补充背景、来源 URL 和可复用媒体，避免后续角色凭空解释数据。
Analyst 负责完整统计探索。 它分析列、枚举可支持的问题，并运行 Python/R 代码，输出结果和对应脚本指针。
Editor 负责把结果变成故事。 它决定主线、取舍、排序和段落级大纲，让文章不只是事实列表。
Designer 和 Programmer 负责读者体验。 Designer 为每个发现选择合适媒体，Programmer 把文字、图表和交互组装成 HTML 页面。
Auditor 和 Inspector 分别管外观和证据。 Auditor 找布局、交互和资产问题；Inspector 则把最终页面元素绑定到上游证据。

Evidence producers

Detective + Analyst

一个找外部语境，一个跑可执行统计，负责给故事提供可验证材料。

Story builders

Editor + Designer + Programmer

决定文章讲什么、怎么展示，并生成真正能交互的网页。

Quality guards

Auditor + Inspector

一个修页面质量，一个建立证据链，让文章既好看又可审计。

新意在哪里

它把 claim-level provenance 放进最终产物。 Inspector 不只是内部日志，而是把可见句子和图表绑定到代码证据或引用证据。
它把 data agent 的输出形态升级成网页故事。 许多系统输出报告或图表，Data2Story 目标是非专家读者愿意阅读的多媒体新闻页面。
它用多种评价协议评估“文章”。 论文同时看人类角度覆盖、53 人盲评、computer-use agent judge 和可验证性。
它承认人类记者仍有优势。 作者明确说系统是 collaborator，不是替代记者；人类仍强在报道角度、创意设计和信息密度。

普通生成文章

looks plausible

读起来像新闻，但数字、图表和背景 claim 很难逐条追溯。

Data2Story

looks + checks

每个重要片段都有上游证据：数据、脚本行、分析结果、素材调用或外部 URL。

结果速览

评估集包含 18 篇人类对照文章。 来源覆盖 The Economist、The Pudding 和 TidyTuesday，题材包括科学、媒体、体育、政治、健康和气候。
人类角度约一半被 agent 覆盖。 Human-in-Agent 为 50.4%，Agent-in-Human 为 35.1%，说明 agent 能抓到不少人类角度，也会提出人类没写的 claim。
53 人盲评更偏好 Data2Story。 平均分 Data2Story 为 4.21，人类文章为 3.38；整体偏好上 39 人选 Data2Story，13 人选人类，1 人认为平手。
最大优势是透明度。 五个 rubric 里，Data2Story 在 Transparency 上提升最大，差值为 +1.49。
可审计性差距很大。 Data2Story 93% 可见 claim 能追到上游证据，人类文章在该机器检查设置下约 25%。这衡量的是 provenance，不等于事实正确率。

局限与开放问题

人类的报道角度仍然更深。 很多强角度来自采访、行业经验和外部判断，不是表格本身能推出的。
创意交互还比不上手工团队。 The Pudding 这类长篇 scrollytelling 有大量定制互动，agent 目前更多是标准图表和通用多媒体。
Inspector 有认知负担。 66% 参与者觉得有帮助，但也有人觉得复杂或分散注意力，证据链界面还需要更好设计。
当前系统是全自动的。 论文也指出，更可靠的版本应允许记者在循环中给反馈、调整角度和修订产物。
污染风险不能完全排除。 一些 Economist 和 Pudding 文章可能出现在模型训练语料里，虽然作者用双向 coverage 和 verifiability 降低了这个影响。

影响

它给 agentic data system 一个更高标准。 不是只要能分析数据，而是要能把结果变成读者可用、编辑可审、证据可追的公开产物。
它也给 AI 新闻应用划了边界。 适合做审计、素材、探索和长尾数据故事；真正的报道判断和创意表达仍需要人类编辑。