Bartz v. Anthropic 15亿美元AI版权和解5·14终局听证未当庭批准:Martínez-Olguín 法官就1.875亿律师费暂缓裁决——美国史上最大版权和解金落锤前夜,中资AI企业训练数据合规五项立即重构动作

引言

2026年5月14日下午2时,美国加州北区联邦地方法院(N.D. Cal.)法官 Araceli Martínez-OlguínBartz v. Anthropic PBC(案号 3:24-cv-05417)一案中主持了 $1.5 亿美元集体诉讼和解协议(class settlement)的"公平性听证"(fairness hearing)。这是美国版权法史上金额最大的一笔和解,也是首例针对生成式 AI 训练数据"盗版上游"风险的全国性集体诉讼。然而,法庭并未当庭批准——Martínez-Olguín 法官将案件"暂缓裁决"(taken under submission),主要原因不在和解金额本身,而在 $1.875 亿美元的律师费请求诉讼代表人补偿(service awards)的合理性需进一步说明。这一结果直接关系到所有以"训练—权重—部署"三段式架构进入美国市场的中资 AI 企业:是否、何时、以何种方式为训练语料中的盗版风险买单,已不再是"是否合理使用"的法律抽象问题,而是被一次性定价为"每件作品约 $3,000 美元"的可量化负债。

案件背景:从合理使用到 70 亿本"暗网图书馆"

本案于 2024 年 8 月由三位作家(小说家 Andrea Bartz、纪实作家 Charles Graeber 与 Kirk Wallace Johnson)发起,指控 Anthropic 在训练其 Claude 系列大语言模型时,从 LibGen(2021 年 6 月)与 PiLiMi(Pirate Library Mirror,2022 年 7 月)两个"暗网图书馆"批量下载了约 700 万册受版权保护的图书,并构建了一座永久性的"中央图书馆"(central library)以供持续训练与检索。

主审法官 William Alsup2025 年 6 月就双方简易判决动议作出了具有"分水岭"意义的裁决:

(1)训练行为本身:使用"合法取得"的图书训练大模型,属于"具有典型变革性"(quintessentially transformative)的合理使用,受 17 U.S.C. § 107 保护;

(2)盗版上游:从 LibGen / PiLiMi 下载并永久保留"中央图书馆"的行为,不构成合理使用,构成版权侵权。

2025 年 7 月,Alsup 法官就"盗版"一项认证了集体诉讼资格(class certification),但明确将"训练"排除在集体之外——即原告类成员只能就"图书被盗版下载并入库"主张赔偿,不能就"用我的书训练 AI"主张赔偿。鉴于美国《版权法》第 504(c) 条规定的法定赔偿上限可高达每件作品 15 万美元,按 700 万册估算,Anthropic 的理论敞口一度达到千亿美元级别

和解架构:$15 亿、$3,000/件、四期付款

2025 年 8 月 26 日,双方提交了 $15 亿美元的全国性和解方案。经修订后,于 2025 年 9 月 25 日获得初步批准(preliminary approval)。和解架构如下:

赔偿基数:$15 亿美元(不含利息),按 Anthropic 实际下载并保留的约 50 万件合格作品(出版于 1923 年后、登记于版权局、有 ISBN/ASIN、登记时间符合《版权法》§ 412 与 § 410(c) 的法定要求)分摊,每件作品约 $3,000 美元,扣除律师费与管理费用后向著作权人发放。

付款节奏:$3 亿(2025 年 10 月 2 日,初步批准后一周内)+ $3 亿(终局批准后一周内)+ $4.5 亿(2026 年 9 月 25 日前)+ $4.5 亿(2027 年 9 月 25 日前)。

权利分配:纸书与大学社出版物默认按"作者 50% / 出版社 50%"分配;自出版与版权回归作者的,作者全额取得;教材类不设默认,由作者基于合同善意申报。

5·14 听证的真正焦点:律师费而非和解本身

截至听证日,集体成员的索赔率已攀升至 92.77%,有效"选择退出"(opt-out)的仅 350 人、覆盖 1,802 部作品。理论上和解协议已经赢得绝大多数权利人的支持,但 Martínez-Olguín 法官的提问几乎全部集中在律师费与费用储备金结构上。

原告律师团(Lieff Cabraser Heimann & Bernstein 与 Susman Godfrey 联合主导)最初申请$3 亿美元律师费,相当于和解金的 20%。Alsup 法官在 2025 年 12 月的备忘录中已对该比例提出质疑,原告律师团于 2026 年 3 月 19 日主动将申请下调至 $1.875 亿美元(12.5%)。Martínez-Olguín 法官在听证中进一步追问:

(1)律师费占比是否仍超出 N.D. Cal. 同类巨型和解的"市场基准";

(2)诉讼代表人补偿(service awards)的数额与三位 named plaintiff 的实际参与是否成比例;

(3)费用储备金(cost reserve)的预算与回拨机制是否充分透明。

法官明确表示将"暂缓裁决",并预告"短期内(as soon as tomorrow)"以书面命令的形式陆续作出处置。从程序上讲,本案的终局批准不等同于被拒绝,但律师费一项的下调与暂缓本身已经传递出极强信号——类似规模的"AI 训练数据集体和解"未来不会是律所"分一杯羹"的快速通道,而是需要逐项被法庭验证的成本结构。

对生成式 AI 训练的法律含义:合理使用未被覆盖,盗版上游被定价

本案最常被误读的一点是:"Alsup 法官判定 AI 训练属于合理使用,因此训练 LLM 不再有版权风险"。这种解读至少在三个层面错误:

第一,"合理使用"裁决仅对名义原告生效。Alsup 法官 2025 年 7 月的类认证命令将"训练"排除在集体之外,即合理使用判断仅约束 Bartz、Graeber、Johnson 三位原告,集体类成员既不享受这一裁决的利益,也未被该裁决约束——其他作者、出版社仍可单独诉讼。

第二,"训练合理使用"的前提是"合法取得"。Alsup 法官特别强调:"如果训练用书系从盗版网站下载或被永久保留作为'中央图书馆',则即便训练本身具有变革性,该数据集的获取与保管行为本身也不构成合理使用。"换言之,训练上游的合规链路被独立提取为审查对象

第三,"$3,000/件"成为新的市场定价锚。对于在美国境内运营、训练或部署生成式 AI 的中资企业,本案确立了一个清晰的"盗版语料"定价锚:每件作品约 $3,000 美元 + 法定赔偿在法庭上仍可叠加索赔。一旦训练集中存在来自 LibGen、Z-Library、Anna's Archive、PiLiMi 等已被法院点名的"影子图书馆"的语料,定价基准已无悬念。

对中国企业的启示:五项立即合规重构动作

动作一:训练语料溯源审计(Training Corpus Provenance Audit)。立即对所有已部署或待部署的大模型训练数据集开展"上游溯源"——逐一核查 Common Crawl、The Pile、Books3、RedPajama、OpenWebText、Wikipedia 之外的"未公开来源"。一旦发现 LibGen、PiLiMi、Z-Library、Anna's Archive、Sci-Hub 等已被美国法院点名的"影子图书馆"出现在数据管线上游,必须立即从训练集中剔除并销毁权重前的中间产物,并保留独立的"清洗证据链"以便日后举证训练数据已"合法取得"。

动作二:合法授权 vs. 合理使用的双轨证据库。对于商业生成式 AI 产品,不要单一依赖"训练即合理使用"的抗辩。需同步建立"授权证据库"(许可、订阅、API、Creative Commons、公开档案),与"合理使用四要素证据库"(变革性、是否商业、占用比例、对原作市场的影响),双轨备书。Alsup 法官的裁决已确立:"训练合理使用 + 盗版上游"两条审查路径,必须各自闭环。

动作三:合同与陈述保证(reps & warranties)条款重写。在与数据供应商、数据标注外包商、训练 GPU 服务提供商、模型微调外包商签订协议时,必须新增三类条款:(a)数据来源合法性声明(含 chain-of-custody 文档要求);(b)盗版语料剔除流程的可审计性;(c)违反合规义务的赔偿与回购条款。

动作四:用户协议与训练数据政策的中美双轨披露。面向美国用户的产品文档中,须明确披露训练数据的"四级分类":(1)已获书面许可;(2)开放许可(如 CC0、CC-BY);(3)合理使用合法取得;(4)禁用类(含盗版、未授权使用的版权作品)。这一披露在美国 FTC 已开始关注 AI 训练数据"虚假披露"执法的背景下尤为关键。

动作五:风险准备金与境内财产风险对冲。对于 ToB 出海或在美国本土注册主体的中资 AI 企业,建议参照"$3,000 美元/件 × 训练集中受美国版权保护作品估算数"建立"AI 版权诉讼风险准备金"。同时审查在美固定资产、银行账户、应收账款的法律隔离结构,以应对 17 U.S.C. § 504 法定赔偿可能在判决执行阶段产生的强制扣押风险。

案件展望与结语

Martínez-Olguín 法官的"暂缓"并非"驳回",预计在 2026 年 5 月下旬至 6 月初将以书面命令形式落地终局批准或要求进一步修订。无论最终裁决细节如何调整,$15 亿美元的和解基数已经无法回头——首期 $3 亿已于 2025 年 10 月入金、第二期 $3 亿将在终局批准后一周内入金。和解协议在 6 月 11 日(暂定)由和解管理人启动分配测算,2026 年 6 月之后开始陆续向 50 万件作品的权利人发放。

对中资 AI 企业而言,本案的真正影响不是金额,而是"上游可识别 + 单件可定价 + 集体可诉"的三段式风险模型已经成型。在 Anthropic 之后,环球音乐、华纳音乐、Reddit、纽约时报、新闻集团等多个内容方与 OpenAI、Meta、Microsoft、Perplexity、Cohere 之间均已展开类似诉讼。美国法院在 Bartz 案中确立的"训练合理使用 + 盗版上游侵权"二分法很可能在未来 12—24 个月内成为主流路径。

格知律师事务所(Getech Law Firm)将持续跟踪 Martínez-Olguín 法官的终局批准命令,以及由此引发的其他生成式 AI 版权诉讼连锁动向,并为中资企业的训练数据合规架构提供从语料溯源、协议起草到诉讼应对的一站式解决方案。

免责声明

本文仅供一般信息参考,不构成法律意见或律师—客户关系。如需具体合规建议,请联系格知律师事务所:info@getechlaw.com / +1-312-888-6633 / 203 N LaSalle St, Suite 2100, Chicago, IL 60601。

Previous
Previous

美国"Schedule A"集团诉讼入门全景:从密封诉状到 200 万美元默认判决——中资跨境卖家 90 日生死局与五项立即合规动作

Next
Next

科罗拉多 SB 26-189 倒计时 220 天:美国首部综合性 AI 算法决策法被全面重写,2027 年 1 月 1 日生效,中资企业五项立即合规动作