DataClaw开源：把你的AI编程对话记录变成开源数据集

数日前，Anthropic发布了一篇措辞相当强硬的文章：《检测和防止蒸馏攻击》。大概意思，就是说发现三家AI公司，DeepSeek、Moonshot、MiniMax，对Claude发起大规模蒸馏调用，三家合计超过1600万次。

蒸馏，是AI行业一种常见的训练方式，简单说就是用一个大模型输出的内容来训练自己的模型，让后者快速获得前者的部分能力。消息一出，整个AI科技圈瞬间炸开了锅。

有意思的是，大多网友都不买账，评论区超过70%的网友都在喷Anthropic。事实上，Anthropic当初训练模型，同样大量使用了互联网上各种数据，甚至还蒸馏过OpenAI的模型。

在这个事情发生后没过多久，开源社区里看了不爽，站出来发声：”既然如此，我干脆把自己本地15.5万条Claude Code真实对话记录全部公开。”同时宣布开源，一个叫DataClaw的工具，让所有人都能一键导出本地各种AI终端的对话记录，也可以选择将自己的数据在Hugging Face上公开。

你不是想把数据牢牢攥在自己手上吗？行，那就把数据集全开源呗，谁能训得好，各凭本事！帖子一经发布，大家纷纷点赞评论，甚至马斯克转发并回了一个字：”酷”，将这场风波推向高潮。

借助DataClaw工具，可以把我们在Claude Code、Codex、Gemini CLI等AI编程工具上产生的对话记录，整理成标准格式的数据集，一键上传到Hugging Face公开共享。

当然，我们的对话记录里难免会有一些敏感的信息不便公开，因此工具在导出流程内置了多层隐私保护，会对数据进行脱敏处理。比如文件路径会自动处理，只保留相对位置；用户名会被替换成匿名编码；各类密钥、令牌、数据库密码，通过多重扫描自动识别并抹除。

工具上手也相当简单，只需一行命令：pip install dataclaw

之后在命令行中，按五步流程走，选来源、确认项目范围、本地预览、隐私扫描、确认后推送。每一步都需要我们亲自确认，绝不会莽撞地直接把我们的数据进行上传。

其实，这件事的影响，在我看来远比工具本身更值得关注。对开发者来说，这是一次数据主权的具体落地。我们每天跟AI结对编程，产生的对话记录到底算谁的资产？这个问题以前只是一个模糊的担忧，现在至少有了一个主动选择的出口。

GitHub项目地址：https://github.com/peteromallet/dataclaw