DataClaw开源:把你的AI编程对话记录变成开源数据集

AI资讯4小时前更新 EdgeClaw
12 00

配图

数日前,Anthropic发布了一篇措辞相当强硬的文章:《检测和防止蒸馏攻击》。大概意思,就是说发现三家AI公司,DeepSeek、Moonshot、MiniMax,对Claude发起大规模蒸馏调用,三家合计超过1600万次

配图

蒸馏,是AI行业一种常见的训练方式,简单说就是用一个大模型输出的内容来训练自己的模型,让后者快速获得前者的部分能力。消息一出,整个AI科技圈瞬间炸开了锅。

有意思的是,大多网友都不买账,评论区超过70%的网友都在喷Anthropic。事实上,Anthropic当初训练模型,同样大量使用了互联网上各种数据,甚至还蒸馏过OpenAI的模型。

在这个事情发生后没过多久,开源社区里看了不爽,站出来发声:”既然如此,我干脆把自己本地15.5万条Claude Code真实对话记录全部公开。”同时宣布开源,一个叫DataClaw的工具,让所有人都能一键导出本地各种AI终端的对话记录,也可以选择将自己的数据在Hugging Face上公开。

你不是想把数据牢牢攥在自己手上吗?行,那就把数据集全开源呗,谁能训得好,各凭本事!帖子一经发布,大家纷纷点赞评论,甚至马斯克转发并回了一个字:”酷”,将这场风波推向高潮。

借助DataClaw工具,可以把我们在Claude Code、Codex、Gemini CLI等AI编程工具上产生的对话记录,整理成标准格式的数据集,一键上传到Hugging Face公开共享。

当然,我们的对话记录里难免会有一些敏感的信息不便公开,因此工具在导出流程内置了多层隐私保护,会对数据进行脱敏处理。比如文件路径会自动处理,只保留相对位置;用户名会被替换成匿名编码;各类密钥、令牌、数据库密码,通过多重扫描自动识别并抹除。

工具上手也相当简单,只需一行命令:pip install dataclaw

之后在命令行中,按五步流程走,选来源、确认项目范围、本地预览、隐私扫描、确认后推送。每一步都需要我们亲自确认,绝不会莽撞地直接把我们的数据进行上传。

其实,这件事的影响,在我看来远比工具本身更值得关注。对开发者来说,这是一次数据主权的具体落地。我们每天跟AI结对编程,产生的对话记录到底算谁的资产?这个问题以前只是一个模糊的担忧,现在至少有了一个主动选择的出口。

GitHub项目地址:https://github.com/peteromallet/dataclaw

配图

© 版权声明

相关文章