开发者约翰·拉什近日公布了一项利用人工智能代理技术处理 25 年历史收据的项目。该项目成功从 11,345 张收据中识别出鸡蛋相关数据,展示了 AI 在长周期数据清洗中的潜力。拉什表示这种混合架构将成为未来自动化数据工程的标准模式。整个计划耗时十四天,主要依靠两个 AI 编码代理协作完成,人类仅投入少量时间进行方向指导。
拉什在项目中测试了 AI 代理处理复杂历史档案的能力,目标是通过追踪鸡蛋价格波动来验证数据提取的准确性。整个项目消耗了约 16 亿个 tokens,主要依赖 Codex 和 Claude 两个 AI 编码代理协作完成。拉什并未亲自编写每一行代码,而是通过简短的指令让代理自主构建处理流水线。这种人机协作模式将原本需要数月的数据清洗工作压缩至两周内,期间人类仅投入约 15 小时进行方向指导。
数据处理的难点在于早期收据多为热敏纸打印,且存在严重的 OCR 识别失败问题。拉什最初尝试了七种传统计算机视觉方法,包括边缘检测和轮廓分析,但均因白底白字问题失效。这些老式扫描件的对比度极低,导致传统算法无法准确分割单张收据。核心问题在于收据纸张与扫描器背景均为白色,被称为白底白字难题。
问题的突破来自于 Meta 推出的 SAM3 模型。仅需一次 API 调用,该模型就能以 0.92 至 0.98 的置信度识别收据边界。这一技术将原本需要数小时的手动分割工作缩短至四分钟,大幅提升了后续处理的效率。SAM3 能够准确识别每张收据的边界,解决了传统 CV 方法无法克服的视觉分割障碍。
在文字识别环节,Tesseract 引擎在处理模糊文本时表现不佳,经常产生幻觉或将小数点丢失。拉什转而采用本地运行的 PaddleOCR-VL 模型,该模型在 Apple Silicon 芯片上运行速度更快且更准确。针对长条形收据,团队还通过动态切片技术解决了模型重复输出的难题。例如,该模型成功识别了被误读为誓言的燕麦奶文本,显著提高了识别精度。
结构化数据提取最初尝试使用正则表达式,但在面对缩写和 OCR 错误时召回率不足。最终团队转向大语言模型进行全量解析,Codex 自动构建了并行工作架构来处理全量数据。当算力耗尽时,系统甚至能自动切换到备用代理继续运行,无需人工干预。这种容错机制确保了大规模数据处理流程的稳定性。
经过人工标注和二次验证,最终数据准确率达到 99% 以上。拉什开发了多个辅助工具,包括键盘优先的标注界面,用于修正 OCR 噪声中的地址信息。这种快速迭代验证机制确保了历史数据清洗的可靠性。通过少量样本微调,模型能够正确识别如 STO LRG BRUNN 等缩写代码。
该案例展示了当前 AI 代理在复杂工程任务中的潜力,但也暴露了通用模型在特定领域的局限性。虽然大语言模型擅长生成工具和提取数据,但在图像分割和基础 OCR 方面仍需依赖专用工具。这种混合架构可能成为未来自动化数据工程的标准模式,推动开发者工作流的重构。拉什计划将该项目延伸至 30 年,继续收集更长期的消费数据。
这一实验验证了个人开发者利用 AI 处理大规模历史档案的可行性。随着多模态模型能力的提升,此类长期数据追踪项目将变得更加普遍。行业观察者认为,这种低代码、高自治的开发模式将改变传统的软件工程流程。拉什的开源实践为后续研究提供了宝贵的参考数据和方法论。