xiand.ai
人工智能

个人开发者利用 AI 代理分析 25 年鸡蛋收据数据

开发者约翰·拉什近日公布了一项利用人工智能代理技术处理 25 年历史收据的项目。该项目成功从 11,345 张收据中识别出鸡蛋相关数据,展示了 AI 在长周期数据清洗中的潜力。拉什表示这种混合架构将成为未来自动化数据工程的标准模式。

La Era

1 分钟阅读

John Rush Uses AI to Analyze 25 Years of Egg Receipts
John Rush Uses AI to Analyze 25 Years of Egg Receipts
Publicidad

开发者约翰·拉什近日公布了一项利用人工智能代理技术处理 25 年历史收据的项目。该项目成功从 11,345 张收据中识别出鸡蛋相关数据,展示了 AI 在长周期数据清洗中的潜力。拉什表示这种混合架构将成为未来自动化数据工程的标准模式。整个计划耗时十四天,主要依靠两个 AI 编码代理协作完成,人类仅投入少量时间进行方向指导。

拉什在项目中测试了 AI 代理处理复杂历史档案的能力,目标是通过追踪鸡蛋价格波动来验证数据提取的准确性。整个项目消耗了约 16 亿个 tokens,主要依赖 Codex 和 Claude 两个 AI 编码代理协作完成。拉什并未亲自编写每一行代码,而是通过简短的指令让代理自主构建处理流水线。这种人机协作模式将原本需要数月的数据清洗工作压缩至两周内,期间人类仅投入约 15 小时进行方向指导。

数据处理的难点在于早期收据多为热敏纸打印,且存在严重的 OCR 识别失败问题。拉什最初尝试了七种传统计算机视觉方法,包括边缘检测和轮廓分析,但均因白底白字问题失效。这些老式扫描件的对比度极低,导致传统算法无法准确分割单张收据。核心问题在于收据纸张与扫描器背景均为白色,被称为白底白字难题。

问题的突破来自于 Meta 推出的 SAM3 模型。仅需一次 API 调用,该模型就能以 0.92 至 0.98 的置信度识别收据边界。这一技术将原本需要数小时的手动分割工作缩短至四分钟,大幅提升了后续处理的效率。SAM3 能够准确识别每张收据的边界,解决了传统 CV 方法无法克服的视觉分割障碍。

在文字识别环节,Tesseract 引擎在处理模糊文本时表现不佳,经常产生幻觉或将小数点丢失。拉什转而采用本地运行的 PaddleOCR-VL 模型,该模型在 Apple Silicon 芯片上运行速度更快且更准确。针对长条形收据,团队还通过动态切片技术解决了模型重复输出的难题。例如,该模型成功识别了被误读为誓言的燕麦奶文本,显著提高了识别精度。

结构化数据提取最初尝试使用正则表达式,但在面对缩写和 OCR 错误时召回率不足。最终团队转向大语言模型进行全量解析,Codex 自动构建了并行工作架构来处理全量数据。当算力耗尽时,系统甚至能自动切换到备用代理继续运行,无需人工干预。这种容错机制确保了大规模数据处理流程的稳定性。

经过人工标注和二次验证,最终数据准确率达到 99% 以上。拉什开发了多个辅助工具,包括键盘优先的标注界面,用于修正 OCR 噪声中的地址信息。这种快速迭代验证机制确保了历史数据清洗的可靠性。通过少量样本微调,模型能够正确识别如 STO LRG BRUNN 等缩写代码。

该案例展示了当前 AI 代理在复杂工程任务中的潜力,但也暴露了通用模型在特定领域的局限性。虽然大语言模型擅长生成工具和提取数据,但在图像分割和基础 OCR 方面仍需依赖专用工具。这种混合架构可能成为未来自动化数据工程的标准模式,推动开发者工作流的重构。拉什计划将该项目延伸至 30 年,继续收集更长期的消费数据。

这一实验验证了个人开发者利用 AI 处理大规模历史档案的可行性。随着多模态模型能力的提升,此类长期数据追踪项目将变得更加普遍。行业观察者认为,这种低代码、高自治的开发模式将改变传统的软件工程流程。拉什的开源实践为后续研究提供了宝贵的参考数据和方法论。

标签

Publicidad

评论

评论存储在您的浏览器本地。

Publicidad