xiand.ai
2026年4月9日 · 更新于 UTC 03:45
人工智能

英国国家数据图书馆计划面临数据质量瓶颈

开放数据研究所(ODI)的一项研究显示,由于公共数据集存在标签混乱和元数据缺失,英国政府旨在推动人工智能发展的国家数据图书馆计划恐难达到预期效果。

Alex Chen

1 分钟阅读

英国国家数据图书馆计划面临数据质量瓶颈
Conceptual image of a national data library for artificial intelligence.

英国政府计划利用国家数据图书馆(NDL)为人工智能开发提供公共数据支持,但开放数据研究所(ODI)的最新研究指出,该计划正面临严峻的落地挑战。

英国政府在2024年秋季预算中确认了NDL计划,并承诺投入1亿英镑资金。该项目旨在通过整合公共部门数据,为研究人员和企业提供AI驱动的创新动力。然而,ODI通过构建“NDL-Lite”原型系统发现,目前的公共数据质量远未达到AI应用的要求。

数据可用性与AI的“绕行”风险

ODI的研究人员处理了来自六个公共部门的38GB数据,整合了超过10万个文件。实验发现,data.gov.uk等平台上的许多数据集存在标签错误、过期或元数据缺失的问题。例如,部分标注为“犯罪”的数据集实际上是互不兼容的地方性统计报告,导致AI系统无法进行有效的跨区域分析。

更严重的是,部分核心数据集长期未更新。ODI指出,内政部的一项主要犯罪数据集自2018年以来便未再更新,且无法通过国家统计局(ONS)的API进行有效访问。当AI代理无法从官方渠道获取权威数据时,它们往往会转向新闻报道或商业数据源,这些信息源的准确性通常难以保证。

ODI研究主任Elena Simperl教授表示,研究明确了公共数据量与其实际可用性之间的鸿沟。她在接受采访时警告称,一旦官方数据无法提供支持,AI代理将直接绕过官方渠道寻找替代信息。

英国科学、创新和技术部(DSIT)此前声称已完成了大规模的发现阶段,旨在为公共部门的系统性改革铺路。然而,ODI的实验结论表明,仅有政府的投资承诺并不足以支撑AI产业,清理和标准化现有数据才是当务之急。

目前的测试结果显示,如果政府不能显著提高数据的准确性和结构化程度,NDL计划恐将沦为难以被AI系统有效利用的“数据坟场”。

标签

评论

评论存储在您的浏览器本地。