在人工智能(AI)技术迅猛发展的今天,许多人可能会忽视了一个关键问题:AI所需的海量数据源究竟来自何方?当我们日常使用AI助手,或是享受技术带来的便捷生活时,是否想过这些数据背后隐藏着怎样的文化和社会偏见?目前,AI模型的训练数据大多依赖于互联网的数 ...
相比 LLM 和 Agent 领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过 50 名研究人员组成的数据溯源计划(DPI)旨在回答这样一个问题:AI 训练所需的数据究竟来自何处?