2024年12月12日,哈佛大学法学院图书馆创新实验室启动机构数据计划。机构数据倡议(IDI)是哈佛大学法学院图书馆的一个新项目,目前已在努力扩大和增强用于人工智能培训的数据资源。在启动仪式上,哈佛大学法学院图书馆创新实验室教研室主任乔纳森-齐特里恩(Jonathan Zittrain)和IDI执行主任格雷格-莱珀特(Greg Leppert)宣布,计划扩大知识机构公共领域数据的可用性,包括哈佛图书馆扫描的近100万册图书的文本,以训练人工智能模型。
机构数据计划的工作重点是寻找方法,提高机构数据的可访问性,以满足各种用途,其中包括人工智能。目前,用于训练人工智能的数据往往在规模、范围、质量和完整性方面受到限制。在目前用于训练人工智能的数据中,各种群体和观点的代表性严重不足。从目前的情况来看,人工智能并不能为离群者提供应有的服务,而如果将这些代表性不足的数据纳入人工智能,离群者也可能得不到应有的服务。例如,冰岛在全国范围内开展了一项由政府主导的工作,将国家图书馆中的资料提供给人工智能应用。这是因为他们严重担心冰岛语言和文化在人工智能模型中得不到体现。几个世纪以来,知识机构一直充当着信息管理员的角色,其目的是促进公共利益,进一步代表不同的思想、文化群体和看待世界的方式。因此,该计划想优化人工智能为人类服务的能力。
来源:https://hls.harvard.edu/today/harvards-library-innovation-lab-launches-initiative-to-use-public-domain-data-to-train-artificial-intelligence/