OpenAI、OpenResearch和宾夕法尼亚大学联合发布了题为《GPTs are GPTs:大型语言模型对劳动力市场潜在影响的初步研究》的论文。以下是对这篇论文的全面回顾和分析,力求在保持简洁的同时提供尽可能详细的信息。
引言
这篇论文通过一种新的暴露评估指标,研究了生成式预训练Transformer (GPT)模型对美国劳动力市场的影响。研究发现,约80%的劳动力将有至少10%的工作任务受到GPT的影响,而19%的工人可能有至少50%的工作任务受到影响。工资较高的职业受到GPT影响的程度更大,并且这种影响覆盖各个行业,与其近期生产力增长无关。研究得出结论,GPT具有通用技术的特征,可能对经济、社会和政策产生潜在的深远影响。
尽管研究主要是理论性的,但通过让人类标注员和GPT-4充当分类器,将新框架应用于美国经济中的职业数据。研究结果强调需要进一步研究,探索GPT发展可能带来的广泛影响,包括增强或替代人类劳动力的潜力、对工作质量和不平等的影响、对技能发展的作用以及其他相关结果。
政策制定者和利益相关者应当深入了解GPT对劳动力的影响,以便做出明智的决策,妥善应对AI塑造未来工作环境所带来的复杂局面。
能力
尽管公众的关注点都在GPT能力的迅速发展上,但大型语言模型(LLM)不止包括生成式预训练Transformer (GPT)模型,还涵盖了其他架构。
大型语言模型能够处理和生成多种类型的序列数据,包括汇编语言、蛋白质序列、代码甚至象棋棋局,展示了其在自然语言应用之外的多功能性。不过,它们的性能非常依赖提示信息,输出质量不仅取决于模型,还依赖于输入。这也催生了一种新职业:提示工程师。OpenAI、Google和NVIDIA最近发布的模型已经拓展到多模态功能,能够处理图像并最终处理视频数据。
这项研究的灵感不仅源自模型自身的发展,还来源于围绕其开发的技术的广泛应用、规模和潜力。要充分发挥大型语言模型的作用,必须将其融入到更大的系统,而不仅仅是为其开发简单的外壳。大型语言模型可以实现新的软件和机器通信形式,为使用嵌入的定制神经搜索和执行摘要、分类等任务铺平道路。在这种情况下,生成式AI与其他类型的AI难以区分。
图:OpenAI 2023年GPT-4论文中,GPT-4相较GPT-3.5的考试成绩提升
为了解大型语言模型技术的发展及其对劳动力市场的潜在影响,论文提出了一个新的框架来评估大型语言模型的能力及其对各种职业的潜在影响。该框架评估任务对GPT的总体敏感性,并将暴露程度作为经济潜在影响的指标。但它没有区分劳动力增强还是替代的效果。这意味着,目前尚不清楚该研究究竟是在评估GPT替代工作岗位的潜力,还是仅仅考察其提升现有工作能力。
研究人员使用人类标注员和GPT-4作为分类器,将此框架应用于O*NET数据库中的美国职业数据。
初步讨论发现(详细讨论见下文)
这篇论文综合了人类和GPT-4的标注结果,发现大多数职业都存在一定程度的大型语言模型(LLM)暴露。高薪职业的暴露程度更高,这与之前关于机器学习总体暴露的研究相矛盾。研究显示,LLM暴露与依赖科学和批判性思维技能的工作呈负相关,但与需要编程和写作技能的工作呈正相关。此外,在进入门槛较高的职业中,员工暴露于LLM的程度更高。
研究还考察了各行业的暴露情况,发现信息处理和一般信息工作暴露程度较高,而制造业、农业和采矿等体力劳动行业暴露较低。研究表明,哪怕我们今天停止开发新的LLM功能,LLM的影响依然会广泛且持续,因为一些人主张应该停止开发新的LLM。
当结合互补技术的发展来看,这种潜在影响将被放大。这些特征显示出GPT具备通用技术的特性,因此论文标题为“GPTs are GPTs”。论文的关键贡献在于提出衡量LLM影响潜力的标准,并展示LLM在开发这些标准时的高效和可扩展应用。此外,研究强调了LLM的通用潜力。
然而,LLM未来的发展轨迹和应用,像其他通用技术一样,可能让政策制定者难以预测和监管。这些算法的潜力将体现在广泛的经济价值用例上,催生出新的职业类型,如提示工程师。虽然本研究衡量了当前的技术可行性,但可能无法充分展现LLM未来的潜力。
方法论剖析
暴露评估指标
为了简洁起见,我们曾考虑从文章中删减或简化这个指标(附在论文的附录中),但经过慎重思考,发现完整呈现指标是必要的,这样才能体现该研究的理论性。这并非削弱其可信度,而是强调它高度依赖于人类工人假设和定性报告。
下方为提供给工人和GPT-4的完整指标,以及美国经济职业数据。已将关键定义突出显示。
暴露评估指标:
考虑OpenAI的最强大大型语言模型(LLM)。它能够完成很多任务,包括文本输入和输出,输入的上下文可以在2000个单词内描述。模型无法获得最新事实(少于1年的事实),除非它们被包含在输入数据里。
假设你是某个角色中具备平均专业水平的工人,正在努力完成给定任务。你可以使用LLM和任务中提到的任何软件或计算机硬件工具,还可以使用笔记本电脑上的常见技术工具(如麦克风、扬声器等),但没有其他物理工具或材料。
请根据以下指标来标记任务。
等效质量意味着审核工作的人无法辨别它是由人类独立完成的,还是在LLM的协助下完成的。
如果不确定如何判断任务耗时,请考虑描述的工具是否揭示了任务的主要子任务。
E1 - 直接暴露
如果直接使用类似ChatGPT或OpenAI playground的界面接入LLM,就能使完成任务的时间减少至少一半且质量相当,请将任务标记为E1。这包括以下任务:
根据复杂指令编写或转换文本和代码,
根据规范对现有文本或代码进行编辑,
编写代码以完成原本手工操作的任务,
翻译不同语言之间的文本,
总结中等长度文档,
对文档提供反馈,
回答文档相关问题,
生成用户可能想问的关于文档的问题,
撰写面试或评估问题,
撰写和回复电子邮件,包括涉及信息驳斥或谈判的电子邮件(仅限书面谈判),
维护书面数据记录,
根据通用知识准备培训材料,或
通过任何书面或口头形式告知任何人信息。
E2 - LLM驱动应用程序的暴露
如果仅靠LLM无法将完成任务的时间减少一半,但在LLM之上开发的软件能够将时间减少一半,请将任务标记为E2。该软件可能包括以下功能:
总结超过2000字的文件并回答相关问题,
从互联网上获取最新信息并结合LLM功能,
搜索组织的知识、数据或文件并检索信息,
获取专业领域知识,
根据数据或书面输入提供建议,
分析书面信息以作决策依据,
利用专业知识准备培训材料,
提供相关建议,及
维护复杂数据库。
E3 - 图像能力的暴露
假设你可以使用LLM及能够查看、描述、创建图像的系统,以及上文E2提到的任何系统。该系统无法将视频作为输入或输出,且不能精确获取图像输入中的详细信息,例如图像中的尺寸测量。如果LLM和这些图像功能可以显著减少任务时间,请标记任务为E3:
从PDF读取文本,
扫描图像,或
按照指令创建或编辑数字图像。
图像可以是写实风格,但不能过于详细。模型可以识别图像中的物体,但无法识别物体之间的关系。
E0 - 无暴露
如果以上任何一项都不能将经验丰富的工作人员完成任务的时间减少一半,请标记任务为E0。以下是一些示例:
如果任务需要大量人际互动(如现场演示),应分类为E0。
如果任务需要精确测量,应分类为E0。
如果任务需要详细查看视觉效果,应分类为E0。
如果任务需要用手或行走,应分类为E0。
基于LLM的工具不能做出可能影响人类生计的决策(如雇佣、评分等)。如果任务涉及最终决策输入(而不是分析数据或提供建议),应分类为E0。LLM可以给出建议。
即使基于LLM的工具能完成任务,但无法显著减少熟练工人完成任务的时间,也应分类为E0。
基于LLM的系统不能执行法律要求由人类完成的任务。
如果现有技术已普遍用于完成任务,但LLM或LLM驱动工具不能进一步减少完成任务的时间,则应标记任务为E0。
如有疑问,请默认标记为E0。
标注示例:
职业:检查员、测试员、分类员、采样员及称重员
任务:调整、清洁或修理产品或加工设备,以纠正检查中发现的问题。
标签(E0/E1/E2/E3):E0
解释:模型无法进行任何物理操作,而该任务的大部分内容(调整、清洁和修理设备)都需要使用手或其他物理实体。
职业:计算机和信息研究科学家
任务:运用理论知识和创新来创造或应用新技术,例如调整原理以将计算机用于新的用途。
标签(E0/E1/E2/E3):E1
解释:模型可以在训练中学习理论知识,作为其通用知识库的一部分,适应性原则可通过文本输入提供给模型。
活动:预订餐厅座位
标签(E0/E1/E2/E3):E2
解释:自动化技术已经可以完成这个任务(例如Resy),不清楚LLM能提供什么额外优势。但你可以构建某种系统,让LLM帮助你在Resy上预订。
如示例标注所示,尽管让工人解释他们的评级,但这些解释仍有些随意和争议,并不能直接得出工作可以完全自动化的结论,而更倾向于表明工作可以被增强或改进。
例如,计算机和信息研究科学家的任务“运用理论知识和创新来创造或应用新技术,例如调整原理以将计算机用于新用途”被标记为E1,即直接暴露,这是最高级别的暴露。解释是“模型在训练中可以学习理论知识,作为其通用知识库的一部分,适应性原则可通过文本输入提供。”这确实满足E1的标准,因为“直接通过ChatGPT或OpenAI playground的界面访问LLM可以减少完成任务的时间至少一半且质量不变”,但完成任务仍需人类协作,具备资质的工作人员提供提示信息。这说明任务和职业更具增强性,而非完全自动化。
尚不清楚基于此指标的评估如何得出工作可以被取代的结论。
O*NET数据与工资、就业和人口统计数据
请参阅论文第3.1节了解使用的O*NET数据集信息。为了简洁起见,仅指出该数据集包含1016个职业的信息,包括各自的详细工作活动(DWA)和任务。数据集涵盖19265个任务和2087个详细工作活动。
就业和工资数据来自劳工统计局2020和2021年的职业就业系列,包括详细的职业名称、各职业的工人数量、2031年就业预测、职业入门所需的典型教育以及达到职业能力所需的在职培训。
人类评级与GPT-4评级:运作机制
人类评级和GPT-4生成的标注都基于暴露评估指标。这些数据构成了论文大部分分析的基础。
为了确保人类评级的准确性,作者亲自为大量任务和详细工作活动(DWA)进行了标注,还招募了在OpenAI先前工作中深入审核GPT输出的人工标注员。
论文提到对提供给GPT-4的评估指标进行了一些调整,以增强其与人类标签的匹配度。但具体如何“增强一致性”并不清楚。
论文方法学的局限性
论文承认方法上存在局限性,特别是在使用GPT-4评估GPT和人类判断的主观性方面。
人类判断的局限性十分常见,特别是在涉及人工标注的研究中。虽然研究团队雇用了熟悉GPT模型能力的标注员,但他们在职业上缺乏多样性,这可能在评估模型执行陌生职业任务的可靠性和有效性时导致偏见。然而,人类评级与GPT-4评级在职业的GPT暴露上仍表现出高度一致性。GPT-4的评级通常低于人类评级,而在暴露评级较高的任务中,人类平均更倾向于将其归类为暴露。下面的图表显示了这种情况。
近期研究显示,GPT-4作为有效的区分器,能够应用复杂分类并对措辞和重点的变化作出反应,因此GPT-4任务分类的结果对评估指标措辞、提示顺序和构成、评估标准中示例的有无、详细程度及术语定义等都十分敏感。换句话说,输出极其依赖提示,这也是GPT的普遍现象。通过使用小规模验证集改进提示,可提高模型输出与目标评估标准的匹配度。
作者刻意为人类标注员和GPT-4使用稍有不同的评估指标,以引导模型获得合理标签,而不过多影响人类标注员。因此,他们采用了多种标注来源,但都不应被视为最终标准。由于GPT-4评级的敏感性,论文主要使用人类标注员的结果,尽管这些仍受主观性影响。尽管如此,人类和GPT-4在职业级别的评级仍显示出显著的一致性。
其他局限性包括:基于任务的框架有效性、相对与绝对标准、人类标注员对任务的专业知识和解释的不足、前瞻性、标注的主观性及变化的早期证据,以及导致分歧的因素。包括任务或活动方面的:理论上LLM可以帮助或完成任务,但应用它需要多人改变习惯或期望;某些需要人类监督或共情的监管任务;以及已经有自动化技术可完成的任务。
结果讨论及统计摘要
无论结果表明的是工作可被取代还是增强,显然GPT属于通用技术。我们可以通过观察这些模型能力的长期影响和互补应用系统的增长来评估这一点。在早期阶段,论文主要着重测试GPT语言模型对经济具有广泛影响的假设。
研究结果表明,GPT可能对美国经济中各种职业产生显著影响,体现了通用技术的关键特性。
统计数据显示,对于中等职业,约15%的任务直接暴露于GPT。在?的计算中,这一数字增至30%以上,?的定义是E1与0.5*E2之和,其中E2的权重考虑到部署互补工具和应用时需要的额外投资。而在ξ的计算中,该比例超过50%,ξ被定义为E1与E2之和,为GPT和GPT驱动的软件提供最高暴露的上限评估。
更多总结统计数据及其含义,请参阅论文第4.1节。
总结而言,GPT在自动化和增强任务方面潜力巨大,但模型需整合进更大的系统以充分实现其潜力。预测所需人类监督的程度具有挑战性,特别是在模型能力达到或超过人类水平的任务中。尽管人类监督的需求最初可能会降低技术采用和传播速度,但随着用户对GPT和GPT驱动系统的了解深入,将更好地理解何时及如何信任其输出。
该分析合理。
在工资和就业方面,各职业的暴露分布相似,表明职业集中度与职业对GPT或GPT驱动软件的暴露度无显著关联。但与投资于开发特定领域的GPT驱动软件的关系更大。
在技能重要性方面,研究结果显示科学和批判性思维技能的重要性与暴露呈强负相关,意味着需要这些技能的职业不易受当前语言模型的影响,而编程和写作技能与暴露呈强正相关,表明这些技能相关职业更容易受到影响。
关于职业的入门门槛和所需教育,研究表明拥有学士、硕士和专业学位的人比没有正式教育资格的人更易暴露于GPT和GPT驱动软件。这可能是因为需要较高教育的职业有更多基于文本的资源,往往包括在模型的训练数据中。
上表显示暴露程度最高的职业往往也是教育要求最高的职业。例如,作家、作者和区块链工程师是暴露程度较高的职业。但部分评级有争议,数学家的工作极不可能完全自动化。这说明评级对人类判断具有高度主观性。即便如此,表中列出的职业是估计GPT和GPT驱动软件可显著节省完成大量任务时间的职业,但不意味着这些任务可以被完全自动化。
讨论GPT作为通用技术、对公共政策的影响及局限性
本文探讨了将GPT视为通用技术的可能性,通用技术必须满足三个标准:持续改进、广泛存在于经济中,以及能够催生互补创新。本文的证据支持了后两个标准,发现GPT对整个经济具有广泛影响,而通过软件和数字工具启用的GPT互补创新在经济活动中应用广泛。
研究结果显示,GPT驱动的软件对任务暴露的影响比单靠大型语言模型(LLM)高出两倍多。尽管这些模型已经影响到大量工人和任务,但它们催生的软件创新可能带来更广泛的影响。
这些模型的广泛采用取决于解决瓶颈。信任、成本、灵活性、偏好和激励等因素在采用基于LLM的工具中起关键作用。偏见、不一致等伦理和安全风险也影响其采用。由于数据可用性、监管质量、创新文化和权力分配等不同因素,LLM在不同经济部门的应用差异较大。要全面了解工人和公司对LLM的应用情况,需进一步探索这些复杂因素。
可能出现两种情景:一是节省时间和无缝应用对大多数任务比质量改进更重要;二是最初专注于增强,然后逐步实现自动化。在后一种情景中,增强阶段可能会在完全自动化之前使工作更不稳定。
引入包括LLM在内的自动化技术通常伴随着经济差距加大和劳动力动荡,可能带来负面后果。这强调了社会和政策需对LLM及其互补技术带来的经济动荡做好准备的重要性。虽然本文未提供具体政策建议,但此前研究已建议可在教育、员工培训、安全网改革等政策领域着手。
本研究存在局限性,特别是仅针对美国,这可能限制了其结果对其他国家的适用性,因为这些国家的工业组织、技术基础、监管框架、语言多样性和文化背景各不相同。未来的研究应拓展范围并共享方法以促进进一步研究。
另外两个研究领域值得关注:一是不同部门和职业对GPT的应用模式,二是最先进模型在工作活动方面的实际能力和局限性,而不仅仅是暴露评分。虽然多模态能力最近取得了进展,但本研究在直接GPT暴露评级中未考虑视觉能力。未来的研究应随着技术提升评估其影响,并认识到理论与实际性能间的潜在差异,特别是在复杂、开放性和特定领域任务中。
结语
在未来几年,创造者、开发者和创新者将面临一个重要抉择:继续在可能致力于自动化其角色的组织工作,还是独立行动,利用AI开发应用程序,建立自己的企业。
尤其在加密货币领域,利用AI可以大幅加速去中心化金融、治理、身份和数据系统的发展。随着AI的普及,这项工作愈加重要,可以为真正具有意义的工作做出贡献。
表格显示,没有暴露任务的工作通常不需要大学学历,并且往往无法提供维持生计的薪酬。
美国可能应该在经济仍处于增强阶段时就开始为失业者建立保障措施,而不必等到完全自动化才采取行动。

