摘要
尽管以 LLM 为核心的聊天机器人已得到迅速普及,但对其使用模式的系统性研究仍相对有限。本文追踪了 ChatGPT 个人用户自 2022 年 11 月发布以来的增长轨迹,发现截至 2025 年 7 月,其活跃用户已约占全球成年人口的 10%。早期用户以男性为主,但性别差距已显著缩小。同时,中低收入国家的用户增长率远高于高收入国家。通过一套带有隐私保护机制的自动化流程,我们对具有代表性的 ChatGPT 对话样本进行了使用方式分析。结果显示,虽然工作相关对话的数量在上升,但非工作相关对话的增长更快,导致后者的占比已从 53% 上升至 70% 以上。相比之下,受教育程度较高且从事高薪行业的用户,则更倾向于在工作中使用 ChatGPT。按主题分类后可见,“实用指导”、“寻求信息”与“写作”这三类对话合计占比约 80%。在工作场景中,写作是最主要的用途,这凸显了聊天机器人在生成与加工数字内容方面,相较于传统搜索引擎的优势。与之形成对比的是,计算机编程和自我表达相关的对话占比则较低。总体而言,ChatGPT 创造了显著的经济价值,这尤其体现在为知识密集型任务提供决策支持方面。
1. 引言
ChatGPT 自 2022 年 11 月发布后,其用户规模迅速扩张。截至 2025 年 7 月,每周发送消息约 180 亿条,每周活跃用户(WAU)约 7 亿,约占全球成年人口的 10%。对新兴技术而言,如此迅速的全球扩散尚无先例。
本研究聚焦于 ChatGPT 在个人用户层面的使用情况。作为首款面向大众市场的聊天机器人,它很可能也是迄今为止规模最大的同类应用。ChatGPT 基于大型语言模型(LLM),这项技术在过去十年中逐步发展,并被广泛视为人工智能能力加速演进的重要标志。
LLM 能力的飞速提升与广泛采用,极大地激发了学界对其在经济增长、就业乃至更广泛的社会领域所产生的经济社会影响进行探讨。然而,尽管 LLM 已被广泛采用,有关其实际使用情况的公开信息却十分有限。现有研究多依赖于受访者的问卷调查来估计 LLM 的采用情况,但此类数据不仅可能存在偏差,也往往无法直接追踪用户与聊天机器人之间的具体对话数量及其内容特征。
近期,Handa 与 Tomlinson 等人发表的两篇论文报告了聊天机器人对话的统计数据,并采用了多种分类方式。我们的研究从以下几个方面推进了上述工作:首先,本研究关注的 ChatGPT 用户规模更为庞大,这意味着我们的数据更能代表普通用户的真实使用情况。其次,我们基于新建的分类体系,采用自动分类器对用户发送的消息类型进行识别与统计。第三,我们分析了聊天机器人在不同人口群体中的普及度,并追踪了各类使用模式随时间的演变趋势。第四,我们在严格隐私保护的前提下,利用数据洁净室(data clean room)协议,对部分组别用户的就业与教育背景信息进行了分析,进而揭示了不同组用户在发送消息类型上的差异。
我们的核心样本随机抽取自 2024 年 5 月至 2025 年 6 月期间 ChatGPT 个人版(包括 Free、Plus 和 Pro 计划)所发送的消息。我们采用一套自动化分类系统,对用户发送给聊天机器人的消息从多个维度进行自动归类,具体包括:该消息是否用于有偿工作、对话主题、交互类型(如询问、指令或表达)以及对应的 O*NET 任务类别。每个分类任务均通过编写提示词并交由大语言模型执行来实现,全过程无需人工干预,从而保证了分类效率的一致性。整个分类流程严格遵循隐私保护规范(详见下文),确保自动化分析过程中无任何敏感信息泄露。在此基础上,我们于数据洁净室(data clean room)环境中,将消息分类结果与聚合后的用户就业及教育背景进行了关联分析。

表 1 展示了工作与非工作相关消息总量的增长趋势。尽管两类消息的数量均在持续增长,但非工作类消息的增长速度更快,以致目前占比已超过 ChatGPT 个人用户消息总量的 70%。大多数关于 AI 的经济分析集中于其对有偿工作生产率的影响,然而,AI 对非工作活动(如家庭生产)的影响规模与其相比实则相当,甚至可能更大。工作相关消息占比的下降,主要由各用户群体内部使用模式的变化所驱动,而非源于 ChatGPT 新用户构成的变化。关于非工作活动影响巨大的这一发现,与 Collis 和 Brynjolfsson 的研究相互印证。后者通过选择实验揭示了用户对生成式 AI 的支付意愿,并估计仅 2024 年美国就产生了至少 970 亿美元的消费者剩余。
接下来,我们采用 OpenAI 内部开发的“对话分类器”对消息进行分类,以深入理解产品使用模式。结果显示,近 80% 的 ChatGPT 使用量集中体现在三大类别中:“实用指导”、“寻求信息”和“写作”。其中,“实用指导”是最常见的应用场景,涵盖学习辅导与教学、各类主题的操作建议以及创意构思。“寻求信息”包括搜索关于人物、时事、产品和食谱等信息,其功能在许多情境下已近乎直接替代传统的网络搜索。“写作”不仅指自动生成电子邮件、文档及其他通信内容,也包括对用户提供的文本进行编辑、评论、总结和翻译。在工作相关应用中,“写作”是最主要的使用场景,截至 2025 年 6 月,其平均占工作相关消息量的 40%。约三分之二的写作类请求是要求 ChatGPT 修改用户提供的文本(如编辑、评论、翻译等),而非从零开始生成全新内容。此外,约 10% 的消息是寻求辅导或教学帮助,这表明教育是 ChatGPT 的一个关键应用领域。
我们的两项发现与其他研究形成了鲜明对比。首先,与计算机编程相关的消息占比相对较小:仅有约 4.2% 的 ChatGPT 消息涉及编程,而 Handa 等人的报告称,Claude 的工作相关对话中这一比例高达 33%。其次,与陪伴或社会情感话题相关的消息比例也较低:仅约 1.9% 的 ChatGPT 消息属于“人际关系与个人反思”类别,0.4% 与“游戏与角色扮演”相关。相比之下,Zao-Sanders 提出,“治疗/陪伴”是生成式人工智能最为普遍的应用场景之一。
我们还记录了几项关于 ChatGPT 使用情况的人口统计学重要发现。首先,有证据表明 ChatGPT 使用中的性别差距随时间推移已显著缩小,甚至可能已经完全消失。在 ChatGPT 发布后的最初几个月,约 80% 的活跃用户拥有传统男性名字;然而截至 2025 年 6 月,这一比例已降至 48%,此时活跃用户中拥有传统女性名字的比例已略占优势。其次,我们发现尽管近几个月年龄差异有所收窄,但成年用户发送的所有消息中,近半数来自 26 岁以下的用户。第三,过去一年中,中低收入国家的 ChatGPT 使用增长率相对更高。第四,我们发现高学历用户及高薪职业从业者使用 ChatGPT 进行工作的可能性明显更高。
我们引入了一种新的分类法,依据用户寻求的输出类型将消息划分为“询问”(Asking)、“执行”(Doing)或“表达”(Expressing)。“询问”指用户寻求信息或澄清以辅助决策,这对应于知识工作中的问题解决模型。“执行”指用户希望生成某种输出或完成特定任务,对应于传统的基于任务的工作模型。“表达”则指用户陈述观点或感受,但不寻求信息或行动。我们估计,约 49% 的消息属于“询问”,40% 属于“执行”,11% 属于“表达”。然而,截至 2025 年 7 月,约 56% 的工作相关消息被归类为“执行”(例如执行工作任务),其中近四分之三涉及写作任务。写作相关对话的相对频率之高值得关注,原因有二:首先,写作是几乎所有白领职业的通用任务,而良好的书面沟通能力是雇主最看重的“软”技能之一(National Association of Colleges and Employers, 2024);其次,与其他信息技术相比,生成式人工智能的一个显著特征是其生成长形式输出(如文本和软件代码)的能力。
我们还借助美国劳工部支持的职业信息网络(O*NET)提供的工作特征调查,将消息内容映射至具体的工作活动。研究发现,约 58% 的工作相关消息与两大类工作活动相关:一是获取、记录和解释信息;二是制定决策、提供建议、解决问题以及进行创造性思考。同时,我们发现不同职业类型中,ChatGPT 所辅助的工作活动表现出高度相似性。例如,“获取信息”和“制定决策与解决问题”在几乎所有职业类别,从管理与商业到 STEM 领域,再到行政与销售等各类职业,均位列消息使用频率前五。
总体而言,信息获取和决策支持是大多数职业中最常见的 ChatGPT 应用场景,与我们发现的近一半使用集中于“实用指导”和“寻求信息”两类主题相吻合。我们还发现,相较于“执行”,“提问”的增长速度更快;并且无论是基于衡量用户满意度的自动分类器,还是来自用户的直接反馈,“提问”类消息的质量评分始终更高。
ChatGPT 如何创造经济价值?其价值又对哪些群体最为显著?我们认为,ChatGPT 可能通过提供决策支持来提升劳动产出,这在知识密集型岗位中尤为关键,因为更优的决策能够显著提高生产率。这一点也解释了为何受教育程度较高、从事高薪专业职业的用户更倾向于使用“提问”。我们的发现与 Ide 和 Talamas 的模型高度一致:AI Agent 既可以作为协同产出的“同事”,也可以作为提供建议的 co-pilot,从而提升人类在解决问题中的生产效率。
2. 什么是 ChatGPT?
首先,我们对 LLM 和聊天机器人进行简要概述。更为详尽的内容可参见 OpenAI 随各版本模型发布的论文与系统卡片。聊天机器人本质上是一种统计模型,其训练目标是根据给定的文本输入生成回复,并力求回复的“质量”最大化。此处的“质量”需要通过多种指标来综合衡量。
在典型的交互场景中,用户发送一条纯文本消息(prompt),ChatGPT 则返回由底层 LLM 生成的文本回复(response)。尽管后续陆续加入了网页搜索、文生图等功能,但最常见的交互形式仍是基于文本的问答对话。
自发布以来,ChatGPT 已使用过多种底层 LLM,例如 GPT-3.5、GPT-4、GPT-4o、o1、o3 和 GPT-5。与此同时,模型的权重以及系统提示也会不定期更新。系统提示是指随所有查询一并发送给模型的文本指令。
LLM 在数学上可被视为一个函数,其功能是将一个词串映射到“所有可能后续词”的概率分布上(更精确地说,是对 token 的分布;token 是文本的基本单元,可近似理解为单词或字词)。该函数由深度神经网络实现,通常采用 Transformer 架构,并由数十亿个模型“权重”参数化。本文将 ChatGPT 的各类模型统称为语言模型,其中大多数已能处理图像、音频等其他媒介的 token。
基于 LLM 的聊天机器人,其权重训练通常分为两个阶段,分别称为“预训练(pre-training)”和“后训练(post-training)”。在第一阶段(预训练)中,LLM 在海量文本语料上学习在给定前文时预测字符串中的下一个词。此时,模型本质上只是一个“根据上下文预测下一词概率”的预测器,其应用范围相对有限。第二阶段(后训练)则旨在让模型能够针对 prompt 生成“优质”回复。该阶段通常结合多种技术策略,包括:基于“提示词-理想回答”配对数据进行微调;采用强化学习,利用一个能对回复质量打分的奖励模型;或利用强化学习,依赖一个预设的、包含正确答案的函数。此外,后训练阶段通常还会引入一系列“安全”约束,以避免生成某些特定类别的输出,尤其是被认为有害或危险的内容。
上述两阶段过程在统计学上有一种常见的解读:第一阶段使模型学习到关于世界的潜在表征,第二阶段则在该表征之上拟合一个函数。将模型预训练为“预测下一词”,本质上是让其学习一种文本的低维表征,仅保留关键语义特征,从而使“提示—回复”问题能够在合理规模的训练样本下变得可解。
评估聊天机器人的常见方法主要有两类:(1)基准测试,即利用带有标准答案的成套问题进行测评,例如 Measuring Massive Multitask Language Understanding;(2)人工偏好比较,即让人类在同一消息的两份备选回复之间进行选择,例如 Chatbot Arena。
3. 数据与隐私
本节将介绍本研究所使用的数据以及所采用的隐私保护措施。研究团队成员从未接触过任何用户消息的具体内容,且所有分析均严格遵循 OpenAI 的隐私政策。
本文使用的数据集如下:
1. Growth:包含个人版 ChatGPT 用户的日均总消息量(时间范围为 2022 年 11 月至 2025 年 9 月),以及用户自行填报的基础人口统计信息。本数据集主要用于第 4 节的分析。
2. 分类消息:粗粒度类别进行分类的消息。
- 抽样自全部 ChatGPT 用户:随机抽取了 2024 年 5 月至 2025 年 6 月期间登录的 ChatGPT 个人用户发送的约 100 万条去标识化消息。本数据集主要用于第 5 节的分析。
- 抽样自部分 ChatGPT 用户:从 2024 年 5 月至 2025 年 7 月期间的部分 ChatGPT 个人用户中,随机抽取两组消息样本(一组以会话为单位,另一组以用户为单位)。这些数据集主要用于第 6 节的分析。
3. Employment:基于公开数据,对部分 ChatGPT 个人用户的就业与教育类别进行聚合分析。该数据仅用于第 6 节。
我们将分别介绍各数据集的内容、对应的抽样流程,以及在数据构建与使用过程中的隐私保护措施。
3.1 增长数据集
我们构建了一个数据集,涵盖自 2022 年 11 月 ChatGPT 推出以来所有个人订阅方案(Free、Plus、Pro)的使用情况,该数据集排除了企业版和教育版等非个人用户(Business〔原 Teams、Enterprise、Education〕)用户。
该数据集按 “用户 — 日期” 维度记录每位用户当日发送的消息总数。此外,数据集中还包含每条消息对应的去标识化用户元数据,包括:用户与 ChatGPT 的首次交互时间戳、账户注册国家、当日所属订阅方案,以及用户自报年龄(为保护隐私,按 5~7 年的粗粒度区间统计)。
3.2 分类消息
为在保护隐私的同时分析使用情况,我们构建了消息级数据集,且研究人员从未查看消息内容。图 1 展示了隐私保护分类流程的整体示意图。5 种不同的 LLM 分类器自动完成了消息的分类。这些分类器将在第 5 节中详细介绍,其提示词全文见附录 A,验证方法见附录 B。
为在保护用户隐私的前提下分析使用情况,我们构建了消息级数据集,且研究人员从未直接接触过消息内容。图 1 展示了隐私保护分类流程的整体示意。消息的分类由 5 种不同的 LLM 分类器自动完成。
对于全体 ChatGPT 用户,我们随机均匀抽取约 110 万个对话,并在每个对话中抽取 1 条消息,同时遵循以下限制条件:
- 仅包含 2024 年 5 月至 2025 年 7 月期间的消息。
- 排除未同意分享消息用于模型训练的用户的对话。
- 排除自报年龄低于 18 岁的用户。
- 排除已删除对话、已停用或被封禁账户的用户。
- 排除未登录用户(在样本期内仅占少数)。
由于样本源自一张抽样率随时间变化的预抽样数据表,因此我们调整了抽样权重,以确保样本与每日整体消息量成比例。
来自部分 ChatGPT 用户的抽样:我们基于约 13 万名 ChatGPT 用户构建了两个分类消息样本。该用户群体不包括以下三类用户:选择退出数据共享的用户、自报年龄低于 18 岁的用户,以及被封禁或已注销账户的用户。
第一个样本包含来自该用户子集的 158 万条消息,按“对话”为单位进行抽样(即用户与聊天机器人之间的一系列往来消息),并确保用户在数据中的代表性与其整体消息量成比例。第二个样本则按用户为单位抽样,每位用户最多抽取 6 条消息。

通过自动分类器保护隐私。本文分析过程中,研究人员从未直接查看过消息内容;所有与消息内容相关的分析均借助自动化 LLM 分类器开展,这些分类器基于已去标识化且移除个人身份信息(PII)的消息数据运行(见图 1)。具体而言,消息首先通过内部 LLM 工具去除 PII,随后在受控标签空间内进行分类。我们所采用的最精细分类体系是 O*NET 的中级工作活动分类,并在此基础上扩展至 333 个类别。为防止研究人员意外接触原始文本,我们在技术与流程上均引入了限制措施,例如研究界面不会呈现消息文本。分类的目标在于识别消息意图,因此在分类时会参考对话中的前 10 条消息作为上下文(示例见表 2)。

为避免过长的上下文窗口影响分类质量,我们将每条消息的长度截断至最多 5000 个字符。除“交互质量(Interaction Quality)”外,其余分类均使用“gpt-5-mini”模型;“交互质量”则使用“gpt-5”模型。
为验证分类提示词的可靠性,我们将模型分类结果与人工标注结果进行对比。人工标注样本取自公开的 WildChat 数据集,该数据集包含与第三方聊天机器人的对话数据,且用户已明确同意将这些对话公开用于研究。为提升透明度,我们还对 10 万条 WildChat 公开消息进行了分类,结果已纳入论文的复现包。
3.3 就业数据集
我们基于公开数据,对部分 ChatGPT 个人用户的就业类别进行了聚合分析。样本包括约 13 万名 Free、Plus 和 Pro 用户,其就业信息由第三方供应商在数据洁净室(Data Clean Room, DCR)环境中完成聚合分析。本次分析采用了与消息级数据集相同的排除标准:剔除已停用或被封禁的账户、选择退出训练的用户,以及自报年龄低于 18 岁的用户。由于数据仅覆盖用户子集,结果可能无法代表全体 ChatGPT 用户。
数据说明。就业数据来自公开渠道,且经过聚合处理。涵盖内容包括所属行业、按 O*NET 体系粗化后的职业类别、资历级别、公司规模及最高学历等信息。该数据由在 DCR 环境中工作的第三方供应商获取并托管,我们仅能在 DCR 环境中对其执行聚合查询,并在研究完成后即删除所有数据。
通过数据洁净室(DCR)保护隐私。研究团队从未直接接触过用户级人口统计记录,所有就业数据分析均严格在安全的 DCR 环境中完成。该环境仅允许对双方各自独立持有的数据集,就事先批准的聚合计算进行操作,任何一方均无法查看或导出对方的底层数据。我们还为 DCR 制定了严格的操作流程:凡涉及外部人口统计数据的查询,必须先经由六位共同作者组成的委员会签署同意,并将分析笔记本提交至数据合作方审批;只有获得批准的笔记本才能在 DCR 中运行(见图 2)。
数据合作方还执行了严格的聚合限制:仅允许返回统计单元规模不少于 100 名用户的结果。因此,研究人员无法查看任何个体记录或过于细分的类别。例如,当仅有 99 名用户的职业为“麻醉科医师”时,职业分类结果会将其标记为“隐匿(suppressed)”,或合并到更粗的“医疗专业人员”类别,而不会单独列出“麻醉科医师”。

3.4 我们的隐私方法小结
我们在分析的各个环节都采取了隐私保护措施。具体措施总结如下:
消息的自动分类:在整个研究过程中,无人曾直接查看过用户消息文本;所有与消息内容相关的分析均基于已去标识化并删除个人身份信息(PII)的使用数据,并完全依赖自动分类器的输出完成。
通过安全的 DCR 处理就业相关数据:所有就业和人口统计分析及其结果发布,均在安全的 DCR 环境中开展。研究团队从未直接访问过用户级人口统计数据,且任何输出均不报告少于 100 名用户的群体统计结果。
通过上述措施,我们力求达到或超过相关领域既有研究的隐私保护标准,包括聊天机器人行为的社会科学研究,以及将数字平台数据与外部数据源相结合的研究中所采用的做法。
我们遵循了近期由 Phang 等、Eloundou 等、Handa 等及 Tomlinson 等提出的关于聊天机器人对话的研究范式,采用自动分类方法而非人工审阅原始对话。Phang 等在研究 ChatGPT 的情感使用时,以及 Eloundou 等在探讨聊天机器人的第一人称公平性时,均通过自动分类器分析消息内容,并强调自动分类标注的可扩展性与隐私保护优势。Anthropic 的 Handa 等提出的 Clio 方法同样采用这一思路:利用自动分类器处理大规模对话数据,并将其划分为数千个主题;其附录还描述了人工验证的过程,例如对比 100 条经标注复审的用户对话与 100 条随机抽样对话的分类结果。与 Eloundou 等类似,我们也使用公开的 WildChat 对话数据集来验证分类器的有效性。
在更广泛的数字行为与人口统计研究领域,也有若干可借鉴的隐私保护实践。例如,Humlum 和 Vestergaard 将关于聊天机器人使用的大规模调查数据与丹麦行政劳动力市场记录进行联结分析;Chetty 则在邮政编码层面,将去标识化的 Facebook 友谊网络与匿名化的美国 IRS 税务记录进行聚合分析。这些研究表明,在严格隐私保护前提下开展关联研究是一条可行路径。
4. ChatGPT 的增长
ChatGPT 于 2022 年 11 月 30 日以 “研究预览”(research preview)向公众发布,截至 12 月 5 日,注册用户已突破 100 万。图 3 展示了消费者订阅方案(Free、Plus 和 Pro)的每周活跃用户(WAU)随时间增长情况:上线一年后,WAU 超过 1 亿;两年后,WAU 接近 3.5 亿。截至 2025 年 7 月底,WAU 已达 7 亿,约占全球成年人口的 10%。

图 4 展示了消息总量随时间的变化趋势。图中实线显示,2024 年 7 月至 2025 年 7 月期间,消息发送量增长超 5 倍。
图 4 还展示了不同用户队列对总消息量的贡献分布。黄色曲线代表最早一批 ChatGPT 用户:该队列用户的使用量在 2023 年出现小幅回落,但 2024 年底开始重新增长,目前已达到历史最高水平。粉色曲线代表 2023 年第三季度或更早注册的用户,因此黄线与粉线之间的差异,反映了 2023 年二、三季度注册用户发送的消息量。无论是新用户队列的加入,还是现有队列使用量的增长,都推动了消息总量的显著上升。

图 5 对每个注册队列进行独立归一化处理,展示了每位 WAU 的日均消息发送量。图中每条曲线代表一个独立用户队列(与图 4 的累积队列不同)。数据显示,较早注册的用户队列始终保持更高的使用活跃度,同时每个队列内部的使用强度也呈持续增长趋势。这一现象的原因主要有两点:(1)模型能力持续改进;(2)用户对现有功能的渐进探索与发现。
5. ChatGPT 的使用情况
本节采用多种分类体系,对 ChatGPT 对话内容展开分析。针对每个分类维度,我们先设计 prompt 定义类别体系,再利用 LLM 将每条用户消息归类到相应类别。需说明的是,本分类体系更侧重捕捉用户意图而非对话文本的表层内容,因此无法直接获取标注结果。尽管如此,分类器的输出结果可视为最接近人类判断的推断:相同提示词下,LLM 的分类结果与人工标注结果高度一致;即便在 prompt 中引入 “不确定” 作为第三类别,定性结论仍相似。

5.1 工作相关查询在 ChatGPT 总使用量中的占比
我们采用基于 LLM 的分类器,对数据集中每条用户消息,标注其是否与工作相关。Prompt 的关键部分如下:
请判断当前对话的最后一条用户消息是否与工作相关。请从以下选项中选择一项回答:
1 – 可能属于工作范畴(例如:“重写这封人力资源投诉信”);
0 – 可能不属于工作范畴(例如:“冰敷能祛痘吗?”)。
表 1 显示,2024 年 6 月至 2025 年 6 月,工作相关与非工作相关消息量均快速增长,但非工作相关消息增速更显著:其占比从 2024 年 6 月的 53% 升至 2025 年 6 月的 73%。
图 6 展示了非工作相关消息占比,并按累积注册队列分解。后续注册的队列非工作相关消息占比更高,同时每个队列内部的非工作相关消息占比也持续上升。通过对比全部用户(黑色实线)与最早注册队列(黄色曲线)的占比,可发现两者变化趋势高度一致。

5.2 ChatGPT ChatGPT 对话的主题分析
我们改进并采用了 OpenAI 内部研究团队使用的分类器,以识别用户向 ChatGPT 请求的功能类别。该分类器可将用户查询直接划分为 24 个类别,我们再将其归纳为 7 个主题类别(conversation topics)。


图 7 展示了用户消息主题构成的时序变化。三个最常见的对话主题是实用指导、寻求信息和写作,三类合计约占所有 ChatGPT 对话的 77%。具体来看,实用指导占比基本稳定,始终稳定在 29% 左右;写作占比从 2024 年 7 月的 36% 降至一年后的 24%;而同期「寻求信息」的占比从 14% 上升至 24%。技术求助占比从 2024 年 7 月的 12% 降至一年后的约 5% —— 这可能是因为通过 API(ChatGPT 之外)使用大语言模型编程、利用 AI 辅助代码编辑以及使用自主编程代理(如 Codex)的需求迅速增长。多媒体主题的占比从 2% 上升至略高于 7%,并在 2025 年 4 月 ChatGPT 发布新的图像生成功能后出现大幅上升;此后虽有所回落,但仍持续高于以往水平。
图 8 展示了工作相关消息的对话主题分布。截至 2025 年 7 月,写作已成为工作场景中最主要的对话主题,占比约 40%;实用指导占比 24%,位居第二。而技术求助的占比则从 2024 年 7 月的 18% 下降至 2025 年 7 月的略高于 10%。
图 9 将 7 个对话主题中的 4 个分解为子类别,并统计一年内各子类消息总量。以写作主题为例,其五个子类别按频率从高到低依次为:编辑或评析用户提供的文本、个人写作与沟通、翻译、论证生成或摘要撰写、虚构写作。其中,前三类属于对用户已提供文本进行修改的请求,后两类则属于生成全新文本的请求;前者占所有写作类对话的三分之二,这表明大多数用户在与 ChatGPT 进行写作相关对话时,主要是请求修改现有文本,而非从零开始创作新内容。教育是 ChatGPT 的一个重要应用场景:在所有用户消息中,辅导或教学请求占比达 10.2%,占实用指导主题消息的 36%;此外,通用“如何操作”类建议占比 8.5%,占实用指导主题的 30%。技术主题主题可细分为计算机编程(占消息总量的 4.2%)、数学计算(3%)和数据分析(0.4%)。而“自我表达”(Self-Expression)类消息的占比仅为 2.4%,其中“关系与个人反思”占 1.9%,“游戏与角色扮演”占 0.4%。


虽然用户也可通过传统搜索引擎获取信息和建议,但生成式 AI 能直接创作文本、软件代码、电子表格等数字产品,这一能力让它与传统技术形成明显区别。即使在「寻求信息」和「实用指导」这类传统应用场景中,ChatGPT 也展现出比网络搜索更强的灵活性——它能提供高度定制化的回复(如量身定制的健身计划、新产品创意、梦幻橄榄球队命名方案),这些回复既包含全新生成的内容,也包含对用户提供内容的创新性修改,并能持续响应后续交互需求。

5.3 用户意图
现有关于生成式 AI 经济影响的研究,主要关注其在工作任务中的应用潜力,即对人力的增强或自动化。然而,生成式 AI 作为高度灵活的技术,应用场景远不止于此。为深入了解人们在工作与非工作场景中使用生成式 AI 的情况,我们开发了基于大语言模型的自动分类器,以识别用户期望获得的输出类型。具体而言,我们根据用户意图对消息分类,采用 “提问”(Asking)、“执行”(Doing)和 “表达”(Expressing)三分法对消息编码。分类所使用的提示词关键部分如下:

从概念上看,“执行” 类消息(Doing)输出的结果可直接嵌入生产流程;“提问” 类消息(Asking)用于支持决策,不直接产生可交付成果;“表达” 类消息(Expressing)则几乎不含或完全不含经济相关内容。
图 10 显示了样本中三类意图的占比:“提问”(Asking)占 49%,“执行”(Doing)占 40%,“表达”(Expressing)占 11%。图中还揭示了用户意图分类与主题分类的关联:两种分类体系存在相关性,但并非完全冗余。具体而言,“提问”类意图更常见于实用指导和寻求信息主题;“执行”类意图明显集中于写作和多媒体主题;而表达类意图则主要与“自我表达”(Self-Expression)主题相关。然而,这种对应关系并非严格一致。例如,在“实用指导”主题下,“提问”类消息可能是基于用户个人病史咨询运动损伤恢复建议,而“执行”类消息则可能是请求 ChatGPT 生成可打印或保存的个性化恢复与训练计划。在“技术求助”(Technical Help)主题中,“提问”类消息可能表现为请求帮助理解如何调试代码,而“执行”类消息可能直接要求 ChatGPT 为用户编写代码。
图 11 展示了工作相关消息的“提问 / 执行 / 表达”占比,并按“执行”相对份额对主题排序:“执行”占比约 56%,“提问” 约 35%,“表达” 约 9%。其中,与“写作”相关的“执行”类查询占全部工作相关消息的近 35%。在“技术求助”类消息中,“执行”和“提问”的占比大致相当。


图 12 展示了不同意图类型随时间的变化。2024 年 7 月,“提问” 和 “执行” 占比基本持平,“表达” 略低于 8%。此后 12 个月,“提问” 和 “表达” 增长明显快于 “执行”;到 2025 年 6 月下旬,三类意图占比分别为 “提问” 51.6%、“执行” 34.6%、“表达” 13.8%。

图 13 展示了按用户意图划分的工作相关与非工作相关消息占比。其中,“执行”类消息约占全部消息的 40%,在工作相关与非工作相关消息中大致各占一半。
5.4 O*NET Work Activities
我们借助美国职业信息网(Occupational Information Network, O*NET)数据库,将消息内容对应到工作活动。O*NET 由美国劳工部参与开发,依据完成工作所需的技能、任务与工作活动,对职业进行系统分类。该体系为每个职业关联一组不同执行强度的任务,并自下而上聚合为三个层级:2087 项细分工作活动(Detailed Work Activities, DWA)、332 项中级工作活动(Intermediate Work Activities, IWA)和 41 项广义工作活动(Generalized Work Activities, GWA)。
分析与 ChatGPT 使用相关的工作活动时,我们首先将消息归类到 332 项 O*NET 中级工作活动(Intermediate Work Activities, IWA)中的某一项,并增设 “模糊”(Ambiguous)选项以应对上下文不足的情况。随后,依据 O*NET 官方分类体系(taxonomy),将上述 IWA 进一步映射至相应的广义工作活动(Generalized Work Activities, GWA)。出于阈值隐匿规则的要求,对于每个类别中发送消息的用户少于 100 名的 GWA,不单独展示其占比,统一归入“隐匿(Suppressed)”。

图 14 展示了各广义工作活动(GWA)的消息占比情况。近一半消息(45.2%)集中于三类与信息获取和处理相关的 GWA:“获取信息”(19.3%)、“为他人解释信息含义”(13.1%)、“记录 / 归档信息”(12.8%)。其他较常见的工作活动包括:提供咨询与建议(9.2%)、创造性思维(9.1%)、做出决策与解决问题(8.5%)、使用计算机开展工作(4.9%)。以上七类 GWA 合计占全部消息的 76.9%。
图 15 展示了工作相关消息子样本的广义工作活动(GWA)分布:最常见的类别依次为:“记录 / 归档信息”(13.2%)、“做出决策与解决问题”(10.6%)、“创造性思维”(9.3%)、“使用计算机工作”(7.7%)、“为他人解释信息含义”(7.3%)、“获取信息”(6.7%)、“提供咨询与建议”(3.1%)。上述 7 类合计占比为 57.9%。总体而言,ChatGPT 在职场中的使用主要聚焦于两大功能:(1)获取、记录与解读信息;(2)做出决策、提供建议、解决问题与开展创造性思考。


5.5 互动质量评估
我们还采用自动化分类器,评估用户对聊天机器人回复的表面满意度。具体而言,交互质量(Interaction Quality)分类器会在同一对话中(若有后续消息),识别出用户后续消息中的满意或不满意反馈,并将每次交互标注为 “良好”(Good)、“不佳”(Bad)或 “未知”(Unknown)。
图 16 展示了三类交互的整体增长趋势。到 2024 年末,“良好”(Good)交互的出现频率约为 “不佳”(Bad)的 3 倍;此后 9 个月,“良好” 交互增长更快;至 2025 年 7 月,“良好” 交互的出现频率已超过 “不佳” 的 4 倍。

图 17 展示了按对话主题与交互类型划分的 “良好 — 不佳比率”(Good-to-Bad Ratio)。面板 A(对话主题):自我表达的比率超过 7,在各主题中最高,且与该类别的增长趋势一致;“多媒体与技术求助的比率最低,分别为 1.7 和 2.7。面板 B(交互类型):与“执行”或“表达”相比,“提问”类消息显著更可能获得“良好”评级。

6. 谁在使用 ChatGPT
本节分析了个人版 ChatGPT 用户的基本特征。现有研究显示,无论是美国的不同人群(Bick 等, 2024;Hartley 等, 2025),还是丹麦的特定职业群体(Humlum & Vestergaard, 2025a),使用生成式 AI 的频率均存在人口统计学差异。这些研究的结论高度一致:男性、年轻人以及拥有本科或研究生学历的用户使用更为频繁。
相较既有文献,本文有三方面贡献:(1)基于全球样本(而非单一国家)验证了前述广泛的人口学模式;(2)围绕年龄、性别与原籍国等关键特征,提供更细致的描述,并分析这些差距随时间的变化;(3)借助安全的数据洁净室,分析不同教育程度与职业人群使用 ChatGPT 的差异。
6.1 姓名分析
我们基于公开的姓名 — 性别聚合数据集,对全球随机抽取的 110 余万名 ChatGPT 用户的名字(first name)划分性别。所用数据集包括 World Gender Name Dictionary、美国社会安全署(Social Security Administration, SSA)的流行姓名数据,以及巴西及拉丁美洲其他地区的流行姓名数据;方法参考 Hofstra 等和 West 等。若某个姓名未纳入上述数据集、在数据集中被标注为 “模糊”(ambiguous),或各数据集对其性别判定存在显著分歧,则标记为 “未知”(Unknown)。
在排除“未知(Unknown)”后,ChatGPT 发布后的最初数月内,拥有典型男性名的 WAU 占比约为 80%。然而,2025 年上半年,使用典型女性名和典型男性名的活跃用户占比逐渐持平;至 2025 年 6 月,使用典型女性名的活跃用户占比略高。以上变化表明,ChatGPT 的性别使用差距已随时间显著收敛。
在使用主题上也存在差异:使用典型女性名的用户更倾向于发送与写作和实用指导相关的消息;相比之下,使用典型男性名的用户更常将 ChatGPT 用于技术求助、寻求信息和多媒体(例如修改或生成图像)等场景。
6.2 年龄差异
用户注册 OpenAI 账号时,部分人会主动填报年龄。在这些填报年龄的用户样本中,18—25 岁用户发送的消息量占本数据集的 46% 左右。
随着年龄增长,工作相关消息(work-related)的占比逐渐升高。26 岁以下用户的工作相关消息占比约 23%,且这一占比随年龄增长持续升高。唯一例外是主动填报年龄为 66 岁及以上的用户:他们发送的消息中,被判定为工作相关的比例仅占 16%。下图展示了各年龄组工作相关消息占比随时间的变化趋势;可以看到,所有年龄段使用 ChatGPT 时,工作相关消息占比均随时间下降。



6.3 国家差异
为探究 ChatGPT 的全球使用格局,我们统计了各国网民中每周活跃用户的比例(统计范围涵盖人口超过 100 万且未禁用 ChatGPT 的国家)。下图显示了 2024 年 5 月与 2025 年 5 月该比例按人均 GDP 十分位组的分布情况(各国按人均 GDP 排序后均分为十组,横轴为各组人均 GDP 中位数)。其中,实线代表组内中位数,阴影区域表示组内国家的四分位距。对比可见,ChatGPT 的普及率在过去一年大幅提升,且增长在中低收入国家(人均 GDP 1 万至 4 万美元)更为集中,增幅尤为显著。总体而言,许多中低收入国家的 ChatGPT 采用率实现了高速增长。
6.4 教育程度差异
接下来,我们分析 ChatGPT 用户数据与公开数据集匹配后的结果。
图 22 展示了按教育程度划分的 ChatGPT 使用差异。A 组显示工作相关消息的占比,覆盖三类用户:本科以下、本科(学士)及研究生及以上(含在读)。图 22 左侧为未经调整的直接比较;右侧则报告回归分析中 “教育” 变量的系数(回归以 “消息占比” 为被解释变量),回归中控制了年龄、姓名的典型性别倾向(男性 / 女性)、职业类别、职位资历、公司规模与行业,同时给出回归调整结果的 95% 置信区间。

受教育程度较高的用户更倾向于将 ChatGPT 用于工作场景。消息构成上,本科以下学历用户的工作相关消息占比为 37%,本科学历用户为 46%,研究生及以上学历用户则达 48%。在控制其他特征变量后,这些差异大约缩小至原来的一半,但仍在 1% 的统计水平上保持显著。这表明用户的受教育程度与其发送工作相关消息的概率呈正相关。
B 组显示了用户意图(User Intent)在不同教育水平群体中的差异。本科以下学历用户的 “提问”(Asking)类消息占比约 49%,本科及以上学历用户组的这一比例波动较小。经过回归调整后,我们发现研究生学历用户使用 ChatGPT 进行「提问」的可能性高出约 2 个百分点,该差异在 5% 的统计水平上显著。在未调整其他变量前,「执行」(Doing)类消息的使用频率随教育水平提高而增加;然而,在控制了职业等特征后,这一趋势发生了逆转:与本科以下学历用户相比,研究生学历用户发送「执行」类消息的可能性低约 1.6 个百分点,且该差异在 10% 的统计水平上显著。
C 组分析了四种对话主题:实用指导、寻求信息、技术求助和写作 —— 在不同教育水平用户中的分布差异。研究发现,大多数主题在不同教育群体间的差异较小,唯一的显著例外是:与「写作」相关的消息占比随教育水平提高而明显上升。


6.5 职业差异
图 23 展示了按职业划分的 ChatGPT 使用差异。出于隐私保护的聚合限制要求,我们仅报告以下宽泛职业类别的结果:(1)所有非专业性职业(含行政、文职、服务业及蓝领职业);(2)计算机相关职业;(3)工程与科学职业;(4)管理与商业职业;(5)其他专业性职业(含法律、教育及医疗保健等)。与前述做法一致,图左侧为未经调整的直接比较;右侧则报告各职业类别在回归分析中的系数(回归以 “消息占比” 为被解释变量)。回归中同时纳入年龄、姓名的典型性别倾向(男性 / 女性)、教育程度、职位资历、公司规模与行业等变量。
高薪的专业与技术类职业用户更倾向于将 ChatGPT 用于工作场景。A 组显示,未经调整的工作相关消息占比分别为:计算机相关职业 57%、管理与商业职业 50%、工程与科学职业 48%、其他专业性职业 44%、非专业性职业 40%。经回归调整后,各组数值略有变动,但职业之间的差距在统计上仍高度显著。总体而言,高薪专业性职业的用户更可能发送与工作相关的消息。
鉴于不同职业在工作用途上的差异显著,我们在 B 组与 C 组中将样本限定为仅包含工作相关消息。B 组中展示了各职业类别中 “提问”(Asking)在工作相关消息中的占比。结果显示,高薪专业性职业用户更倾向于 “提问” 而非 “执行”(Doing),这一特征在科技类职业中尤为明显:计算机相关职业用户的工作相关消息中,47% 为 “提问”,非专业性职业则仅为 32%。经回归调整后,这些差异有所收敛,但在统计上仍高度显著。
C 组按对话主题呈现结果。写作在管理与商业职业中尤为常见,占该职业工作相关消息的 52%;在非专业性职业和其他专业性职业(如教育、医疗保健)中也较常见,分别占 50% 和 49%。而技术求助在计算机相关职业中占比 37%,在工程与科学职业中为 16%,其余职业组约为 8%。回归调整仅对各职业之间的差距产生温和影响。总体而言,不同职业的工作相关消息在主题分布上差异显著,并明确聚焦于各岗位的核心任务(例如,管理与商业侧重写作,技术类职业侧重技术求助)。
我们进一步基于两位数标准职业分类(Standard Occupation Classification, SOC)代码,报告各宽口径职业组最常见的广义工作活动(Generalized Work Activities, GWA)。表 24 展示了按 SOC 两位数代码划分的各职业组中,七类最常见 GWA 的工作相关消息频次排名。
我们的分析显示,各职业在职场中使用 ChatGPT 的方式高度相似。例如,“做出决策与解决问题”(Making Decisions and Solving Problems)在所有至少可报告两项 GWA 的职业类别中均位列前二;记录 / 归档信息在所有职业中稳居前四;创造性思维在至少可报告三项 GWA 的 13 个职业类别中,有 10 个类别排名第三。尽管 GWA 总数为 41 项,但总体最常见的 7 项在各职业组内部同样最常出现,且排序模式相近。不出所料,使用计算机在计算机相关职业中最常见。附录报告了 GWA 与两位数 SOC 的完整交叉分布,以及在工作相关查询子样本中最常被请求的 GWA。总体而言,各职业的 ChatGPT 职场使用主要集中于信息获取与决策支持。



7. 结论
本文梳理了 ChatGPT 自 2022 年 11 月发布以来的发展轨迹。截至 2025 年 7 月,ChatGPT 的每周活跃用户数已突破 7 亿,日均消息发送量超 25 亿条,约合每秒 2.9 万条。尽管 ChatGPT 乃至整个生成式 AI 技术应用广泛且迅速,但关于其具体使用模式与用户构成的实证证据仍较匮乏。
本文是经济学领域首篇基于 ChatGPT 内部消息数据的研究,同时提出了创新的隐私保护方法。在整个研究过程中,研究人员未直接查看任何用户消息内容。
本文总结了关于 ChatGPT 的八项主要发现。第一,截至 2025 年 7 月,约 70% 的个人用户查询信息与工作无关;尽管工作相关与非工作相关查询量均持续增长,但非工作相关查询增速更快。
第二,ChatGPT 中最常见的三个对话主题是实用指导、写作和寻求信息,三者合计占比近 78%;而计算机编程与关系和个人反思占比较低,分别仅为 4.2% 和 1.9%。
第三,在工作场景中,「写作」是迄今为止最常见的应用,占工作相关消息总量的 42%,在管理和商务职业用户中的占比更超过一半。约三分之二的写作类消息是请求修改用户提供的文本,而非从零开始生成全新内容。
我们还依据用户期望的交互输出类型,采用了一套名为“提问”、“执行”与“表达”的分类标准。具体而言,约 49% 的消息属于用户向 ChatGPT 寻求指导、建议或信息的“提问”类;40% 的消息被归类为“执行”类,即请求完成一项可嵌入现有工作流程的具体任务;另有约 11% 的消息属于以情感交流或随意表达为主的“表达”类。从动态趋势看,过去一年中“提问”类消息的增长速度超过了“执行”类。此外,根据用户满意度模型及直接反馈的综合评估,“提问”类对话所获得的质量评分也普遍更高。
第五,ChatGPT 使用中的性别差距已随时间显著缩小。截至 2025 年 7 月,每周活跃用户中女性占比已超过半数。第六,从用户年龄分布来看,成年用户发送的全部消息中,近半数由 26 岁以下的年轻群体贡献。第七,过去一年间,中低收入国家的 ChatGPT 使用量增长尤为迅速,其增速领跑全球。第八,高学历或从事专业职业的用户使用 ChatGPT 的频率更高,且更倾向于将其用于工作场景。此外,该类用户在职场中更偏好使用“提问”类消息,而非“执行”类消息。
总体而言,研究结果表明,ChatGPT 对全球经济产生了广泛的基础性影响。非工作场景的使用量增速更快这一事实表明,生成式 AI 带来的社会福利收益或相当可观。Collis 和 Brynjolfsson 估计,美国用户需获得 98 美元补偿才愿意放弃使用生成式 AI 一个月,这意味着每年至少产生 970 亿美元的消费者剩余。在工作场景应用中,用户目前似乎将 ChatGPT 更多视为顾问或研究助理,而非仅用于直接执行工作任务的技术工具。尽管如此,ChatGPT 很可能通过提供决策支持提升工作者的产出效率,这一点在知识密集型工作中尤为重要,此类工作的生产率提升高度依赖决策质量的提升。
以上内容翻译自《How People Use ChatGPT》,如需原文,请与我们联系。

WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!
微信:Alexqjl