戳上方
启元洞见
☞点击右上角...☞设为星标⭐
洞察真知 | 提出卓见
导语
生成式人工智能目前正在改变众多不同行业。然而,尚不清楚此类工具会如何影响社会科学研究。美国杜克大学教授Christopher Andrew Bail在国际顶尖学术期刊《美国国家科学院院刊》发表了一篇题为《生成式人工智能可以推动社会科学发展吗?》
(Can Generative AI improve social science)
的文章,系统总结并分析了生成式人工智能对社会科学研究的机遇、风险和建议。本文认为生成式人工智能技术有望改进调查研究、在线实验等人类行为研究方法。不过,训练数据的偏见、伦理、环境影响及低质量研究泛滥等问题,也会对社会科学研究产生负面影响。文章最后指出,社会科学家可以通过创建研究人类行为的开源基础设施来应对生成式人工智能带来的挑战。启元洞见编译核心内容,旨在为读者提供参考。
文末点击“阅读原文”,可获取原文
一、什么是生成式人工智能
诸如ChatGPT之类的大语言模型
(LLMs)
会摄入海量基于文本的数据,并计算在给定文本段落中,某个单词(或词组)在已有的语言模式下出现的概率。随着技术进步,人工智能研究人员能够使用越来越多的文本数据训练此类模型,再加上“Transformer”架构,大语言模型能够更娴熟地掌握语言规律。因此,
大语言模型类似于过去十年在搜索引擎、应用程序中普遍存在的“自动补全”技术,但其规模要大得多,训练过程也更为复杂。
尽管学者们对大语言模型是否“理解”其生成的内容存在争议,但许多人对其在对话场景中模仿人类、综合不同信息源以及执行基本推理的能力印象深刻。
图像和视频生成领域也取得进展。生成式人工智能工具创建全新图像时,并非像语言模型那样基于词汇间的关系计算单词出现的概率,而是通过不同颜色或尺寸像素的共现规律,组合生成一系列合成视觉内容。这其中包括合成人脸、经典艺术作品的复刻,或是超现实(有时极具创新性)的艺术形式——这些成果既引发了创意行业从业者的关注,也让他们深感忧虑。诸如DALL-E和Stable Diffusion这类模型,能通过文本提示生成视觉内容:
它们会探寻词汇共现模式与像素排列之间的关联,使用户得以定制高度个性化的视觉素材。
二、生成式人工智能为社会科学带来的机遇
尽管生成式人工智能模型存在显著缺陷,但它们在某些场景下似乎能够模仿人类。当前,人类在很大程度上无法判断此类文本的作者是人类还是大语言模型。例如研究显示,GPT-3能轻松生成关于新冠疫情的虚假信息,但大多数社交媒体平台没有检测出来。
尽管生成式人工智能成功模仿人类的能力显然存在潜在危害,但这些能力或许能为社会科学家的研究目的所用。它可创建实验所需的文本或图像,并在研究人员反馈下提升材料效度、可比性,还能保护真人隐私。生成短篇内容时,生成式人工智能出错率较低,在复杂行为模拟中也表现不俗,例如,GPT-3能按人口统计特征模仿民意调查受访者,输入受访者特征细节后,其回答与真实受访者高度相似。还有人认为,生成式人工智能也是创建调查问题或设计多项目量表以衡量抽象社会概念的有用工具。此外,生成式人工智能还可用于复现实验。例如,大语言模型可复制认知科学以及道德研究中的经典实验,并在囚徒困境和其他行为博弈中模拟人类行为。
生成式人工智能或将催生新的研究形式。
社会科学理论常涉及群体层面过程,但招募大量人群互动困难且成本高。尽管生成式人工智能可能永远无法复制人类群体的自发行为,但研究人员或许仍能在网络空间中部署机器人群体来近似模拟此类行为。有研究人员搭建了一个社交媒体研究平台,让受访者与模仿对立政党成员的大语言模型互动十分钟,多数参与者难辨对方是人类还是机器人。该研究设计表明,
只要研究人员实时仔细监控人机互动中的幻觉或滥用情况,大语言模型可能有助于开展群体层面过程的研究。
(一)生成式人工智能改进基于模拟的研究
生成式人工智能工具可以用于直接模拟大规模人类群体,推动“基于主体的建模”
(ABM)
范式革新。ABM指的是研究人员通过创建合成社会来研究社会进程,要求研究人员用计算机代码构建社会场景的模拟(如社交网络、社区或市场),并根据人类行为理论设定的规则,创建在这些场景中互动的主体。ABM的一大优势在于,它允许研究人员探索假设场景,并从个体行为(如群体内偏见)推导宏观模式(如居住隔离)。但早期的ABM使用遵循简单规则的主体,因缺乏语言交互、社交情境理解等,难以捕捉人类行为全貌。
近期研究表明,
大语言模型可用于解决基于模拟的研究的一些局限性。
研究人员用GPT-3.5驱动数十个主体在虚构小镇环境中互动,赋予主体们个性、特征及记忆,随着模拟进行,这些主体不仅形成日常生活规律,还展示了涌现的群体属性(如讨论是否参加派对、议论消息)。尽管该实验创建的模拟环境相对简单,但也证明了生成式人工智能对社会模拟的潜力。
此外,大语言模型可以集成到ABM中,以开发或测试更复杂的人类行为理论。例如,大语言模型可以重现社交媒体上的社会运动动态,还可以在模拟经济和劳动力市场中重现竞争动态、组织内的信息传播和决策以及危机应对。未来研究需明确大语言模型是否真实地体现了如此多人类行为的不可预测性。若解决,二者整合可研究现实中难触及的主题(如社交媒体上的暴力极端主义)与人群(如暴力极端分子)。模拟也可以为我们在这些主题上的少量观察性研究提供信息,并且也可以使用这些观察数据进行校准。其涌现的群体行为或为社会干预提供参考,但需验证大语言模型模拟的真实性。
(二)生成式人工智能革新文本分析
无论生成式人工智能的行为模拟能力如何,这类技术已在社会科学文本数据分析中展现潜力。有研究证明,GPT-3.5通过分析美国官员公开声明,可精准分类其意识形态,结果与主流投票分析方法高度吻合,还能捕捉中间派背离党派极端的细微倾向。有学者使用由社会学、政治学和心理学等社会科学领域以及历史、文学和语言学等非社会科学领域的专家编码的数据集,比较了大语言模型重现人类专家注释者工作的能力。总体而言,大语言模型表现良好,尤其是在编码政治学家和社会学家创建的数据时。不过,使用大语言模型仍需要一定程度的人工监督,且需熟悉任务特定的提示工程。
文本分析或是生成式人工智能改进社会科学研究最有前景的领域之一。
尽管大语言模型准确性暂未超越人类专家,但其处理速度与规模优势显著:可短时间内完成全量文本语料库编码,而非传统抽样分析。生成式人工智能还支持多语言编码及数据录入等基础工作。值得注意的是,人类编码员常出现主观偏差、一致性不足等问题,而大模型虽也存在偏见风险,但标准化处理能力更强。不过,仍需更多研究评估模型在文本分析中的隐私风险,尤其是训练数据对小众群体的覆盖不足问题。目前,生成式人工智能已实质性拓展了社会科学文本研究的问题边界,其与传统分析方法的结合,或将重塑非结构化数据的研究范式。
三、生成式人工智能
在
社会科学研究中的潜在风险
(一)存在人类偏见
生成式人工智能因基于人类创建的互联网数据训练,普遍存在偏见与认知错误。
提示工程可以解决部分大语言模型中的偏见(如让大模型扮演特定群体角色)。早期研究表明,从人工智能工具中消除偏见可能比从人类群体中消除偏见更容易,但前提是研究者能识别偏见。然而,在主流模型(如GPT-4)训练过程不透明的情况下并非易事。
对于社会科学家来说,一个关键问题是生成式人工智能的偏见对于研究目的是“缺陷”还是“特征”。若能控制偏见,可用于研究其对态度行为的影响(如模拟歧视性招聘场景)。生成式人工智能也可应用在“逆向工程”某些类型的偏见。例如,对针对广泛提示产生的代词进行实验,有可能识别新型的性别歧视。
另一方面,
生成式人工智能工具无法准确代表边缘化群体的人可能会阻碍社会科学研究。
那些希望大语言模型可以帮助研究人员评估他们在更多样化人群中的干预措施影响的人可能会对这种模仿的质量感到失望,因为训练数据不足。
(二)产生垃圾科学
生成式人工智能被恶意利用的风险引发双重担忧:短期内,大语言模型因擅长大规模模仿人类,可能被用于批量传播错误信息;长期来看,人工智能生成的偏见性/错误内容若充斥互联网,可能导致未来模型基于缺陷数据自我训练。
学术研究领域也面临类似隐患,依赖生成式人工智能进行文献综述、生成研究问题或处理海量文本时,可能产出低质量“垃圾科学”,导致期刊和资助机构被无效研究淹没。目前计算机科学家已尝试通过“数字水印”标记人工智能生成内容(如图像模型中已应用),但在大语言模型中实施难度较大。有人建议为大语言模型设定“词汇口音”(如强制使用特定词表),但大规模推行需所有模型开发方协调共识。
(三)伦理争议
使用生成式人工智能进行研究是否符合伦理?这是社会科学家面临的紧迫问题
。生成式人工智能工具存在偏见且可能产生幻觉信息,若人类研究参与者在无监督情况下与之对话,这些信息可能被传播。
例如,用大语言模型模拟人际互动时,其输出的偏见内容可能误导参与者。
另一个重要问题是,研究人员在让研究参与者接触生成式人工智能之前是否必须始终获得知情同意。对于任何研究,如果受访者可能接触到由大语言模型生成的错误信息或辱骂性语言,这种做法似乎至关重要。然而,在研究中披露生成式人工智能的作用也会降低其模拟人类行为的科学效用,因参与者反应可能受“对人工智能的态度”影响。
使用人工智能处理敏感数据也引发了关于隐私和保密的新担忧。
数据可能被私人公司存储或出售,且这类企业不受学术机构的受试者保护标准约束。此外,生成式人工智能的环境成本亦需关注。2019年研究显示,训练单个大语言模型的碳排放相当于五辆汽车整个寿命周期内的排放总量,尽管技术进步提升了训练效率,但模型规模增长仍加剧环境负担。然而,也必须权衡训练模型的成本与它们所创造的效率。例如,一项研究表明,人工智能在写作和绘图方面的碳排放量比人类低。
四、为社会科学研究创建开源基础设施
生成式人工智能在社会科学研究中的应用面临风险与机遇的平衡挑战。当前,
专有模型(如GPT-4)的训练细节和微调过程高度保密,OpenAI甚至未披露其基本参数。
这
种不透明性使研究者难以评估模型偏见,且依赖的企业工具可能将研究与商业利益绑定
——例如Meta虽曾开放Llama模型文档,但近期停止共享训练数据集,且可能随时限制访问或收费,重现社交媒体公司数据共享模式收紧的历史轨迹。
社会科学家开发自己的开源生成式人工智能模型或可成为破局关键,可以更好地控制大模型何时以及如何产生偏见。
社会科学家还可以共同努力为生成式人工智能工具创建训练数据,增强对大模型行为的控制力,同时保护研究提示词隐私,避免数据被转售或用于商业模型迭代。
开源模型还经常创建和维持一个有共同关切的人群社区。
社会科学家不必猜测专有模型何时以及如何表现出偏见,也不必无休止地测试不同的提示以实现研究目标,而是可以共同努力确定生成式人工智能工具在社会科学研究中的局限性。关于生成式人工智能的透明公开讨论也可以帮助研究人员评估上述一些其他风险,如错误信息的传播。社会科学家还可以设计开源生成式人工智能工具,通过运行旨在测试某些训练和微调过程是否使学者能够更容易地重现彼此工作的实验,最大限度地提高研究可复制的机会。
但开源化也伴随新风险:恶意行为者可能利用公开权重构建传播错误信息的模型,或获取危险领域知识。
不过学界认为,此类风险与互联网既有信息相比可控,且可通过建立跨学科委员会进行治理——该机构可负责审核模型发布范围、平衡环境成本(如训练大型模型的碳排放),并构建访问控制基础设施(如API与云服务)。若能实现,开源组织不仅能降低学术资源不平等,还可将开放科学伦理嵌入人工智能研究。这一努力需要跨领域协作与持续投入,但对社会科学摆脱专有技术束缚、建立兼具创新与伦理的研究范式至关重要。
(本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者)
参考来源:参考编辑
参考题目:Can Generative AI improve social science
参考链接:
https://www.pnas.org/doi/10.1073/pnas.2314021121#supplementary-materials
相关阅读
1.人工智能重塑社会科学:大语言模型的应用、挑战与前瞻
2.AI科学家做研究:他们的观点会一致吗?
免责声明:
文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源于网络,如有侵权请联系删除。
编辑 |
一点
审校 |
桑妮
END
关于我们
洞察真知、提出卓见。聚焦科技领域事关长远全局和未来发展的战略性问题,开展跨学科跨领域的系统性研究,孕育一批客观公正、有深度的高质量成果和能够经得起历史与实践检验的独立见解。
点击名片 关注我们
点亮
“赞”
和
“在看”
,
“分享”
好友一起看
