大语言模型在心理学领域的应用
2025-09-23 14:15:27 0 举报
AI智能生成
相关文献的知识框架总结
作者其他创作
大纲/内容
大语言模型概要
历史
选型
Llama、GPT<br>
Claude
心理学工具
文献综述
尽管LLM在组织定性数据和识别概念模式方面表现出色,但在提取元分析所需的精确数值数据方面面临挑战
假设生成
尽管LLM有能力成为“假设机器”,但它们的逻辑和数学推导能力仍需改进,以消除事实错误,快速测试假设,并从错误中学习
实验设计
创建实验刺激、开发测试项目,甚至在受控环境中模拟交互会话
实验对象
认识到某些问题仍然存在(例如,偏见和训练不足的数据),但一些研究人员建议使用LLMs作为人类参与者的替代品以节省时间和成本,并且可以应用于不适合人类参与的实验
数据分析
机器学习算法有助于处理大型数据集,识别可能被忽视的模式和相关性。然而,LLM将这种能力提升到了一个新的水平;它们可以高效地分析前所未有的大量文本数据,以获得对人类行为和情绪的洞察力
学术讨论
能够处理大量文本数据,并自动化手动完成的任务。它们可以用于扫描学术论文并提取重要细节,生成客观和无偏见的摘要,并在社会心理学中创建研究问题
机遇与挑战
机遇
具体内容
认知与行为心理学
深入研究人机交互(HCI),了解人工智能模仿人类行为的能力。探索人工智能语言建模如何应用于人文科学,以提高研究效率和质量
关注认知科学研究中采用替代人类叙事的成本,例如掩盖其背后的人类劳动及其对人类福祉的影响。关注技术发展对科学工作和人类理解的影响,以确保认知科学家在技术进步中保持积极主动。
探索如何使llm在面对描述性任务时更加稳定和健壮。调查LLM是否能学会有目的地探索,以及如何更好地利用任务中的因果知识。分析LLM在不同任务和环境中的表现,看看他们是否能像人类一样适应。探索LLM如何在与人类的自然互动中发展和完善他们的认知能力。<br>
通过优化训练数据、模型架构和优化目标,提高LLM的推理能力,鼓励推理。制定更合适的评价方法和基准来衡量llm的推理能力,以更好地反映模型的真实推理能力。调查LLM在不同应用中的潜力(例如,解决问题,决策和计划任务)。探索其他形式的推理(例如,归纳和回顾性推理)。<br>
临床与咨询心理学
为精神疾病患者开发更多的聊天机器人,尤其是精神分裂症、强迫症和双相情感障碍等疾病患者。在发展中国家实施更多聊天机器人,以解决精神卫生专业人员短缺的问题。进行更多的随机对照试验,以评估聊天机器人在心理健康方面的有效性。
开发新的治疗技术和循证实践(ebp)。首先关注循证实践:为了在短期内创造有意义的临床影响,基于现有循证心理疗法和技术的临床LLM应用将有最大的成功机会。参与跨学科合作。专注于治疗师和患者的信任和可用性。设计有效临床LLM的标准。<br>
开发高质量的基础数据集:这些数据集需要包含感兴趣的人群和心理结构,并与心理上重要的结果(例如,实际行为、正念、健康和心理福祉)相关联。关注消费者神经科学和临床神经科学的未来研究方向:这些领域的研究可能涉及营销相关行为的神经系统、决策神经科学、神经经济学等。
教育与发展心理学
发展心理学:研究LLM如何在一生中发展认知、社交和情感,以及这些模型如何针对特定任务和情况进行优化。学习心理学:研究LLM如何获得和保留知识和技能,以及如何优化这些模型以提高学习<br>
社会与文化心理学
探索更多互动性和经验性的培训方法,帮助LLM获得真正的社会智力和理论心智能力。研究将静态文本与丰富的社会智能和交互数据相结合的方法,以提高LLM的社会智能。调查LLM在更自然的环境中的理论心理能力,揭示他们在现实世界中的表现。<br>
研究GPT-3模型的算法保真度,以及适当的条件作用如何使模型准确地模拟各种人类亚群的反应分布。通过对美国多个大型调查中真实人类参与者的社会人口背景进行调节,创建了“计算机样本”。
开发更先进的模型:更准确地捕捉对话的情感语境,提高情感理解和表达。测量机器人的情感能力:研究如何评估聊天机器人的情感能力,以便更好地了解它们在与人类互动时的行为。探索将GPT作为一种支持工具的使用:研究如何使用GPT来更同情地支持人们并改善人类福祉。
跨文化CSS研究:未来的研究应单独考虑LLM对跨文化CSS的效用,以便更好地服务于不同文化背景下的社会科学研究。未来的研究可以探索LLM的对比或因果解释。社会科学与人工智能合作的新范式。<br>
研究工具
投资真正开放的LLM:开发和实施开源人工智能技术,以提高透明度和民主控制。拥抱人工智能的优势:利用人工智能加速各个学术阶段的创新和突破,同时关注伦理和人类自治问题。扩大讨论:组织国际论坛,讨论:LLM在研究中的发展和负责任的使用,包括多样性和不平等问题。<br>
分析科学系统LLM的风险和机会。研究LLM如何影响学术质量保证机制、学术不端行为和科学诚信。探讨LLM对学术声誉、评估体系和知识传播的影响。研究如何平衡LLM的潜在利益与坚持科学原则。<br>
挑战
原因
尽管出现了LLM能力(Wei等人,2022年),但从认知和行为心理学的角度来看,其内部工作机制仍然是一个黑匣子
可能会出现隐私和伦理问题
在教育中应用时,LLM存在输出偏差和滥用的潜在风险
在社会和文化心理学领域,LLM表现出与人类相似的认知偏见和文化偏见,此外还隐含着更黑暗的人格模式
LLM在作为科学研究的辅助工具方面存在一些局限性
规避方式
透明地披露模型细节和方法以确保可重复性
通过文献或专家验证输出以解决不准确性和错误信息
使用多样化的训练数据以减少文化和性别偏见
在心理健康等敏感领域,限制使用以辅助而非替代判断,并培训用户批判性地解释输出
具体内容
认知与行为心理学
缺乏对现实世界的理解
缺乏元知识
因果推理和创造力
多步推理局限性
常识推理
模范行为挑战
心理语言学特征
临床与咨询心理学
技术限制和患者连接问题
教育与发展心理学
诚信及道德问题
偏见和过度依赖&多语言支持挑战
社会与文化心理学
法律责任及隐私问题
忽略全球多样性
文化和伦理矛盾
社会背景限制
偏见和误导性输出
训练数据偏差
危害的传播
对齐的挑战
LLM的误用<br>
研究工具
抄袭及版权事宜
透明的局限性
学术诚信问题
隐私和偏见风险
不当行为及限制
心理学中的应用场景
认知与行为心理学(短期)<br>
模拟认知
能力
感知判断
推理
决策
创造力
问题解决
结论
认知能力与模型大小成正比
应用于实验设计与实验分析
实际实验
实验1:<br>GPT-3在决策和强化学习方面表现出色,但在任务扰动、定向探索和因果关系方面表现不佳。<br>
实验2:人类目前表现优于人类创造力的GPT-3,但是GPT-3显示出缩小差距的潜力在未来。<br>
实验3:像GPT-4这样的llm与人类感知数据紧密结合,并反映跨语言感知变化,展示了它们从语言中提取感知信息的能力。<br>
实验4:研究结果表明,GPT-4总体上符合人类标准,而claude2和Llama2表现出多变且往往有限的能力,尤其是在规划和心智理论方面,这突显了模仿复杂的人类认知功能的挑战。<br>
实验5:GPT-4在认知心理学任务上表现出较高的准确性,超越了先前的模型。并展示了连接人类和机器推理的巨大潜力。<br>
实验6:GPT-4展示了先进的欺骗行为,在99.16%的简单场景和71.46%的复杂场景中<br>
实验7:微调LLaMA优于传统的认知模型,准确地模拟个人行为,并预测未见过的人类反应。<br>
实验8:通过使用dall - e2,研究表明,生成式人工智能工具可以增强实验刺激的设计过程,提供更大的可控性、多样性和可扩展性,从而有效地影响参与者的态度。<br>
临床与咨询心理学(中长期)<br>
大语言模型在临床中的作用
识别更具体的改变因素,帮助心理学家理解临床干预的过程
有效地识别情绪并做出适当的反应
进行复杂的心理健康评估
心理评估
目的:评估心理健康状态的生态效度、可扩展性、准确性<br>
例子:在治疗精神分裂症的案例中,GPT-3.5的评估结果与专业基准一致,尽管它表现出过于悲观的预测<br>
心理干预
目的:进行可扩展和个性化的心理健康支持<br>
例子:GPT-4 可以通过分析叙事身份生成个性化的治疗策略<br>
对未来趋势的展望
实际实验
实验1:研究发现,与心理健康专家相比,ChatGPT一直低估了自杀风险和心理弹性,这表明依赖ChatGPT进行自杀风险评估可能会导致不准确的低评估
实验2:GPT-4、Bard和Claude对治疗病例的看法与专业人士一致,而GPT-3.5则过于悲观。
实验3:ChatGPT在管理和诊断方面表现出色,61%的病例获得高分,在复杂病例中无重大错误,差异较小。
实验4:ChatGPT的社交智力超过了所有心理学家,Bing的表现超过了大多数学士和一些博士,而Bard与学士学生持平,但落后于博士。
实验5:GPT-4有效地制定了个性化的策略,展示了其作为治疗和指导的支持工具的潜力。
实验6:96%的参与者认为叙述是准确的,73%的人报告获得了新的自我洞察,这表明GPT-4在治疗环境中有增强自我发现的潜力。
实验7:HAILEY提高了总体同理心19.6%,对那些难以获得支持的人提高了38.9%,在不产生依赖的情况下提高了自我效能感。
实验8:ChatCounselor的性能优于LLaMA和ChatGLM,并接近GPT-4的性能,突出了特定领域培训对咨询能力的影响。
教育与发展心理学(中长期)<br>
发展研究
教育、学习应用
提供个性化学习
提高学习动机
实际实验<br>
实验1:GPT-4的准确率达到75%,与6岁儿童相当,而较老的模型表现明显较差。<br>
实验2:GPT-4在理解和管理情绪方面表现出色,但表现出有限的反思分析,类似于人类情感推理的早期发展阶段。<br>
实验3:GPT-3的部分成功表明,虽然语言暴露有助于信念推理,但人类特有的其他发展机制对心智理论的全面发展至关重要。<br>
实验4:ChatGPT通过激励反馈支持学习,但经常提供肤浅的、不一致的和矛盾的响应,冒着高估知识的风险。<br>
实验5:用户的动机和能力推动了LLM的采用,但教师的犹豫和技术挑战等限制阻碍了更广泛的集成。<br>
实验6:GPT-4有效地制作了高质量,引人入胜的练习,为编程教育提供个性化和可扩展的实践材料。<br>
实验7:GPT与中小企业评级有很强的一致性(r= 0.73-0.80),表明它有可能与中小企业的心理素养水平相匹配。<br>
实验8:CGRBP(基于chatgpt的关系建立协议)显著提高第二语言砂砾,显示其培养情感支持和学习动机的潜力。<br>
实验9:ChatGPT的回答与专家的评估密切相关,这表明它有潜力成为心理学的教育工具,尽管它的使用应该谨慎对待。<br>
实验10:主动使用人工智能导师可以将成绩提高15个百分点,人工智能预测和考试结果之间有很强的一致性。<br>
社会与文化心理学(短期~长期)<br>
主要领域
文化与认知理解
社群动态模拟
实际应用
原因
在社会认知方面与人类有许多相似之处
文化心理学研究已经确定了东方人和西方人在处理信息和做出判断时认知过程的显著差异,在这方面,LLM 一直倾向于整体性的东方思维方式
LLM 已经被证明可以描述人类群体在社会互动环境中的特征
实际实验
实验1:llm与WEIRD(西方的,受过教育的,工业化的,富有的,民主的)认知模式密切相关,但在非WEIRD人群中准确性下降(r= -0.70),表明存在WEIRD偏差。<br>
实验2:GPT在认知任务上倾向于东方整体思维,但在价值判断上没有文化偏见,这可能是受其训练数据和方法的影响。<br>
实验3:GPT在91.7%的病例中准确地识别了情绪,在70.7%的病例中表现出相似的情绪,在同理心测试中得分低于普通人,但高于阿斯伯格综合症患者。<br>
实验4:GPT-4接近人类的情商水平,优于Bard和GPT-3.5,后者显示出述情倾向。<br>
实验5:GPT-4在情商方面的得分高于89%的人类,LLM表现出高于平均水平的情商,但使用了受模型设计影响的非人类机制。<br>
实验6:llm表现出更高的黑暗特征,但通过有针对性的微调,他们表现出更好的幸福感和心理安全感。<br>
实验7:GPT-3表现出与人类样本相似的人格特征和价值观,为LLM的心理评估提供了初步证据。<br>
实验8:GPT-4表现出明显的情绪反应模式,超过GPT-3.5,表明高级调节,但没有真实情绪。<br>
实验9:LLM重复了大多数研究结果,但显示出“超高准确性失真”,这引起了人们对教育和艺术应用的担忧。<br>
实验10:与旧模型和人类相比,新llm (GPT-4)对数学和STEM的负面偏见减少,语义关联更丰富,表明在减少刻板印象方面取得了进展。<br>
实验11:GPT-4在llm中显示出最好的人类一致性,但夸大了效果,减少了方差,突出了限制它们在心理学研究中作为人类参与者替代品的适用性的偏见。<br>
实验12:ChatGPT提高了生产力(任务完成速度提高了40%,质量提高了18%)。<br>
实验13:ChatGPT支持渐进式创新,但对激进创新的效果较差。<br>
实验14:PALR(个性化的LLM推荐)增强了对工作绩效的预测,并改善了角色匹配。<br>
实验15:基于gan的系统预测了更好的工作匹配度,并减少了招聘效率低下的情况。<br>
实验16:llm在自我利益驱动的游戏中表现良好,但在协调方面表现不佳,GPT-4在囚徒困境中表现出不可原谅的行为,难以采用简单的协调策略。<br>
实验17:GPT在所有研究中都显示出与人类启发式一致的偏见,表明语言模式本身可能会导致这些影响,独立于人类的认知和情感过程。<br>
实验18:Social simulacra(基于设计输入(目标、规则、角色)生成现实社区交互的llm驱动模拟)准确地模拟了真实的社区行为,支持“如果”的场景探索,并帮助设计师在大规模部署之前改进系统设计。<br>
实验19:包括GPT-4在内的LLM的表现低于人类水平(在socialqa(社会意图和反应)上为55%,在ToMi(精神状态和现实)上为60%),这表明单靠缩放不能产生ToM(心理理论),突出了以人为中心的NLP方法的必要性。<br>
实验20:GPT-3表现出微妙的、人口统计学上一致的偏见,表明它作为研究人类行为和社会动态的工具的潜力。<br>
实验21:GPT-3.5重复了37.5%的研究结果,但在道德基础调查中表现出统一的反应(“正确答案”效应)和偏保守,质疑其作为人类参与者替代品的可靠性和多样性。<br>
收藏
收藏
0 条评论
下一页