心理测量1-10章（全）思维导图模板_ProcessOn思维导图、流程图

第一章  绪论

一、心理测量的历史

(一)国外心理测量发展的历史【5】

1．冯特的实验心理学

1979年德国，冯特(Wundt) ——“科学心理学之父”

2．高尔顿的遗传理论测量

英国生物学家高尔顿：第一个直接推动心理测量运动的学者

1884年，伦敦国际博览会上专设了一个“人类测量实验室”：第一个大量系统地测量个体差异的尝试

出版了《人类才能及其发展的研究》一书，书中首先提出了“测验”、“心理测量”这两个术

3．卡特尔的个体差异研究

美国心理学家卡特尔(Cattell)；1890年在《心理》杂志上发表了《心理测量与测量》一文，这是心理测量第一次出现于心理学文摘中

4．比纳和比纳西蒙智力量表的产生

比纳(Binet)被认为是心理测量的鼻祖，他是发明智力测验常模量表的第一人。

1905年，与西蒙(Simon)合作，编制了世界上第一个智力测验量表——比纳一西蒙量表(Binet-Simon Scale)

1908年比纳对量表做了修订，采用智力年龄的方法计算成绩，并建立了常模，这是心理测量史上的一个创新。1911年比纳对量表进行了第二次修订

5．心理测量的蓬勃发展与应用

心理测量学的发展里程碑

1．编制出了一批操作测验，eg.宾特纳所编的非文字量表。

2．编制出团体智力测验，扩大了测验的应用范围。

3．多重能力倾向测验逐渐受到重视。

4．传统的学校考试方法也取得了技术上的突破

桑代克(Thorndike)编制了第一个标准化的教育成就测验，由此被公认为教育测验的鼻祖。

5．心理测量的另一领域是对情感适应、人际关系、动机、兴趣和态度等人格特点的测量。

人格测验的先驱：克雷匹林(Kraepelin)，最早用自由联想测验来诊断精神病人。 最早的人格问卷：武得沃斯(Woodworth)，编制的“个性资料调查表”; 1921年问世的罗夏克(Rorschach)墨迹测验则是投射测验的发端

心理测量的发展趋势

1．先是以解剖生理特征为根据，而后转向对心智活动的测量。 2．由测量简单的感知能力，发展到测量复杂的认知能力。 3．由笼统的单一量数评定个体间差异，转变为以多个量数兼顾个别差异与个体间差异。 4．心理测量学是随着实验心理学的发展而产生的，二者在发展过程中由合到分，最后又走到一起来了。

产生：对智力落后儿童筛选和精神病人治疗；法国医生艾思克罗(Esquril)

(二)我国心理测量发展的历史

1．我国古代的心理测量

心理测量的雏形在我国古代民间早已流传盛行。eg.抓周、七巧板等

2．民主革命时期心理测量的发展

1918年，俞子夷曾仿编“小学生毛笔书法量表”，这是我国最早的心理测验之一。 1932年，《测验》杂志创刊，直到抗日战争前夕，我国的测验运动一直呈现发展的趋势。 这期间，在智力测验、人格测验、教育测验、临床测验、测验出版发行等方面，我国学者都做了很多重要工作

3．新中国时期心理测量的发展

1979年后，心理测量在我国才开始恢复地位。 先后修订《中国比纳量表》、《韦氏成人智力量表》、《韦氏儿童智力量表》、《明尼苏达多相人格问卷》、《艾森克人格问卷》、《卡特尔16种个性因素问卷》等。在航空、组织、体育等领域，开始采用心理测量作为人员选拔和安置的工具之一。

二、心理测量的性质

(一)测量的基本概念

1．测量的定义和要素

【测量】就是根据一定的法则，用数字对事物加以确定。

两个要素：参照点和单位

（参照点是计算事物的量的起点）

单位是测量的基本要求，没有单位无法进行测量。

参照点有两种

①绝对零点：零点的意义为“无”，表示什么都测不到（eg.测量轻重、长短时使用的零点）

②相对零点：人为确定的参照点（eg. 海拔高度，就是以海平面作为测量陆地高度的起点）

理想的参照点是绝对零点，但心理测量中很难找到绝对零点，多采用人为标定的相对零点

理想的单位需要具备两个条件：①有确定的意义；②有相等的价值（But，心理测量的单位还不够完善）

2．测量的量表【4】

制定量表的单位、参照点不同，量表的种类也不同；不同量表的精确度不一样（测量从低级到高级可分为4种水平）

①【命名量表/称名量表】：用数字来代表事物 or 把事物归类，没有任何数量的意义。（eg. 性别：1代表男 2代表女）

水平最低的一种测量量表

不能加减乘除

② 【顺序量表/等级量表】：不仅指明类别，还能指明不同类别的大小等级，或具有某种属性的程度。（eg. 第一名、第二名）

既无相等单位，又无绝对零点，数字仅表示等级。

不能加减乘除

③【等距量表】：不仅有大小关系，而且有相等的单位。（eg. 温度计、考试的分数）

数值可加减，不能做乘除运算（无绝对的零点）

④ 【比例量表/等比量表】既有相等单位又有绝对零点。

最高水平的量表，可加减乘除

但在心理测量中，由于难以找到有意义的零点，因此大多数采用等距量表。

(二)心理测量的基本概念

1．心理测量的定义

【心理测量】就是根据一定的法则用数字对人的行为加以确定。 即：根据一定的心理学理论，使用一定的操作程序，给人的行为确定出一种数量化的价值

心理测量，是以测验作为工具的测量； 而不是用实验、观察等方法对心理现象的测量

<strike>心理测量与测验的关系</strike> 【过程&工具】

① 测验是心理测量的一种工具和手段，是根据一定法则对人的行为用数字加以确定的方法。 ② 心理测量测的是人的行为，严格地说，是一个人对测量题目所进行的反应。 一个测量不可能包含所要测量的行为领域的所有可能的题目，它所包含的只是全部可能题目的一个样本。

标准化测量

在编制、施测、评分和解释方面要依据一套系统的程序。这种按照严格的科学程序去编制和使用的测验称之为【标准化测验】。

标准化有3点好处

①可以减少无关因素对测验目的的影响，使测量准确、客观； ②有统一标准，便于对不同人的测验成绩进行比较和交流； ③同一份测验可用于许多人并可反复使用，较为经济。

一般来说，心理测量是在次序量表上进行的。但通过统计方法，可以把测量数据转换为等距数据。

2．心理测量的性质

1．心理测量的间接性 研究者无法直接测量人的心理，只能测量人的外显行为 （即：只能通过一个人对测量题目的反应来推论他的心理特质）

2．心理测量的相对性 在对人的行为做比较时，没有绝对的标准，也就是没有绝对的零点，有的只是一个连续的行为序列。 （所谓测量就是看每个人处在这个序列的什么位置上。）

3．心理测量的客观性（即：测量的标准化问题） ① 测量用的题目或作业、施测说明、施测者的言语态度及施测时的物理环境等均经过了标准化。 ② 评分记分的原则和手续经过了标准化。 ③ 分数的转换和解释都经过了标准化。

三、心理测验的分类和作用

(一)心理测验的种类（简答/选择）【8】

心理测验是判定个体差异的工具。 个体差异包括很多方面，并可在不同的目的与不同的情景下研究，这就使测验具有了不同的类别和功用。

1．按测验的功能分类

能力测验：分为一般的智力水平测验及特殊能力测验。除此之外，还有一种能力倾向测验。

成就测验：主要用于测量个人或团体经过某种正式教育或训练之后对知识和技能掌握的程度。

（eg. 第一名、第二名）

人格测验：主要用于测量性格、气质、兴趣、态度等个性特点。

2．按测验的对象分类

个体测验：通常是一个主试与一个被试面对面进行。

团体测验：在同一时间内由一位主试对多数人施测。

（eg. 学校考试）

3．按测验材料分类

文字测验：所用测验材料是文字，受测者用文字作答。

非文字测验：也称操作性测验，测验的材料多是图片、实物、工具、模型。受测者用手操作。

4．按测验的目的分类

描述性测验：测验目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。

诊断性测验：目的在于对个人或团体的某种行为问题进行诊断。

预示性测验：目的在于从测验分数预示受测者将来的表现和所能达到的水平。

5．按测验的难度和时限分类

速度测验：题目数量多，并严格限制时间，主要测量反应速度。

难度测验：包含各种不同难度的题目，由易到难排列，测量被试解答难题的最高能力。

6．按测验的要求分类

最高行为测验：要求被试尽可能做出最好的回答。

（eg.学校考试）

典型行为测验：要求被试按通常的习惯方式做出反应。

（eg.人格测试）

7．按测验的性质分类

结构性测验：在测验中，所呈现的刺激和受测者的任务是明确的。

投射性测验：在测验中，刺激没有明确意义，问题模糊，对被试的反应也没有明确规定。

8．按测验的应用领域分类

教育测验：是测验应用最广的领域，用得最多的是学绩测验。

职业测验：主要用于人员选拔和安置，可以是能力和学绩测验，也可以用人格测验。

临床测验：主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病，为临床诊断和心理咨询工作服务。

(二)心理测验的功能（简答）

基本功能：测量个体间的差异或同一个体在不同场合下的反应

1．在实际工作中的应用【4+1】

① 选材：通过合适的心理测验可以预测人们从事各种活动的适宜性，可以提高人才选拔和职业训练的效率。

② 安置：通过心理测验可以对已经入学的学生因材施教，可对部队的战士按特长分配兵种，对工厂中的工人按能力分配工作，以做到人尽其才。

③ 诊断：可以在临床上诊断各种智能缺陷、精神疾病等，也可诊断学生的学习障碍。

④ 评价：可以评价人们在学习和能力上的差异、人格的特点以及相对的长处和弱点，评价儿童已达到的阶段等。

④ 咨询（心理学研究方法中的答案）

2．在理论研究中的应用【3】

① 搜集资料：心理测验是收集有关个体差异的资料的一个简便易行而又较为可靠的方法。

② 建立和检验假说：心理学中的许多理论是在测验资料的基础上提出来的，并且用测验来检验。

③ 实验分组：在心理学研究中，常用测验来对被试进行实验分组，以达到等组化的要求。

第二章  心理测验的编制

一、编制测验的一般程序（简答/论述）【8】

(一)确定测验的目的

1．测量对象

需考虑接受测验的团体的组成和特点；（eg. 年龄、智力水平、受教育程度等因素）

2．测量目标

【测量目标】指所编测验是用来测量什么心理变量或行为特征的。 测验目标必须具有操作定义，即目标要非常具体；（eg. 测量语文理解能力的目标可定为测量阅读时了解文义的能力）

3．测量目的

即：测验做什么用。 测验的编制程序由于目的不同而有许多变化，且在编题时题目的范围和难度都有差异

【显示性测验】当测验的题目和希望测量的行为相似，该测验就是~ 【预测性测验】当测验是用来预测一些没有受到测量的行为时，该测验就是~

(二)制定编题计划

编题计划通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容、技能的相对重视程度

不同的测验有不同的内容和技能

（eg. 学绩测验） 所谓内容，就是某一学科教材中的各个课题； 所谓技能，就是在教学中要达到的行为目标

测验计划有两个用途

1．在编题阶段，测验计划指出应该写多少和写哪些种类的题目。编好后，可对照、可核对。 2．在记分时可按表中百分比确定每类题目的分数。

(三)编写题目

1．收集有关资料

① 尽量将资料收集齐全……能提高行为样本的代表性

eg. 在编制人格测验时，收集的材料应该包括： 人格的主要理论，用于描述人格的术语，临床观察的资料，以及其他人格调查表的题目等

② 材料要有普遍性，对测验对象要尽可能公平，即受测者都有相等的学习机会。

eg. 在编制智力测验时，要尽量避免特殊知识经验和文化水平的影响。

2．选择项目形式

纸笔测验&操作测验；找出正确答案or自己做出正确答案

常见的测验题目类型有：论文题（主观题）；选择题、填空题、是非题、匹配题（客观题）

选择题目形式时，要考虑以下几点：① 测验的目的和材料的性质 ②接受测验团体的特点 ③实际因素

3．编写具体题目

制定测题的过程包括写出、编辑、预试和修改等一系列过程。

编写题目要注意以下几个问题： 1．题目的范围要与测验计划所列的内容技能双维表相一致。 2．题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复本。 3．题目的难度必须符合测验目的的需要。 4．题目的说明必须清楚明白。

(四)项目的预测验和分析

1．预测验

注意事项：①预测验的对象……②实施过程……③时限……④记录反应

2．项目分析

对项目的分析

质的分析：从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以评鉴

量的分析：对预测结果进行统计分析，确定题目的难度、区分度、备选答案的合适度等

复核

被试样本可能会有取样误差，只依据一次预测验的结果所作的项目分析是不够的， 通常需要选取同一总体的另一样本再测一次，看两次分析结果是否一致。 如果某个题目前后差距较大，说明该题的性能值得怀疑

在两个独立样本中进行项目分析的过程叫做【复核】

(五)合成测验

1．项目的选择（区分度、难度、题目的数量）

①题目的区分度越高越好 ②另一个指标是难度，要根据测验目的来确定，并与测验计划(双向细目表)再次对照 ③题目的数量还必须考虑测验所限定的时间

2．项目的编排

对项目的总的编排原则：由易到难

3．编制复本（等值）

为增加实际的效用，一种测验至少要有等值的两份，份数越多，使用起来越便利；测验的各份复本必须等值

复本等值的条件

1．各份测验测量的是同一种心理特性。 2．各份测验具有相同的内容和形式。 3．各份测验的题目不应有重复的地方。 4．各份测验题目数量相等，并且有大体相同的难度和区分度。 5．各份测验的分数分布(平均数和标准差)大致相等。

(六)将测验标准化

1．内容标准化

标准化的首要条件，是对所有受测者施测相同的或等值的题目。

2．施测标准化

为了使测验条件相同，必须有统一的指导语和时间限制

3．评分标准化

标准化的第三个要素是客观评分。 客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。 只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。

为使评分尽可能客观，有三点要求： 1．及时并清楚地记录反应。 2．要有一张标准答案或正确反应的表格，即计分键。 3．将受测者的反应和计分键比较，对反应进行分类。

4．常模/内容解释的标准化

<strike>一个标准化测验，不但内容、施测和评分要标准化，对分数的解释也必须标准化。</strike> 传统心理测验把个人所得的分数与代表一般人同类行为的分数相比较，以判别其所得分数的高低。 此处所指的“代表一般人同类行为的分数”，即为【“常模”(norms)】。

建立常模的方法

在将来要使用测验的全体对象中，选择有代表性的一部分人(称：标准化样本)； 对此样本施测并将所得的分数加以统计整理，得出一个具有代表性的分数分布。标准化样本的平均数，即为【该测验的常模】。

常模可因标准化时选取样本的不同而有不同的类别。

常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。

(七)对测验的鉴定

1．信度

【信度(reliability)指的是测量的可靠性或一致性】。 一个测验在标准化的时候，必须确定它的信度。 确定信度多采用相关法，以相关系数的大小表示信度的高低。

2．效度

【效度(validity)指的是测量的有效性或正确性】，这是对测量工具的最基本的要求。 衡量一个测量工具有没有效，就是看它所测量的是不是它所要测的东西。

(八)编写测验说明书

在正式测验编写完成后，还要编制一份说明书，就下列问题作出详尽而明确的说明： 1．本测验的目的和功用。 2．编制测验的理论背景以及选择题目的根据。 3．测验的实施方法、时限及注意事项。 4．测验的标准答案和评分方法。 5．常模资料，包括常模表、常模适用的团体及对分数如何做解释。 6．测验的信度效度资料，包括信度系数、效度系数及这些数据是在什么情境下得到的。

二、测验题目的编制技术

(一)命题的一般原则（论述）【10】

1．试题要符合测验的目的。 2．内容取样要有代表性。 3．题目格式不要使被试发生误解。 4．文句要简明扼要，既排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。 5．应有不致引起争论的确定答案(创造力测验、人格测验除外)。 6．各个试题必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。 7．题目中不可含有暗示本题或其他题正确答案的线索。 8．题目内容不要超出受测团体的知识和能力。 9．所提问题应避免涉及社会禁忌与个人隐私。 10．施测与评分省时。

(二)测题的种类及编制

自由应答型题目是让受测者用自己的语言或行动来对某一问题做出回答，包括填充题、简答题、应用题、论文题、联想题、操作题等。

固定应答型题目/客观性题目，是让受测者从测验编制者事先定好的答案中辨认出正确答案，包括多选题、是非题、匹配题等

第三章  测验的实施和计分

一、测验的实施

测验实施标准化

最基本要求：所有的被测者都在相同的条件下去表现自己的真正行为

应该考虑的问题

①使用预先规定的施测指导语， ②标准的时间限制， ③合适的施测环境和条件； ④在实施过程中控制好可能影响测试结果的任何其他因素：回答被试问题的方式，陈述指导语的语调、声调、速度甚至面部表情等，

(一)测验实施的一般程序（简答）【4】

1．标准化指导语

【指导语标准化】即在测验实施过程中应该使用统一的指导语。

指导语通常有两种

对被试的

应该力求清晰和简单，向被试说明他应该做什么，即如何对题目做出反应

对被试的指导语一般包括： ①如何选择反应形式(打钩、口答、书写等)； ②如何记录这些反应(答卷纸、录音、录像等)； ③时间限制； ④如果不能确定正确反应时该如何去做以及计分的方法； ⑤例题； ⑥有时告知被试测验目的。

给主试的

通常单独印在另一张纸上。

主要包括： ① 对测验细节的进一步解释及其他注意事项（eg. 测验房间的安排、测验材料的分发、计时计分方法、对被试可能提出的问题的回答方法；) ② 测验中途发生意外情况时的处理方法等。

2．标准时限

考虑因素：施测条件(eg. 课堂时间)、被试特点((eg. 老人、儿童、病人)、测量目标的要求

一般要通过预测验来确定正式测验的时限。

3．测验的环境条件

良好的物理环境：安静而宽敞的地点，适当的光线和通风条件。

在测验期间还要防止干扰

4．计算机辅助的测验实施

指导语可以通过视觉呈现或录音说明，测验的反应可以自动记录下来。

(二)主试的职责

1．施测前的准备工作

2．施测中主试的职责

3．施测后主试的职责

主试应该回收和整理好测验材料，并做好相应的保密工作

二、测验的计分和分数的合成

测验标准化的另一个要求：客观计分

客观性是指两个或两个以上受过训练的合格评分者之间所评结果有一致性。

受过训练的评分者每两人之间的平均一致性达到90%以上，可以认为计分是客观的。 （只有当计分客观时，才能把分数的差异完全归因于被试的差异）

(一)计分的一般程序

1．计分的基本步骤和要求

1．及时和清楚地记录被试的反应。 2．制作计分键，即标准答案。 3．将反应和计分键相比较，给反应归类或赋予分数值。

2．论文题计分

3．客观题计分

在客观题中，猜测会提高被试的分数； 常用的猜测修正公式为：S=R-W／(n-1)，S是正确分数，R为被试答对的题目数，W为被试答错的题目数，n为选项数目

(二)测验分数的合成

1．题目的组合

每个测验都包含许多独立的题目……

2．分测验或量表的组合

有些测验是由几个分测验或量表组成的……

3．测验的组合

在做实际决定时，常常将几个测验同时使用

组合方法可以是统计的，也可以是推理的或直觉的

采用哪种组合方法取决于使用测验的目的

预测：用测验分数来预测某种效标行为

选人问题：从申请人中挑选出最佳者

安置问题：将每个人分派至最适当的位置或类别。

描述：用测验分数对人的某种行为做出一般性的描述

三、测验的误差

(一)误差的定义和种类【2】

【误差】是在测量中与目的无关的变异所引起的不准确或不一致的现象。即：误差是由与测量目的无关的变异引起的，而且是不准确或不一致的测量结果。

【随机误差】

由与测量目的无关的偶然因素引起而又不易控制的误差，它使多次测量产生了不一致的结果

这种误差的方向和大小的变化完全是随机的，无规律可循。

既影响准确性又影响一致性——与效度、信度都有关

【系统误差】

由与测量目的无关的变异引起的一种恒定而有规律的效应，稳定地存在于每一个测量中，此时测值虽然一致，但不正确。

只影响测值的准确性——只与效度有关

eg. 八两的秤

(二)误差的来源 （简答）

1．测验内部引起的误差【1+4】

主要来源于：题目取样

当题目较少或取样缺乏代表性时，被试的反应受机遇影响较大；

当测验复本不等值时，回答不同的题目，就会获得不同的分数。

其他因素：题目用词模棱两可，对反应步骤说得不清，题目过难引起猜测，时限短使被试仓促作答

2．由施测过程引起的误差 （最容易控制和检验）【4】

1．物理环境：施测现场的温度、光线、声音、桌面好坏、空间阔窄等皆具有影响。

2．主试方面：主试的年龄、性别、外表，施测时的言谈举止、表情动作等均能影响测验结果。

3．意外干扰：当测验环境复杂，特别是当被试人数较多时，容易发生出乎意料的干扰或分心事件。

4．评分计分：评分不客观以及计算登记分数出错等也是常见的误差。

3．由受测者本身引起的误差 （最难控制的）【6】

1．测验的经验

测验的经验会影响被试的成绩：对测验的程序和技能熟悉程度不同，得分不同，不能比较

测验的技巧会影响被试的成绩：熟悉测验程序及题目形式，他的成绩就可能更好。

2．练习因素

任何一个测验在第二次应用时，都会有练习效应而使成绩提高。

3．应试动机

被试参加测验的动机不同，会影响到他回答问题的态度、注意力、持久性以及反应速度等。

如果被试动机的影响在测量中以一种恒定的方式发挥作用，则会导致系统误差，使测量的有效性降低。 如果被试的动机引起偶然的不稳定的反应，则是随机误差，测量的有效性、可信性也会降低。

4．测验焦虑

【测验焦虑】是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。

焦虑的产生：认知因素&生理因素

对测验的焦虑会影响被试的成绩。

适度的焦虑：会使人的兴奋性提高，注意力增强，反应速度加快，从而对智力和学术性能力倾向有积极作用； 过度的焦虑：会使工作能力降低，注意力分散，思维变得狭窄、刻板； 毫无焦虑：往往源于对测验的动机不强，因而成绩大多偏低。

5．反应定势

【反应定势/反应方式/反应风格】是指独立于测验内容的反应倾向， 即由于每个人回答问题习惯的不同（求快/求准），而使得有相同能力的被试获得不同的分数。

定势的产生：生理因素&心理因素

心理因素的影响：由于态度、价值观和人格的不同

不同的反应定势对测验会产生影响

求“快”&求“精确”、偏好正面叙述、偏好特殊位置、偏好较长选项、猜测

6．生理因素

生病、疲劳、失眠等生理因素也会影响测验成绩而带来误差。

能影响测验分数的变异还有许多，任何与测量目的无关的变异都可能引起误差，以上只是几种主要的，这些变异既能引起随机误差，也能产生系统误差。

第四章  测验结果的解释

基本概念

测验施测以后，将受测者的反应与答案作比较即可得到每个人在测验上的分数，这种直接从测验上得到的分数叫【原始分数】

原始分数本身没有太大的意义，eg.学生考80分，并不能由此判断这个学生的成绩是好或坏。

为了使原始分数有意义，并可以相互比较，必须把它们转换成具有一定的参照点和单位的测验量表上的数值。 通过统计方法由原始分数转化到量表上的分数叫做【导出分数】，即：标准分数

有了导出分数，才能对测验结果作出有意义的解释。

根据解释分数时的参照标准不同，可以将导出分数分为三大类：常模参照分数、内容参照分数、结果参照分数。

一、参照常模的分数解释

参照常模解释分数通常是将被试的分数直接或间接地以在某个团体中的相对等级或相对位置来表示。 这个用来比较的参照团体，称为【常模团体】。常模团体的分数分布，就是【常模】。

(一)常模团体的组成

1．常模团体的性质

【常模团体】是由具有某种共同特征的人所组成的一组群体，或是该群体的一个样本

它用一组标准的、规范的分数表示出来，以提供比较的基础。

任何一个测验都有许多可能的常模团体。

2．常模团体的条件【5】 （明确代表大时结）

1．群体必须明确

选定多少常模团体，依赖于对测验将要施测的群体的认识

指导测验使用者时，也同样必须有对每个常模团体的性质与特征的简短而明确的叙述

2．必须是所测群体的代表性样本

在搜集常模资料时，一般采用随机取样（或/和）分层取样的方法

3．样本大小要适当

从经济的或实用的可能性和减少误差这两方面来综合考虑样本大小的。

常模大小取决于：总体的数目、研究需要和群体性质，以及试测的结果。

4．注意常模的时间性

在选择合适常模时，要注意选择较为新近的常模（由于几年前所编制的常模必须定期修订）

5．注意一般常模与特殊常模的结合

测验手册上所列的常模通常是为典型团体建立的，比较一般化……可为为典型团体建立的特殊常模

特殊常模的特点：可将个人同与其背景相近的人比较

可将特殊常模与一般常模结合起来，从而获得最大量的信息。

(二)几种主要的常模参照分数

常模是解释分数的依据，参照常模来解释的导出分数，主要有以下几种

1．发展量表

智力年龄（绝对量数）

比纳西蒙量表中，题目分成各种年龄组，年龄水平确定是根据标准化样本中的每个题目通过的百分比来计算的（通过的比率60~90%）

儿童在测验上的分数将以他能正确完成的测题所代表的年龄水平来表示

一个人的智力年龄并不一定和他的实际年龄相符。

智力年龄的单位是年(或称岁)和12个等距单位月。

如5岁，分布为5～0到5～11，即：5岁零月到5岁11月。

年级当量

【年级当量】是把学生的测验成绩与各年级学生的平均成绩比较，看他相当于几年级的水平。（多用于教育成就测验中）

年级常模的单位通常为10个月间隔（假设两个月的假期在所测量目标上的发展是不重要的）。

5年级的分布是5～0到5～9，正好与学年的月份相同。

发展循序量表

人的早期行为发展具有一种固定的顺序性，根据这个事实，人们编制了一些婴幼儿发展测验，用来检查小儿身体和智能的发育情况。 其中最早的是盖塞尔发展程序表：按月份显示儿童在运动、适应性、语言、社会性四个主要方面的大致发展水平。

发展量表的优点

(1)以年龄或年级当量作为单位来报告分数，易于被人理解。 (2)可与同辈团体做直接比较。 (3)为个人内比较与纵向研究提供了基础。

发展量表的缺点

(1)只能用于年纪小的儿童，对成人不合适（适用于所测的特质随年龄或年级发生系统变化的情况） (2)只适用于在典型环境下成长的儿童。 (3)发展量表的单位在各年龄、各年级并不相等，无法做代数运算。 (4)获得同样的年龄或年级当量分数，并不一定具有相同的智力或学业水平。

2．商数

比率智商

在1916年斯坦福大学的推孟(Terman)修订的斯坦福一比纳量表中采用了智商的概念。 智力年龄表示心理发展的水平，它是一个绝对的量数，而智商则表示心理发展的速率，它是一个相对的量数。

【智商(IQ)】被定义为智力年龄(MA)与实际年龄(CA)之比。为避免小数，将商数乘以100： IQ=100(MA／CA) ；以这种方式得到的智商叫【比率智商】

比率智商存在的问题：

教育商数

【教育商数(EQ)】为教育年龄(EA)与实际年龄(CA)之比： EQ=100(EA／CA)

所谓教育年龄是指某岁儿童所取得的平均教育成就。

用来表明教育发展或成就的速率。

3．百分位

①百分等级

一个分数的【百分等级】可定义为在常模团体中低于该分数的人数的百分比。 百分等级指示个体在常模团体中的相对位置，百分等级越低，个体所处的地位越低。

② 百分位数

相对于某一百分等级的分数叫【百分位数】。

③ 十分位

将分数分布分成十段的分数点叫做【十分位】 十分位提供一个10级的等级量表，每一级包括10%的分数。

④ 百分位的评价

百分位量表的优点是：容易计算，容易解释，对于各种被试和各种测验普遍适用。 缺点是：缺少相等单位，属于顺序量表，不能做加、减、乘、除运算。

4．标准分数

【标准分数】是将原始分数与平均数的距离以标准差为单位表示出来的量表。 因为它的基本单位是标准差，所以叫标准分数。

① 线性转换的标准分数

原始分数→标准分数的公式

有正负之分

从原始分数(X)中减去一个恒定值(平均数)再除以一个恒定值(标准差S)得到的，所以这是一种线形转换

有时也把线性转换的标准分数简称作标准分数或Z分数。

② 常态化的标准分数

当原始分数不是常态时，为了使导出的量表分数呈常态分布，可先把原始分数转化为百分等级，然后从正态曲线面积表中便可得到对应的标准分数。 由这种方式所得到的分数就叫【常态化的标准分数】。

将分数常态化的前提：只有所测特质的分数实际上是常态分布，只是由于测验本身的缺陷或取样误差而使分布稍有偏斜时，才能计算常态化标准分数

③ 其他：

T分数

【T分数】以50为平均数，以10为标准差。T=10+10Z

标准九分

【标准九分】即：标准化九级分制以5为平均数，以2为标准差 [5+2Z] ，是一种比T分数粗糙的量表。

CEEB分数

美国大学生入学考试委员会使用的测验标准分数(CEEB分数)规定以500作为平均数、100为标准差而产生的一个分数分布。[ 500+100Z]

韦克勒斯测验分数

1949年，韦克斯勒在他所编的儿童智力量表中，放弃了智龄概念，用离差智商代替比率智商

【离差智商(IQ)】是将一个人的测验分数与同年龄组的人比较所得到的标准分数，已经没有了商数的意义

离差智商的优点：同样的智商分数在任何年龄水平上都代表同样的位置。 来自不同测验的离差智商分数，只有当它们具有相同或相近标准差时，才可进行比较，标准差不同，其分数的意义便不同。

(三)呈现常模资料的方法（3）

1．转化表

基本要素：原始分数表，与每个原始分数相对应的导出分数表、有关常模团体的描述。

2．剖析图

【剖析图】是把一套测验中的几个分测验分数用图表呈现出来。 从剖析图上可以一眼看出个人在各种测验上的整体表现，指出几个分数的相对位置。

3．常态百分位图表

【常态百分位图表】实际上也是一种剖析图，图上的分数以百分等级来表示，但分数轴的距离以标准分数作单位。即：在标准分数量表上又加了百分等级。

因为常态百分图把标准分数与百分位结合起来使用，具有二者的双重优点，是一种最好的呈现测验结果的方法。

二、参照标准的分数解释

测验

常模参照测验

一个人的分数是通过与其他人的分数进行比较来解释的， 并能表示成在某个比较团体内的相对等级

标准参照测验

一个人在测验上的成绩是和某种特定的标准比较

比较标准是对测验所包含的材料熟练或掌握的程度， 涉及的主要是测验内容，叫【内容参照分数】

比较标准是外在效标，即用预期的效标成绩来解释测验分数， 涉及的是后来的结果，叫【结果参照分数】

(一)内容参照分数

1．内容参照分数的定义

【内容参照/范围参照】是看被试对指定范围中的内容和技能掌握得如何。

两个主要步骤：①确定测验所包含的内容和(或)技能的范围，②编制一个能报告测验成绩的量表

2．几种主要的内容参照量表

1．掌握分数

代表最低熟练水平的分数叫掌握分数。（达到了这个分数，就说明他已经掌握了这种知识或技能，从而可以进入下一个水平的学习或训练。）

2．正确百分数

正确百分数=(答对题目数／总题目数)×100%；即：以被试对内容掌握的程度来报告分数

3．等级评定量表

当需要衡量一个人完成某种过程或生产出某种产品的能力时，可采用等级评定量表。 用等级评定量表可以报告一种活动的熟练水平或一种产品的质量。

3．内容参照分数的评价

① 主要优点：用个人所掌握的内容或技能的水平来描述行为，指示一个人知道什么和能做什么。

② 能够提供教学效果的反馈，适合于计算机辅助教学以及利用程序教材自我掌握进度的学习。

③ 主要用于学绩测验以及能确定出可接受的最低标准的资格测验。

④ 内容参照分数和常模参照分数只是看待一个人的行为的两种不同方式，两者并不互相排斥。

(二)结果参照测验

1．结果参照分数的定义

将效度资料与常模资料结合起来，用效标行为的水准来表示的分数叫【结果参照分数】

适合于用测验来作预测的情况

得到结果参照分数条件：①测验分数必须与一个重要的效标量数具有高度相关；②要有一个能把测验分数和效标成绩之间的关系结合起来的方法。

2．呈现结果参照分数的方法

期望结果的概率

这种方法是通过一种简单的图表，显示出获得特定测验分数的人得到每一种效标分数的百分比， 即：将测验成绩以产生各种不同结果的概率来描述。

(1)表格法： ① 搜集预测源分数和效标分数，并分别将它们加以分类； ② 确定预测源和效标分数每一种组合情况的次数； ③ 把每一种组合的次数转换为百分比，并作成表格。

(2)图示法： 当效标分数被二分为“成功”和“失败”时，还可以将获得每一种测验分数的人按成功或失败的百分比画成期望图。

预期的效标分数

即：将具有不同测验分数的人所可能获得的预期效标分数用图表显示出来

编制程序： (1)搜集一个样本中人们的测验分数和效标分数； (2)确定获得不同测验分数的每组人的平均效标分数； (3)编制一个表或图来呈现这些信息。

结果参照分数的评价

主要优点：使我们能用预期的效标行为的水平去解释分数（特别适用于预测的情况）。 不足：①当效标资料无法得到、效标资料没有意义或者研究者不感兴趣时，结果参照分数不适用。 ② 当只有一两个预测源时，使用结果参照分数清楚易懂，但有多个预测源时则较为复杂，难于呈现。

第五章  测验信度

一、信度的性质

(一)信度的定义

【信度】指测量的一致性或可靠性程度。 一个好的测量工具必须稳定，每次测量的结果要保持一致，否则便不可信。

信度只考虑随机误差影响；随机误差越大，信度越低

系统误差对测验的影响是恒定的

eg.被试样本、实施条件、动机水平、注意力等

研究信度需考虑两方面的问题

①是测验分数一致性的程度

a, 不同时间、不同测验条件下所得分数之间的一致性有多大 b,一个人的“获得分数”和“真实分数”之间接近程度如何 c, 测验的测量一致性是否可以达到实际应用的程度。

②是关于分数不一致的原因

什么因素造成了这种差异，这些效应的相对作用如何。

在测量理论中，信度被定义为：

一组测量分数的真变异数与总变异数(实得变异数)的比率。

r代表测量的信度，St代表真分数的变异数，Sx代表实得分数的变异数，即总变异数

该定义有两点要注意： ①信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性。 ②真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计

(二)信度系数

大部分的信度指标都以相关系数表示， 即：用同一被试样本所得的两组资料的相关作为测量一致性的指标，称作【信度系数】。

信度系数实际上是真正分数与实得分数之间的决定系数，可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。

对信度系数要注意三点：

①一个测验可能不止一个信度系数（不同情况下、不同样本、不同方法均会得到不同的信度系数） ②信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因； ③获得较高的信度系数并不是心理测量追求的最终目的，它只是迈向目标的一步，是使测验有效的一个必要条件。

(三)信度与测验分数的解释

1．解释个人分数的意义

2．两种测验分数的比较

二、信度的类型及估计方法【5】

(一)重测信度

用同一种测验，对同一组受试者，前后施测两次，再根据受试者两次测验分数计算其相关系数，即得【重测信度】。 这种信度能表示两次测验结果有无变动，反映测验分数的稳定程度，故又称稳定性系数。

重测信度代表测验成绩能够应用于不同时间的程度：信度越高，测验受环境中日常的随机因素的影响越小。

误差来源

① 时间的不同所带来的随机影响，如气候、偶然的噪音或其他干扰 ② 引起被试本身身心状态变化的因素，如疾病、疲劳、情绪类型、焦虑等。

评价

优点：能提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为表现的依据；

缺点：①易受练习和记忆的影响，前后两次施测间隔的长短必须适度； ② 第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异

相隔时间太短，则记忆犹新，练习的影响较大； 相隔时间太长，则身心的发展与学习经验的累积等都足以改变测验分数的意义，而使相关降低

计算重测信度有下列几个假设：

1．所测量的特性必须是稳定的。 2．遗忘与练习的效果相同。 3．在两次施测期间被试的学习效果没有差别。

由于测验的稳定性系数受时间和其他各种因素的影响，故任何一个测验都可有不止一个重测信度系数

报告重测信度时，应说明时间间隔以及在此间隔中被试的有关经历，如受过何种教育训练、心理治疗以及有何学习经历等

(二)复本信度

因为任何测验只是所有可能题目中的一份取样，所以可编制许多平行的等值测验，叫做【复本】。

例如：考试中的A卷B卷 在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验的其他所有方面都应该相同或相似。

如果一种测验有两个以上的复本，根据一群受试者接受两个复本测验的得分计算相关系数，即得【复本信度】。

在报告复本信度时，也应说明两次施测的间隔，以及在此间隔内被试的有关经历

(三)分半信度

在测验没有复本且只能实施一次的情况下，通常采用分半法估计信度。 即：将测验题目分成对等的两半(如：奇偶序分半），根据各人在这两半测验的分数，计算其相关系数，经过适当校正后，来作为信度的指标。

校正通常采用斯皮尔曼-布朗校正公式：

rhh是半个测验的信度系数，rXX是整个测验的信度系数。

测验的两半基本上相当于最短时距施测的两个平行测验。 由于只需要对一个测验进行一次施测，考察的是两半题目之间的一致性，所以这种信度系数有时也被称为内部一致性系数。

(四)同质性信度

1．同质性的含义

【同质性】指的是测验内部所有题目间的一致性。（分数的一致，而非题目内容或形式的一致）

若测验的各个题目得分有较高的正相关时：不论题目内容和形式如何，测验为同质的。 相反，即使所有题目看来都好像测同一特质，但相关为零或负值时，这测验还是异质的。

不是所有心理测验都要求较高的同质性信度

用于预测的测验或学绩测验可不考虑同质性

提出或验证某种心理学理论的构想和假设时，却要求作出“纯粹”的测量

2．同质性的测量

可用下列方法计算项目间的一致性： 1．库德—理查逊公式； 2．克伦巴赫α系数； 3．荷伊特信度； 4．因素分析（被部分学者认为是最好方法）

在测验上，如果一个因素就足以解释所有题目分数的变异时，这个测验就是同质的， 假如需要一个以上的因素时，则测验的组成是异质的。

(五)评分者信度

随机抽取相当份数的试卷，由两位评分者按记分规则分别给分。然后根据每份试卷的两个分数计算其相关系数，即得【评分者信度】。

一般要求在成对的、受过训练的评分者之间平均一致性达到0．90以上，才认为评分是客观的。 如果评分者有多人，可计算肯德尔和谐系数作为评分者信度的指标。

各种信度系数相应误差变异的来源

(六)测量的标准误

【测量的标准误】指误差分布的标准差。它是测量误差大小的指标。利用测量的标准误，可以对个人的真分数作区间估计。

根据信度系数可以计算出测量的标准误，计算公式是：

SE为测量的标准误，S为样本测量的标准差，r为测验的信度系数

三、影响信度的因素【8】

误差变异越大，信度愈低；能引起随机误差的因素，都会降低测验的信度： ①受试者方面——身心健康状况、动机、注意力、持久性、求胜心、作答态度等。 ②主试者方面——不按规定实施测验，制造紧张气氛，给予特别协助，评分主观等。 ③测验内容方面——试题取样不当，内部一致性低，题数过少，题意模糊等。 ④施测情境方面——测验现场条件，如通风、温度、光线、噪音、桌面好坏、空间阔窄等。 另外，以下几个因素也会影响信度系数的大小

⑤被试样本/被试团体的特性

团体的异质性：一个团体越是异质，其分数范围越大，以其为样本计算得到的相关系数(信度系数)就高

团体的平均水平：不同水平的团体，题目难度不同；题目在难度上的微小差异累积起来便会影响信度

⑥题目的数量/测验的长度

一般说来，在一个测验中增加同质的题目，可以使信度提高。因为增加测验的长度可以加大分数范围

⑦测验难度

要使信度达到最高，能产生最广分数分布的难度水平方为合适（太难太简单，分数范围将缩小）

⑧间隔时间

以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大； 间隔时间越久，其他变因介入的可能性越大，受外界的影响也越多，信度系数便越低。

四、信度的特殊问题p376

(一)速度测验的信度

(二)标准参考测验的信度

(三)分测验的信度

(四)差异的信度

(五)变迁的测量

第六章  测验效度

一、效度的性质

(一)效度的定义

①【效度】指的是测量的正确性，即一个测验或量具能够测量出其所要测量的东西的程度。

② 常以相关系数表示；测验的效度是相对的而非绝对的

③ 在测量理论中，效度被定义为： 在一组测量中，与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率

Sv = St +Sr Sv（真实变异数）→效度 St（真变异数）→ 信度 Sr：系统误差引起的变异数

(二)效度和信度的关系（简答）

① 信度和效度的差别在于所涉及的误差不同。 信度考虑的是随机误差的影响，效度的误差则还包括由于测量了对测验目的来说无关的变量所引起的系统误差。 ② 信度高不一定效度高，但一个测验的效度高的话，测验的信度必须高。 （即：一个测验对某一个目的具有一定的信度，但并不一定是有效的；而一个测量工具如果对某一个目的是有效的，那么它一定是可信的。）

(三)影响效度的误差来源【3】 （简答）

凡是能产生随机误差和系统误差的因素都会降低测验的效度。 一个效度低的测验，很大程度上受到与测验目的无关的因素影响，而效度高的测验则受无关因素影响很小。

1．测验组成方面

测验之效度取决于试题性能。 包括：测验的取材、题目样本对测验欲测量的内容和结构的代表程度、测验长度、试题的区分度、难度及其编排方式等。 提高测验的效度：须谨慎选择测验材料，适当安排测验的长度，使试题具有相当的鉴别力而且难易程度适中。

2．测验实施方面

测验的实施程序是影响效度的重要因素 ①主试：适当控制测验情景，遵照测验手册的各项规定而实施 ②实施的过程：场地的布置、材料的准备、作答方式的说明、时间的限制等

3．被试反应方面

① 被试的兴趣、动机、情绪、态度和身心健康状况等，都能影响他在测验情景中的行为反应。 ② 被试是否充分合作，也会影响测验结果的可靠性与正确性。

(四)效度的类型【3】

【内容效度】

指测验题目对要测量的行为领域的代表性。

主要应用于对学绩测验的评估。

【构想效度】

是指一个测验对某种心理学理论所涉及的抽象概念(构想)或心理特质测得如何。

【效标效度/实证效度】

指的是测验对研究者所感兴趣的外在行为能够做出多好的预测

这种外在行为是衡量测验是否有效的标准，简称【效标】。

二、内容效度 【2022大概率】

(一)内容效度（名词）

①【内容效度】指的是测验题目对有关内容或行为范围取样的适当性。这种测验的效度主要与测验内容有关，所以叫内容效度

② 一个测验要有内容效度必须具备两个条件：

1．要有定义得完好的内容范围

内容范围可以是一个明确而有限的题目总体，也可以是由编制者界定的一些范围较广的材料与技能；

可以包括具体的知识，也可以包括复杂的行为。

2．测验题目应是所界定的内容范围的代表性取样

即：根据材料与技能的重要性来选题目（而非随机取样；包含内容范围的主要方面，且各方面题目比例适当）

测验题目只需包含测验编制者认为是重要的材料（无需包罗该范围的所有材料）

(二)确定内容效度的方法【3】

1．专家判断

最常用的方法请有关专家对测验题目与原定内容范围的符合性做出判断。

为了提高判断过程的客观性，可采用以下几个步骤：

1．定义好内容总体，描绘出有关知识与技能的轮廓。 2．划分细纲目，并根据重要性规定好各纲目的比例，对内容范围作尽可能详尽的描述。 3．确定每个题目所测的内容与技能，并与测验编制者所列的双向细目表对照，逐题将自己的分类与编制者的分类作比较。 4．制定评定量表，从测验内容所测的技能、题目对所定义的范围的覆盖率，各种题目数量和分数的比例以及题目形式对内容的适当性等方面，对溅验做出总的评价

2．统计分析

由一组被试在两个测验复本（同样内容范围、独自取样）上得分之相关来作数量的估计。

若相关低，说明二者至少有一个缺乏内容效度； 若相关高，一般可推论测验有内容效度。

3．经验法

检查不同年级的学生在测验上的得分和在每个题目上的反应情况。 一般说来，测验总分和题目通过率随年级而提高，便是测验具有内容效度的证据。

(三)内容效度的特点

1．内容效度的特定性

不是普遍适用的：内容效度是根据具体情况分析得来的（测验编制者和使用者二者定义的内容范围相同，则编制者报告的内容效度对使用者而言是有意义的）

有时间上的特定性：适合过去总体的代表性样本，未必符合现在的总体（内容范围定义不同，会影响测验的内容效度）

2．内容效度常与表面效度搞混

【表面效度】是由受测者、使用测验者的行政人员及其他没有受过专门训练的观察者来看，这个测验是否有效； 即：从表面上来看，测验题目与测量目的是否一致。

两者关系

表面效度是由外行对测验作表面上的检查而确定的，而内容效度是由够资格的判断者详尽地、系统地对测验作评价而建立的。

二者都是根据测验内容做出的主观判断，但判断的标准不同。

表面效度：只考虑题目与测量目的之间明显的、直接的关系， 内容效度：同时考虑到题目与测量目的和内容总体之间逻辑的微妙关系。

(四)内容效度的应用和评价

内容效度不但是评价学绩测验的最适合的方法，而且是编制任何测验都要加以考虑的基本方面。 考虑测验题目与规定的内容或所取样的行为范围之间的符合性，可使选题更谨慎、更合理，以便从测验内容上排除无关因素的影响。

主要缺点是：①缺乏理想的数量指标，不利于信息交流和各测验间的相互比较。② 内容效度对于能力倾向测验和人格测验一般不适用。

三、构想效度

(一)构想效度的定义

①【构想】是指心理学理论所涉及的抽象的、假设性的概念或特质（如智力、焦虑、内向、动机等），它们往往用某种操作来定义并且用测验来测量。

②【构想效度】就是测验对某一理论概念或特质测量的程度。

例：创造力→发散思维

③【构想效度】是指一个测验对某种心理学理论所涉及的抽象概念(构想)或心理特质测得如何。

研究构想效度要回答三个问题

①测验测量什么心理构想？ ② 对这构想测得有多好？ ③ 测验分数中有多少比例的变异数是来自测验所要测的构想？

(二)确定构想效度的方法

1．测验内方法

主要是通过研究测验内部构造来界定所测量的构想的范围

1．确定测验的内容效度

2．分析被试对题目作反应的过程

3．考察测验的同质性

2．测验间方法

测验有效标效度，则该测验所预测的效标的性质与种类就可作为测验所测量的构想的指标

1．相容效度

确定构想效度的最简单方法， 是计算受测者在新测验上的分数与另一个效度已知较高的同类测验上的分数之间的相关。 假如相关高，说明这两个测验测的是相同特质。

2．区分效度

一个有效的测验：①与其他测量同一构想的测验有高相关；②必须与测量不同构想的测验无相关。 即：测验要有效就必须测量与其他变量无关的独立的构想。

3．因素效度

建立构想效度的常用的方法是因素分析。 通过对一组测验进行因素分析，可以找到影响测验分数的共同因素。

每个测验在共同因素上的负荷量，也就是测验与各因素的相关，称作【测验的因素效度】。 而在测验分数的总变异数中来自有关因素的比例，便可作为构想效度的指标。

3．研究测验的效标效度

如果一个测验有效标(实证)效度，那么该测验所预测的效标的性质与种类就可作为测验所测量的构想的指标

4．考察实验变量对测验分数的影响

通过实验操作控制某些条件，观察其对测验分数的影响以及测验分数与某些效标间的关系，也可以获得构想效度的信息。 eg. 焦虑对考试的影响

5．搜集某些变异上的证据

(三)对构想效度的评价

最大贡献： 把着眼点放在提出假设、检验假设上， 使心理测验不再只是作实际决定的辅助工具，还成为发展心理学理论的重要工具，从而使测验有了更广阔的发展前景。

构想效度的主要缺点是： 1．有些构想概念模糊，缺乏一致的定义。 2．测量效度时没有明确的操作步骤与程序。 3．没有单一的数量指标来描述有效的程度（构想效度是通过对测验测量什么、不测量什么的证据加以积累确定的）

四、效标效度

(一)效标效度的定义

【效标效度】也叫实证效度，是指一个测验对处于特定情景中的个体的行为进行预测时的有效性， 也就是对于研究者所感兴趣的行为能够预测得怎么样。

(二)效标

1．效标

① 心理学研究中，被预测的行为是检验测验是否有效的标准； ② 衡量测验有效性的参照标准，称作【效标】，是可以直接而且独立测量的、研究者感兴趣的行为。 ③ 一个好的效标测量必须具备以下几个条件：有效性、可靠性、客观性、实用性

2．效标测量的条件

1．有效性：效标测量必须能真正反映观念效标。 2．可靠性：效标测量必须具有较高的信度。 3．客观性：采用判断性的效标测量，必须控制偏见，使评定过程尽可能客观。 4．实用性：效标测量应尽可能用法简单，省时，花费少，经济实用。

3．常用的效标

连续变量&分类变量；自然的现成的指标&人为设计的指标；主观判断&客观测量；自我评定&他人评定。

常见的效标有：学业成就、等级评定、临床诊断、特殊训练的成绩、实际的工作表现，对团体的区分。

4．效标的特性

1．多样性

一个测验可能有不同的观念效标，同一个观念效标又可能有不同的效标测量。

2．复杂性

几乎每一种效标行为都由多种特质构成，包含有复杂的成分。

3．特殊性

即使一个普遍的效标，在应用时也具有特殊性。

4．时间性

根据效标的时间性可以分为近期效标与最后效标两种。

(三)确定效标效度的方法 校标相区（大）命功 <strike>小标想去大明宫</strike>

【效标关联效度】是通过考察测验分数与效标的经验关系确定的，一般都可以通过统计分析得到一个数量指标。

1．相关法

求测验分数与效标测量间的相关（最常用方法） 所得到的数量指标称作【效度系数】；在测验手册中，一般用它来报告测验对每种效标的效度。 计算效度系数最常用的是积差相关法。

2．区分法

看预测源的分数是否可区分由效标测量所定义的团体

3．命中率

当测验用来作取舍的根据时，其有效性的指标就是正确决定的比例，包括正命中率与总命中率。

【正命中率】等于利用测验录取的合格者人数，与全体录取者人数之比。

正命中率=A/A+C

【总命中率】等于利用测验录取的合格者与淘汰的不合格者人数，与申请者总人数之比。

总命中率=（A+D）/A+B+C+D

4．功利率

为了确定测验的功效，人们还常常对使用测验所花掉的费用与得到的利益进行比较，看是否利大于弊。这种效度指标，叫【功利率】

(四)影响效标效度的因素【4】

1．测验的长度

相关系数的大小与分数范围有直接关系→ 增加测验的长度，能提高测验的信度，也能提高测验的效度。

2．被试的取样

用来作效度研究的样本，必须是测验所要应用的团体的较好代表。

取样的策略有几种：将全体受测人员都包括在内；或从团体中随机取样；只用经检验合格的人。

3．所用的效标

效标测量的可靠性，效标和测验分数的关系类型都会影响效标效度。

4．干涉变量

同一测验对于具有不同特征的团体其效度可能有很大不同。

【干涉变量】指的是人的某些特征，由于这些特征的影响，使得不同的团体具有不同的可预测性。

(五)效度资料的概化 p387

第七章  项目分析

项目分析

【项目分析】是指根据被试的反应对组成测验的各个题目(项目)进行分析，从而评价其功用的程序和方法

适合：特殊的和非正式的测验的编制；(如：课堂测验)

【定性分析】包括考虑内容效度，题目编写的恰当性和有效性等；

【定量分析】主要是指题目难度和区分度的测量。

一、项目难度

(一)难度的定义

【难度】指项目的难易程度。 ② 在能力测验中通常需要一个反映难度水平的指标。（非能力测验中，类似的指标为“通俗性”） ③ 难度的指标通常以通过率表示，即以答对或通过该题的人数的百分比来表示：  P=(R／N)×100% 其中，P为通过率，是项目难度的指标；N为全体被试人数；R为答对或通过该题的人数】 P越大，表明项目难度越小。

(二)难度的计算

1．二分法记分的项目

试题为二分法计分的项目(即答对给1分，答错记0分)，且被试人数较多时； 则可以根据测验总成绩将被试分成三组：27%的高分组，27%的低分组，中间46%为中间组。 分别计算高分组和低分组的通过率，再求试题的难度：P=(Ph+PL)／2；其中，P为难度指标，Ph和Pl分别代表高分组和低分组的通过率。

2．非二分法计分的项目

当测验项目为问答题或其他不能用二分法计分的形式时，常常对部分正确的反应也给一定分数。 式中，X分别为全体受测者在该题上的平均分、该题的满分。

(三)难度水平的确定

为了筛选项目：难度水平多高合适，取决于测验的目的、项目的形式以及测验的性质

(四)测验的难度

整个测验的难度的综合性检验，可由分数的分布提供。 当分数分布是正偏态时，分数密集在低端，表明测验的难度偏高。当分数分布是负偏态时，分数密集在高端，表明测验的难度偏低。

(五)常态化等距难度量表

p390：△=13+4Z

二、区分度

【区分度】是指测验项目对所测量的心理特性的区分程度或鉴别能力，也称项目的效度。 区分度的所有指标和估计方法，都是以受测者对项目的反应与某种参照标准之间的关系为基础的

(一)确定区分度的方法【3】

1．项目特征曲线

项目反应与效标(或测验总分)的基本关系可以用项目特征曲线来表示。 项目特征曲线描述了效标分数不同的受测者在该项目上的通过率。

如果该项目的通过率在效标分数的低端很低，在效标分数的高端很高 → 说明这个项目能将不同水平的受测者做出有效区分。

一般说来，曲线坡度越陡，鉴别能力越好，预测的误差越小。 当坡度为90°时，区分度为1.00(最高)，当坡度为0°时，区分度为0°

项目特征曲线不但可以提供项目效度的形象描述，而且可以用曲线的坡度作为项目别能力的指标； 但使用此种指标计算非常复杂，一般要由计算机来完成，只有在特殊需要时才做这种计算。

项目特征曲线理论，即：项目反应理论 →潜在特质（P203）

2．项目与效标的相关

更常用的是相关法，即以项目分数与效标分数(或测验总分)韵相关作为项目区分度的指标，相关越高，区分能力越好。

1．二列相关

适用于：两个可以连续测量的变量，但其中有一个由于某种原因被分成两个类别。 当一个测验的项目分数是连续的，而效标或测验总分被分为高、低或及格、不及格两个类别时，就可用二列相关法。

2．点二列相关

适用于：一个变量为连续变量，另一个变量为二分变量的资料。

3．四分相关

适用于：两个常态的连续变量均被人为二分的资料。 题目分数和效标成绩被分成通过与不通过，则得到四个类别，从而可组成一个四格表。 计算四分相关最常用的是皮尔逊的余弦π公式。

4．φ相关

适用于：两个变量都是点分配的资料，即两个变量都是二分名义变量。φ相关不要求变量呈正态分布。

5．项目和总分相关重叠的校正

这是一种局部和总体的相关，因为总变异数中包含有各个项目的变异，这个事实本身就可以引起某种正相关

3．鉴别指数

项目分析的一个简便方法是比较两个极端效标组通过一个项目的个案的比例。 当效标测量是一个连续变量(例如学业分数、产品数量)时，可从分布的两端选出高分组(H)和低分组(L)，然后将高分组和低分组通过每个项目的人数用百分比来表示，这两个百分数之间的差异就提供了题目区分度的指标。 D=Ph—Pl  其中,D为鉴别指数，Ph为高分组通过人数百分比，Pl为低分组通过人数百分比。

(二)区分度的相对性

1．采用不同的计算方法区分度的值不同

2．用相关法计算的区分度值受样本大小影响

一般说来，样本越大其统计值越可靠

3．用两个极端组通过率的差异作为区分度的指标，其值受分组标准的影响。

4．区分度值的大小与样本的同质牲有关

受测者越具有同质性(个别差异越小)，区分度值越小。

(三)区分度与难度的关系

① 难度和区分度都是相对的，是针对一定团体而言的(绝对的难度和区分度是不存在的)。 ②一般说来，较难的项目对高水平被试区分度高，较易的项目对水平低的被试区分度高，中等难度的项目对中等水平的被试区分度高。 （这与中等难度的项目区分度最高的说法并不矛盾，因为对被试总体是较难/较易的项目，对水平高/水平低的被试则成了中等难度） ③ 由于人的多数心理特性呈常态分布，所以项目难度的分布也以常态为好， 即：特别难与特别容易的题目较少，越接近中等难度的题目越多，而所有项目的平均难度为0.50。

三、项目分析的特殊问题

(一)备选答案的反应模式

(二)速度测验的项目分析

(三)标准参考测验的项目分析

(四)项目团体的相互作用

(五)有效性与可靠性的矛盾

可靠性与有效性的矛盾是由信度和效度的复杂性引起的。

第八章  学绩测验(了解）

一、学绩测验的性质与功能

(一)学绩测验的性质

1．学绩测验的定义

【学绩】指经过一定的教学或训练后所学到的东西，是在一个比较明确的、相对限定的范围内的学习结果。 【学绩测验】用来描述现状，指明一个人已经学会了什么和能做什么。

2．学绩测验的基本假设

1．学绩测验所测量的知识和技术的范围能明确界定。 2．测验所测量的是研究者认为重要的东西，而不是与测量目的无关的东西。 3．被试有同样的机会学习测验所包含的材料。

3．学绩测验的种类

从反应方式

书写测验

再认式

eg. 是非题、多选题、匹配题、顺序题(把若干学习过的事物，重新呈现在被试面前，让被试辨认或加以排列组合

回忆式

eg.填空题、简答题、论述题等(所学过的事物不在眼前，要被试加以回忆，写出一个答案来

操作测验

从编制方法

标准化的学绩测验、教师自编的测验

从用途上

调查测验、诊断性测验、准备性测验、选拔与安置测验、职业水平测验以及用于研究的测验等

(二)学绩测验的应用

1．反馈功能

测验的反馈信息可以调节教师的教学活动，还可以促进学生的学习活动。

2．评价功能

学绩测验可用于评价学生、教师，评价一所学校或一个地区的教学质量；可作跨区域的横向比较，也可作跨年代的纵向比较。

3．研究工具

好的教育体制、教材和教法，要通过教育效果来体现，而教育效果在一定程度上又要通过测验成绩来检验。

4．人才选拔与安置

经常用来当作选人工具，也能用来确定一个人是否达到了从事某项活动所需要的最低熟练水平，还可对人员进行分类，把每个人都安置到适当位置上去。

二、标准化的学绩测验

(一)编制标准化的学绩测验

测验的实际编制工作，是由学科专家与测验编制专家共同完成的，其步骤与一般心理测验的编制程序相同

(二)标准化学绩测验的类型

1．调查测验

2．诊断性测验

3．准备性测验

4．选拔与安置测验

5．学历与职业水平测验

6．用作研究工具的测验

(三)标准化学绩测验的评价

1．关于测验的心理测量学特性

标准化学绩测验在信度、效度和常模资料方面，比其他类型测验达到了更高的水准。

2．关于测验的题目形式

几乎全部采用多重选择题

三、教师自编的学绩测验

(一)客观测验

1．命题

主要为再认式，记分较为客观（偶尔采用回忆式题目，但答案很简短）

2．计分

常用的记分键：长条式和圆孔式

是非题有必要加以矫正，多选题可不矫正

3．对考试的分析

两个功能：①为教和学提供反馈；②是为了解每个题目的性能，提高测验编制技术，积累好的题目

对题目的分析包括：确定难度、区分度，以及备选答案的合适度。 对整个测验的分析包括：确定分数分布、信度(一般用分半法)、效度(主要考虑内容效度)等。

4．评定等级

5．客观测验的优点

1．试题多，取样范围广，不易押题，可促使学生全面复习。 2．试题的形式变化多，而且作答方法简易，适合中小学生的作答能力。 3．有固定答案，评分时可避免教师的主观影响，从而使分数的可信性增加。 4．评卷省时省力。 5．便于统计分析。

(二)主观测验

1．功能

用于衡量较高级的思维过程的考试方法

2．试题类型

简单说明类：要求的是一段话或几句话的叙述，如“说明”、“列举”、“解释”等。 讨论评述类：此类试题的反应甚为复杂，必须组织思想、表达见解，这是一种高级的思想活动，如“比较”、“阐述”、“分析”、“评论”等。

3．试题的编拟

针对教学目标、试题范围要确定

4．评分

5．主观测验的评价

主要优点

1．编拟题目较为容易。

2．能测量较为高级的心智活动。

主要缺点

1．题目太少，不能代表全部教材。这不但会影响分数的可靠性，还可能使学生产生考试碰运气、读书投机取巧的不健全心理。

2．没有固定答案，尽管采用各种评分技巧，评分还是难以客观。

第九章  智力测验

一、一般智力测验

(一)智力测验的理论基础

1．智力测验的定义

【智力】是人们在获得知识和运用知识解决实际问题时所必须具备的心理条件或特征。

【智力测验】是有关人的普通心智功能的各种测验的总称——百度

2．智力的结构 （类同普心“能力”篇）

智力是一种综合的整体结构，而不是一种单一的成分

1．二因素论（斯皮尔曼，1904）

任何心智活动只包括两种因素，普通因素(G因素)和特殊因素(S因素)。

G因素代表个人的普通智力，是一切心智活动的主体和智力的基础，个体间智力的差异即决定于G因素量的多寡。

S因素代表个人的特殊智力，只有在某些特殊情况下(特殊工作或特殊活动)才会表现出来。

2．多因素论（桑代克）

智力包含多种因素，各个因素的负荷量在不同活动或不同测验中各不相同

（桑代克，1926）智力的结构包括抽象的智力、具体的智力与社会的智力三种

（学生凯利，1928年）提出智力有五种因素：空间关系的操作、计数的敏捷、处理言语材料的敏捷、记忆力、速度

（瑟斯顿，1930s）群因素论提出智力可分为：语文理解、语词流、数字运算、空间关系、机械记忆、知觉速度、一般推理七种因素， 从而确定了七种基本心理智力，这就是构成智力的群因素。

3．层次结构模型（弗农，1960年）

第一层，斯皮尔曼的G因素：代表个人的普通智力 第二层，两个大因素群：言语和教育方面的智力倾向，操作和机械方面的智力倾向 第三层，为几个小因素群：在言语和教育方面可分为言语因素、数量因素等；在操作和机械方面可分为机械知识、空间智力、手工智力等次级因素。 第四层……每个次级因素又可分为更小的因素或因素群。 该模型的最下层，便是各种特殊因素。

4．三维结构模型（吉尔福特，1967）

用内容、操作和成果分别代表心理学上的三个变项， 用三个维度的立体模型来描述智力的结构

采用心理学上自变项、依变项与中间项的观点，对智力结构提出一种动态看法。

内容（4）：指引起心智活动的各类刺激，即智力测验所包括的各类题目：图形、符号、语义、行为——《测量》 内容（5）：听觉、视觉、符号、语义和行为——from《普心》p136

操作（5）：指由各种刺激所引起的心智活动方式，即解决问题的心理过程，包括：认知、记忆、发散思维、会聚思维、评价。

成果（6）：指心智活动的产物，即运用各种心智智力对各类问题处理的结果，这些结果从简单到复杂分为六种：单元、类别、关系、体系、转换、含义。

吉尔福特设想：每一个内容都可以运用不同的操作而产生不同的结果，这样，把三个变量组合在一起便可形成150(5×5×6)种单独的智力因素。

5．二维结构模型（希莱辛格和古特曼，1969）

第一维用直线表示，把人的智力分为数学、言语、图形和空间智力三大类。 第二维用圆形表示，把智力分为规则应用智力、规则归类的智力、学术成就三大类。

关于智力及其结构的现代理论，较有代表性的是加德纳的多元智力理论和斯腾伯格的三元智力理论。具体内容参见本书“普通心理学”的“能力”一章。

(二)智力测验,也叫普通能力测验[5]

1．比纳量表

1905年量表

比纳和西蒙联名发表了“诊断异常儿童智力的新方法”，这就是第一个比西(B—S)量表，共包括30个测验项目。

主要特点是： ①项目种类繁多，可以测量智力的多方面表现； ②项目的排列由易而难，可以测量智力的高低； ③用通过多少项目作为分别智力之标准

1908年量表

1905年量表发表后，比纳和西蒙根据使用结果，于1908年发表了“儿童智力的发展”一文，提出了修订的量表。

修订的要点是： ①把测验项目增加至59个； ②把测验项目按年龄分组(3～13岁每岁一组)，每个年龄组项目数量不等，最多8项，最少3项； ③以智力年龄来计算成绩。

1908年量表是第一个年龄量表

1911年量表

比纳在去世前，根据自己和其他学者的使用经验，对量表做了最后一次修订，遂成1911年量表。

修订要点是： ①删掉一些旧的项目，补充一些新的项目(总数仍为59项)，并重排项目的顺序； ②将年龄范围扩展至成人，增设一个成人组； ③除4岁组仅有四个项目外，其他每个年龄组一律为五项，在计算上较为方便。

比纳西蒙量表的评价

比西量表虽然已不为当代人所用，但它的历史贡献是不可磨灭的，

其成就主要有以下三方面： (1)第一个采用复杂任务来测量高级心理过程的测验。（以前的测验主要测量感知觉、运动等低级心理过程） (2)首次采用年龄作为智力的标准，这样可以对测验做出通俗易懂的解释。 (3)首次从整体上测量智力，即测量智力的普通因素，这是它的成功之处（以往的心理学家把感觉辨别力、记忆力、注意力等各项心理智力割裂开来测量）

比西量表也有不足之处： (1)施测和记分手续没有标准化，从而使分数的稳定性受到影响。 (2)有些项目的位置不当，没有完全按难度安排在最合适的年龄水平上，主要原因在于常模团体的代表性不够。 (3)测验项目过少。

2．斯坦福比纳量表

1916年，斯坦福大学教授推孟，斯坦福比纳量表(S—B)，对比纳量表的修订

该量表共有90个项目，其中1／3以上(39个)是新的，一些老项目有的被修改，有的被删除，有的被重新安置在不同的年龄水平。

1916年版本的重要意义在于： 1. 它是最早对施测和记分提供详细指导语的测验，并认识到在这些方面的变化能产生广泛的分数差异。 2. 引入了“智商”(比率智商)的概念，以IQ作为比较人的聪明程度的相对指标。 3. 认识到为了将测验标准化，必须取得被试的有代表性的样本(该样本由美国近1000名儿童和400名成人组成)。

1937修订本：由L和M两个等值型量表构成(当时最好的智力测验)。

1960年修订本：① 合并了L和M两型中最好的项目，改为单一量表，称作LM型。②本次修订舍弃了比率智商，引入了离差智商的概念。

1972年对LM型重薪做了标准化，测验内容保持不变，但常模是从更具代表性的新样本得到的。

3．中国比纳测验

1924年，陆志韦、《中国比纳西蒙智力测验》、适合江浙儿童使用（基于1916斯比量表版本） 1936年，与吴天敏进行了第二次修订，使用范围扩大到北方。 1982年，吴天敏对《第二次订正中国比纳西蒙测验》再次修订，称作《中国比纳测验》

4．韦克斯勒量表/韦氏量表

1939年发表第一个韦克斯勒贝尔韦量表； 1942年发表第二个韦克斯勒贝尔韦量表，亦称韦氏军队量表； 1949年发表韦氏儿童智力量表；1974年发表儿童智力量表修订本； 1955年发表韦氏成人智力量表；1981年发表成人智力量表修订本。 1967年发表韦氏幼儿智力量表； 韦氏成人智力量表、韦氏儿童智力量表、韦氏幼儿智力量表都有中国修订版。韦氏儿童智力量表第四版(WISC—IV)中国修订工作已经完成。

韦氏成人智力量表(WAIS)

共有11个分测验=6个言语量表+5个操作量表

评价/优缺点

5．瑞文测验

英国心理学家瑞文于1938年编制的一种非文字智力测验，可以个别或团体施测；它是一种标准推理测验；适用于跨文化研究

要求被试对量表中的图形关系进行推理或填补，从中测验被试在知觉辨别力、图形比较、图形组合、整合、互换等方面的抽象推理能力水平

目前国内有两种修订版：“瑞文标准推理测验(中国城市修订版)”和“瑞文测验联合型”，对幼儿和成人都适用。

IQ

离差智商

【离差智商】是个人智力水平的一种指标，一种属于标准分数系统的常模参照分数。

对于韦氏智力量表来说，其平均数为100，标准差为15。计算公式是： 其中X为个人在测验上的得分，与S分别为个人所属团体在测验上得分的平均数和标准差。

比率智商

1911年斯腾提出的“智商”(比率智商)的概念，以IQ作为比较人的聪明程度的相对指标。

【比率智商】是个人智力水平的指标，它等于心理年龄与实际年龄之比乘以100，即：IQ=(智力年龄／实际年龄)×100

二、婴幼儿智力测验

特点：① 未上学、测验通常是操作性的、一般都要个别施测；② 速度测验不适用、记分往往是以对行为观察做出的估价为基础 ③ 研究资料表明：婴儿测验分数与青少年/成年之间的智力相关基本为零，而幼儿和青少年期的智商分数的相关有时高达0.50～0.70。

(一)盖塞尔发展顺序量表

正常小儿行为模式：4周、16周、28周、40周、52周、18月、24月、36月时，婴幼儿在行为上显示出特殊的飞跃

测验纬度

动作：粗动作（身体的姿态、头的平衡，坐、立、爬、走、跑、跳）和细动作（使用手指的智力）。 顺应：对外界刺激物分析综合以顺应新情境的智力（如，对物体和环境的精细感觉，解决实际问题时协调运动的智力等)。 言语：听、理解语言和语言的表达智力。 社会应答：与周围人们的交往智力和生活自理智力

发育商数DQ

DQ=测得的成熟年龄／实际年龄×100%

评价：在国际上得到广泛应用，而且成为编制婴幼儿测验的楷模，后来的许多婴幼儿量表的项目都是取自盖塞尔发展顺序量表

(二)丹佛发展筛选测验(DDST)

美国丹佛市科罗拉多大学的学者从十余种婴儿发育测验和幼儿智力测验中选出240个项目，经过试测后保留105项，用来检查六岁内小儿的发育情况。

(三)贝雷婴儿发展量表

贝雷编制了适合测量两个月到两岁半儿童发展状况的测验。

该测验由心理量表、运动量表和婴儿行为记录表三部分组成。

心理量表的内容：知觉、记忆、学习、问题解决、发音、初步的语言交流、初步的抽象思维等活动； 运动量表测量坐、站、走、爬楼等粗动作智力，以及双手和手指的操作技能； 行为记录表是一种等级评定量表，用来评价儿童个性发展的各个方面，如情绪、社会行为、注意广度以及目标定向等等。

三、智力测验的几个心理学问题

(一)智力的发展变化

人的智力不是一成不变的，它不但随着年龄或成熟而发展，还可因教育和训练而改变。

一般趋势是：智力在童年期急速增长，在青春期和成年初期增长缓慢，在成年期达到最大值，保持稳定到中年后期，在老年稍有下降。

(二)智力的差异及原因

1．智力的个别差异

在一般人群中智力极高(IQ在140以上)与极低(IQ在70以下)者均占少数，智力属于中等或接近中等(IQ在80～120之间者约占全部人口的80%)

2．智力的团体差异

性别差异

就男女两性的整体而言，可能在智力上没有差异 从IQ分数看，男性智力的变异大于女性，在特别聪明与特别愚笨的人中男性均多于女性。

种族差异

多研究显示，白种人的平均智商较有色人种为高。 但从方法论的角度看，依据此类研究结果作出种族优劣的论断并没有科学根据。

3．智力差异的原因

研究表明：遗传和环境都是决定智力高低的重要因素。

(三)智力测验的公平性问题

使每个人都同有类似背景和学习经历的人比较，此种测验叫做【特定文化测验】

任何一个测验都不能对所有的团体同样公平，因为每种测验都是在一定文化背景下发展起来的。

解决方法： ①根据亚文化群的特点为不同的团体编出不同的测验；（最好的办法） ②若使用同一个测验，则要为少数特殊团体制定单独的常模； ③在从外来文化引进测验时，简单后必须对内容加以修订，使之适合本国国情和本民族文化的特点

第十章  人格测验

人格测验

【人格】指个体特有的特质模式及行为倾向的统一体，是个性中除能力以外的部分， 包括需要、动机、兴趣、爱好、感情、态度、性格、气质、价直观、人际关系等，是与社会行为有关的心理特质的总和。

人格测验发展缓慢，原因在于： ①人格内涵复杂，对于人格的结构及分类问题，至今没有一致结论；②人格是动态的，常随环境而改变。

人格测验多达数百种，由于依据的人格理论不同，所采用的方法也不同，主要有自陈法、投射法、评定法、情境法等。

一、自陈量表

(一)自陈量表的性质

测量人格最常用的方法

题目形式：是非式、折中是非式、二择一式、文字量表式、数字量表式

自陈量表的特点是： 1．测量工具一般为调查表。 2．题目数量多。 3．在同一个测验中往往包含几个量表，可同时测量几个特质。 4．测验通常采用纸笔形式，因而可以团体施测。

(二)自陈量表举例（选择）

1．明尼苏达多相人格测验(MMPI)

目前应用最广的人格测验，各个量表都是根据经验法编制的，较为客观

美国明尼苏达大学教授郝兹威与莫金利

2．16种人格因素测验(16PF)

美国心理学家卡特尔

3．爱德华个性偏好量表(EPPS)

主要特点：采用强迫选择法来控制社会称许性。

4．艾森克人格问卷(EPQ)

提出决定人格的三个基本因素：内外倾性、情绪性和心理变态倾向

两种：成人问卷和青少年问卷

按E、N、P、L四个量表记分

5．NEO人格调查表（即：大五人格量表）

用来测量人格五因素模型的问卷

该问卷的5个因素是外倾性、愉悦性、公正性、情绪稳定性和开放性。

被广泛使用和研究的是麦克拉(McCrae)和科斯塔(Costil)修订的NE0人格调查表(NE0—Pl—R量表)

用以测量人格的5个因素，每个因素又分为6个层面，共计30个层面。

二、投射测验（选择）

(一)投射测验的原理

【投射法】是指向受测者提供一些未经组织的刺激情境，让他在不受限制的情境下，自由表现出他的反应，通过分析反应的结果，便可推断他的人格结构。 在这里，刺激情境对决定受测者的反应并不重要，它的作用只像银幕一样，让受测者把他的人格特点投射到这张银幕上来。人们把利用这种方法编制的测验称作【投射测验】

基本假设

投射测验以心理动力学(精神分析人格理论)为其理论基础

①人们对于外界刺激的反应都是有其原因且可以预测的； ②这些反应决定于当时的刺激或情境，但个人本身当时的心理状况，及整个的人格结构，对当时的知觉与反应的性质和方向，都起了很大的作用； ③人格结构的大部分处于潜意识中，个人无法凭其意识说明自己，而当他面对一种不明的刺激情境时，却可以使隐藏在潜意识中的欲望、需求、动机等“泄露”出来，即把一个反应他的人格特点的结构加到刺激上。

投射测验特点

①测验材料没有明确的结构和固定意义，其结构和意义完全由受测者自己决定； ②受测者有广泛的反应方式，可作多种反应； ③受测者不知道测验的目的； ④可同时测量几个人格维度，并对结果作整体性分析

根据受测者的反应方式分类

①联想法——使受试者说出某种刺激所引起的联想。如文字联想测验和罗夏克墨迹测验。

②构造法——要受测者根据他所看到的图画，编造一套含有过去、现在、将来等发展过程的故事。如主题统觉测验（TAT）

③完成法——提供一些不完整的句子、故事或辩论等材料，令受测者自由补充，将之完成。如语句完成测验。

④选排法——要受测者根据某一准则来选择项目，或作各种排列，可用图画、照片等作为刺激项目。

⑤表露法——使受测者利用某种媒介(如绘画、游戏、心理剧等)自由表露他的心理状态。如画人测验。

(二)罗夏克墨迹测验p420

墨迹测验主要应用在精神医学的临床诊断方面。 由于该测验不受语言文字的限制，还广泛用于人格发展和跨文化研究

对该测验的主要批评：记分困难，未受过专门训练的人不易掌握，而且对结果的解释带有主观性，测验本身的效度与测验者解释分数盼效度难以分清。

(三)主题统觉测验(TAT)

由默瑞与莫根于1938年在美国哈佛大学创制。其理论基础是默瑞的“需要压力”理论。

(四)投射测验的评价

投射测验的优点是： ①可以对人格作综合的、完整的探讨，对受测者的内心生活作深层的探索，并作出动态解释； ②测验本身不显示任何目的，受测者不至于有意防范而作虚假的反应。

投射测验的缺点是： ①评分缺乏客观标准，难以量化； ②缺少充分的常模资料，测验结果不易解释； ③信度和效度不易建立； ④原理复杂深奥，非经专门练者不易使用； ⑤与其他测验相比，被试的反应更易受实施情境的影响。

三、评定量表

(一)评定量表的性质与种类

1．数字评定量表

2．描述评定量表

3．标准评定量表

4．检选量表

5．强迫选择评定量表

(二)如何提高评定的信度和效度

1．常见的评定误差

1．严格误差。在评定时吹毛求疵，多方挑剔，给分过严。 2．宽容误差。对任何一个受评定者都给分过宽，使分数集中在量表的上端。 3．趋中误差。倾向予把被评价者放在量表的中间，尽量避免作出极端的评定。 4．逻辑误差。评定者把他认为相互联系的特质都作同祥的评定。 5．“光环”效应。以偏概全，对某一方面的看法影响了对其他方面的评定。

2．如何减少评定误差

1．对于所评定的特质必须明确定义，并为每个评定等级定出一个行为样本。 2．评定等级的划分不可过细。一般采用五个等级。 3．评定者在作评定之前要接受训练，评定时能直接观察被评者在所评定方面的行为。 4．最好由多人分别评定，再把评定结果进行平均。 5．采用相对评定法，根据常态分布分配各阶段应占人数的比例。 6．请评定者注明在评定时所依据的事实，或说明理由。 7．每次评定一种特质，把一种特质评完后再评定另一特质

(三)评定量表举例

1．莱氏品质评定量表

2．卜氏儿童社会行为量表

四、情境测验（选择）

【情境测验】是把受测者置于特定的情境中，由主试观察其在此情境下的行为反应，从而判定其人格。

用于测验人格的情境

实际生活情境：多用于教育上，如品格教育测验

设计的情境：多用于特殊人员的选拔，如情境压力测验。

(一)品格教育测验（CEI）

学龄儿童日常生活或学习中所熟悉的、自然的情境，用来测量诸如诚实、自我控制以及利他主义等品格或行为特点。

(二)情境压力测验

【情境压力测验】是经特别设计，使得情境对受测者产生一种情绪上的压力，然后由主测者观察记录受测者如何应付情境，从而了解他的人格特性。