ChatGPT
2024-04-02 16:52:08 0 举报
AI智能生成
登录查看完整内容
ChatGPT,一个由OpenAI开发的大型语言模型,拥有强大的自然语言处理能力,可以对文本进行理解和生成,具有极高的准确性和流畅性。通过训练的数据集包含了大量的文本信息,使得ChatGPT能够理解和生成各种类型的文本,如文章、故事、对话等。此外,ChatGPT还能够理解和回答各种问题,以及执行各种任务,如撰写邮件、编写代码等。此外,它还能够通过学习和适应与人类的交互过程,不断提高自己的表现。
作者其他创作
大纲/内容
准备prompt,进行模型微调
微调后的模型,根据更多的 prompt 生成答案
采样更多的 prompt,继续训练生成模型
指令微调的过程
主要结论
SuperGLUE:理解任务为主
Winogrande:推理任务为主
TriviaQA:阅读理解任务为主
数据收集过程
模型初始化、归一化、Tokenization 做了一些优化
子主题
模型
训练数据准备
模型训练过程
改进内容
次要结论
结果与讨论
InstructGPT
Transformer 的 Decoder 部分
模型结构
自回归的生成方式进行语言模型预训练判别式的结构进行下游任务微调
训练方法
Loss
数据
预训练
模型改动
loss
小细节
微调
主要验证方法
GPT-1
Zero-Shot
改进重点
使用方式
开源 Common Crawl
自建了 WebText 数据集
WebText 最终包括 4500w 链接,后处理过程
训练数据
沿用 GPT 结构
模型大小
验证数据
Children’s Book Test 任务
Winograd Schema Challenge 任务
其他 Zero-Shot 任务
语言模型预训练集和验证集的效果(perplexity 困惑度越小越好)
GPT-2
领域数据
微调在小数据量下表现好,很可能只是过拟合
以人类的学习习惯对比
动机
沿用 GPT-2 的模型和训练方法
验证 In-Context learning 能力
根据下游任务进行微调
方案
模型训练方式
模型初始化、归一化、Tokenization 做了一些优化
GPT-3
ChatGPT
0 条评论
回复 删除
下一页