人工智能与大模型
2025-11-08 14:56:11 0 举报
AI智能生成
作业
作者其他创作
大纲/内容
4.4
AIGC与大模型
AIGC可生成的常见模式:(1)文本生成(2)图像生成(3)音频生成(4)视频生成(5)其他生成形式
AIGC的应用领域:(1)媒体与营销(2)创意设计(3)教育与科研(4)娱乐与文化(5)企业服务
AIGC与大模型的关系:
大模型提供“理解-生成”的基础能力
大模型的“泛化性”支撑AIGC的多样化场景
大模型的“多模态能力”拓展AIGC的边界
常用大语音模型对比
GPT-4大语音模型
语气与风格:严谨专业,适合学术和商务场景
技术能力:支持图像,语音,集成DALL-E,图像
适用场景:适用于学术研究、技术开发、商业分析等场景,是专业用户的首选
Grok 3大语言模型
语气与风格:幽默个性化, 语言风格粗俗、挖苦,适合娱乐对话
技术能力:实时数据获取能力强, 支持图像、语音,具有多人格,图像生成效果一般
适用场景:适合内容创作、娱乐对话等场景
Gemini 2.0 Pro 大语言模型
语气与风格:温和亲和,可展示思考过程,适合教育和科普场景
技术能力:多模态支持全面,能处理图像、视频、音频
适用场景:在教育场景和多媒体任务处理上表现优异
LalMA 2大语言模型
语气与风格:无明显独特风格,适用于多种自然语言生成任务
技术能力:是预训练的生成文本模型
适用场景:可用于开发聊天机器人等,适合研究人员和开发者进行二次开发和定制
BLOOM 大语言模型
语气与风格:较为中性
旨在提供连贯准确的文本,可支持多种语言,能满
足不同语言用户的基本文本生成需求
技术能力:透明度高,所有人都可访问源代码和训练数据
适用场景:适合需要多语言支持,且希望模型具有开放性和可研究性的场景
Falcon 180B 大语言模型
语气与风格:无特别突出的风格特点,以强大的性能为基础,提供准确的文本生成服务
技术能力:可接受1800亿个参数和3.5万亿个Token
适用场景:适用于对模型性能要求高,且有足够计算资源支持的场景
4.5
人工智能伦理
人工智能伦理概念
核心是机器学习算法,本质在于对人类感知、推理、决策、学习等能力的模拟、延伸与拓展
由算力、算法和数据三个主要元素构成
人工智能可以分为弱人工智能和强人工智能,弱人工智能只能在某个特定的领域内模拟人类的智能行为,而强人工智能则具有像人类一样的全面思考和决策能力。
人工智能伦理问题
算法偏见与公平性
隐私泄露与数据滥用
责任划分与安全风险
就业冲击与社会公平
人类主体性与伦理边界
人工智能伦理典型案例
智能招聘系统的性别偏见
ChatGPT数据泄露事件
Reddit AI说服实验
苏黎世大学研究人员在论坛创建13个AI账户,伪装成人类用户发布约1700条评论,试图改变用户观点。实验未通知用户或获得同意,违反研究伦理原则,引发社区愤怒,Reddit官方谴责该实验,研究团队最终撤回论文并道歉。
ScotRail AI语音案
2025年5月,苏格兰铁路公司上线的AI语音播报助手“Iona”被指控未经授权使用苏格兰著名配音演员Gayanne Potter的声音数据进行训练。Potter称其仅授权声音用于翻译服务和视障人士辅助工具,未授权给第三方,该事件引发了对声音人格权的讨论。
自动驾驶致死案件
4.6
专题探讨:常见的AIGC应用场景
文本生成:高效处理各类文字内容
日常办公与沟通
自动生成邮件、报告、PPT 文案、会议纪要(如 GPT-4、讯飞星火)
智能客服 / 聊天机器人,基于自然语言处理生成实时回复
自动生成邮件、报告、PPT 文案、会议纪要(如 GPT-4、讯飞星火)
智能客服 / 聊天机器人,基于自然语言处理生成实时回复
创意写作与内容生产
小说、诗歌、剧本生成(如 Sudowrite)
营销文案,生成广告语、产品描述、短视频脚本
小说、诗歌、剧本生成(如 Sudowrite)
营销文案,生成广告语、产品描述、短视频脚本
教育与知识传播
自动生成试题、教案、学习资料
个性化学习反馈,生成批改意见和改进建议
自动生成试题、教案、学习资料
个性化学习反馈,生成批改意见和改进建议
图像生成:从创意设计到视觉素材
创意设计与艺术创作
插画、海报、LOGO 设计(如 Midjourney、Stable Diffusion)
艺术风格迁移,将照片转化为梵高、水墨画等风格(如 Prisma)
插画、海报、LOGO 设计(如 Midjourney、Stable Diffusion)
艺术风格迁移,将照片转化为梵高、水墨画等风格(如 Prisma)
电商与营销素材
商品图生成,无需实拍,输入描述即可生成白底图、场景图
广告视觉素材,快速生成符合品牌调性的 banner、宣传海报
商品图生成,无需实拍,输入描述即可生成白底图、场景图
广告视觉素材,快速生成符合品牌调性的 banner、宣传海报
影视与游戏辅助
角色、场景概念图,辅助动画或游戏前期设计
分镜脚本可视化,将文字分镜转化为示意图
角色、场景概念图,辅助动画或游戏前期设计
分镜脚本可视化,将文字分镜转化为示意图
音频生成:语音与音乐的智能创作
语音合成(TTS)
文本转语音,生成自然流畅的人声(如 ElevenLabs)
语音克隆,模仿特定人的音色生成新内容
文本转语音,生成自然流畅的人声(如 ElevenLabs)
语音克隆,模仿特定人的音色生成新内容
音乐与音效生成
原创音乐,根据风格生成完整乐谱或音频(如 Amper Music、Soundful)
音效生成,为影视、游戏、短视频生成环境音、特效音
原创音乐,根据风格生成完整乐谱或音频(如 Amper Music、Soundful)
音效生成,为影视、游戏、短视频生成环境音、特效音
视频生成:从片段到完整内容
短视频与营销内容
文本转视频,输入文案自动生成匹配的短视频(如 Runway ML)
视频剪辑辅助,自动匹配素材、添加转场和特效
文本转视频,输入文案自动生成匹配的短视频(如 Runway ML)
视频剪辑辅助,自动匹配素材、添加转场和特效
虚拟人视频
数字人播报,虚拟主播结合 TTS 生成新闻、带货视频
动画生成,将文字脚本转化为 2D/3D 动画(如 Plotagon)
数字人播报,虚拟主播结合 TTS 生成新闻、带货视频
动画生成,将文字脚本转化为 2D/3D 动画(如 Plotagon)
影视与特效辅助
场景生成,为电影生成虚拟背景
修复与增强,提升老视频画质、上色
场景生成,为电影生成虚拟背景
修复与增强,提升老视频画质、上色
代码与数据生成:赋能技术与科研
代码生成与开发辅助
自动生成代码片段,根据需求描述生成 Python、Java 等语言代码(如 GitHub Copilot)
代码优化与调试,识别漏洞、生成优化建议
自动生成代码片段,根据需求描述生成 Python、Java 等语言代码(如 GitHub Copilot)
代码优化与调试,识别漏洞、生成优化建议
数据生成与分析
合成训练数据,为 AI 模型生成标注数据
数据分析报告,自动生成数据可视化图表及解读文案
合成训练数据,为 AI 模型生成标注数据
数据分析报告,自动生成数据可视化图表及解读文案
垂直领域深度应用
医疗领域
生成医学报告,根据检查数据生成诊断建议初稿
科普内容,生成面向患者的疾病解释、康复指导文本
法律与政务
合同与文书生成,根据需求生成模板化法律合同
政务服务,生成政策解读文案、办事指南
合同与文书生成,根据需求生成模板化法律合同
政务服务,生成政策解读文案、办事指南
金融领域
市场分析报告,生成股票、基金的趋势分析
个性化理财建议,根据用户财务状况生成定制化理财方案
市场分析报告,生成股票、基金的趋势分析
个性化理财建议,根据用户财务状况生成定制化理财方案
4.7 拓展知识
AI生成技术进展
视频生成
3D技术
模型优化
企业/机构AI布局
终端/开源 终端/开源:李未可WAKE-AI(多模态终端)、DeepSeek-R(腾讯技术底座)
百度:多智能体大模型、“AI儿科医生”(居家医疗)
百度:多智能体大模型、“AI儿科医生”(居家医疗)
AI人才动态
全球AI top100 首年1亿美元薪资邀华人研究员(赵最佳等)
Meta挖角 华人占主力(何恺明、张祥雨等)
市场与产品数据
快手可灵AI:2200万用户、1.68亿视频+3.44亿图片
- Anysphere:ARR破5亿美元(AI coding)
- 中国AIGC市场:2025年257亿元→2030年破万亿
- Anysphere:ARR破5亿美元(AI coding)
- 中国AIGC市场:2025年257亿元→2030年破万亿
行业关键变量
2025定位:大模型应用落地元年
挑战:人才争夺、算力瓶颈、伦理挑战
挑战:人才争夺、算力瓶颈、伦理挑战
4.1
大模型的定义与核心思想
1.大模型发展历史:2017年由Google提出Transformer结构,为大模型奠定基础。2018年:OpenAI和Google分别发布GPT-1与BERT,预训练大模型成为NLP主流。2020年:OpenAI推出GPT-3,参数规模达1750亿,引发广泛关注。2021年:中国智源研究院推出"悟道1.0"和"悟道2.0",后者参数达1.75万亿.。2022年:OpenAI推出GPT-3.5和ChatGPT,引入RLHF强化学习。2023年:GPT-4发布,支持多模态处理。2024年:BGE模型登顶Hugging Face下载榜。2025年:DeepSeek-R1、Kimi kl.5等多模态模型发布。
2.什么是大模型:(1)定义:基于深度学习的大模型AI模型,参数数十亿至数万亿,具备强大的自然语言理解,生成和跨领域知识推理能力。(2)核心特点:规模庞大,通用能力突出,架构创新,涌现能力,多模态融合。
3.大模型核心能力:(1)上下文理解(2)泛化能力(3)多任务学习
4.大模型与传统AI区别:(1)规模不同(2)数据不同(3)架构不同
4.2大模型三要素与训练成本
大模型三要素
数据
数据来源
数据预处理
数据质量评估
数据标注
算法
模型架构
训练策划
优化算法
算力
计算资源
分布式训练
硬件选型
大模型训练流程
数据准备
数据采集
数据清洗
数据增强
模型设计
选择结构
超参数设置
初始化
训练与调优
预训练
微调
超参数调整
模型评估与部署
性能评估
安全性评估
部署优化
大模型应用场景
自然语言处理
机器翻译
问答系统
文本生成
计算机视觉
图像分类
目标检测
图像生成
多模态交互
图文生成
语言交互
视频理解
训练成本分析
硬件成本
CPU/TPU采购
服务器搭建
电力消耗
数据成本
数据采集
数据标注
数据存储
人力成本
算法研究
数据标注
运维支持
时间成本
训练周期
调试周期
迭代周期
4.3大模型的特点与分类
大模型的特点
规模庞大
海量参数规模
从早期的数十亿到如今的数千亿甚至万亿级。参数是模型通过数据学习到的 “知识载体”,参数规模的增长直接提升了模型对复杂模式的捕捉能力。
超大规模训练数据
为支撑参数学习,大模型需在海量文本数据上训练,涵盖书籍、网页、论文、对话等多领域内容,数据量通常达到万亿词级。这种 “广而杂” 的数据覆盖,让模型能掌握跨领域知识,具备更强的泛化能力。
强大的通用能力
人类语言的深度理解和流畅生成
能完成翻译、摘要、写作、对话等任务,且输出内容符合语法规则和语境逻辑,接近人类表达习惯。
多任务泛化性
与传统 “单任务模型” 不同,大模型通过预训练 + 微调模式,无需针对每个任务重新训练,就能快速适配新场景。例如,一个预训练好的大模型,既能回答科学问题,也能写邮件、解数学题,甚至辅助编程。
一定的逻辑推理能力
随着规模提升,大模型逐渐具备一定的逻辑推理能力,能处理数学证明、因果分析、多步骤问题拆解等任务。同时,它能整合不同领域的知识
依赖 “预训练 + 微调” 的技术范式
预训练阶段
在通用数据上进行无监督学习,让模型掌握语言规律和基础常识,形成 “通用知识底座”。
微调阶段
通过特定领域数据(如医疗、法律)或任务指令(如 “生成摘要”“客服对话”)进行针对性训练,优化模型在具体场景的表现。
涌现能力
当模型规模和数据量达到临界点后,会 “涌现” 出小模型不具备的能力,例如复杂推理、零样本学习,多语言翻译等。这种 “量变到质变” 的特性,是大模型区别于传统 AI 的核心标志之一。
“黑箱” 特性与潜在局限
决策过程不透明
大模型的推理过程是基于海量参数的复杂计算,无法像传统算法那样清晰解释 “为什么得出这个结论”,存在 “黑箱” 特性。这导致其在需要可解释性的场景(如医疗诊断、法律判决)中应用受限。
幻觉现象
模型可能生成看似合理但与事实不符的内容,例如编造不存在的文献、错误的历史事件等。这是由于模型本质是 “预测下一个词的概率”,而非真正理解事实,当训练数据中存在噪声或知识冲突时,容易出现此类问题。
计算资源依赖度高
训练和运行大模型需要巨额的硬件投入、能源消耗和存储资源,成本极高。例如,GPT-3 的训练成本数百万美元,而更大规模的模型成本可达数千万甚至上亿美元,这使得大模型研发门槛集中在少数科技巨头手中。
动态进化
持续学习与迭代
大模型具有通过持续迭代优化能力。一方面,开发者会通过 “指令微调”“人类反馈强化学习(RLHF)” 等技术,优化模型的对齐性(如更符合人类价值观)、安全性(减少有害输出);另一方面,部分模型支持 “增量训练”,通过新技术更新知识,避免因训练数据过时导致的 “知识滞后”(如了解最新事件、技术进展)。
大模型的分类维度
按模型规模与参数数量划分
小模型
中型模型
大型模型
超大型模型
按技术架构与模型类型划分
Transformer 架构模型:目前主流大模型均基于 Transformer 架构(自注意力机制),如 GPT 系列(decoder-only)、BERT(encoder-only)、T5(encoder-decoder)。特点:通过自注意力机制捕捉文本长距离依赖关系,是自然语言处理(NLP)大模型的 “标准架构”
多模态模型:支持处理文本、图像、音频、视频等多种模态数据,如 GPT-4V、Gemini、文心一言(多模态版)、Midjourney(文本生成图像)。特点:突破单文本限制,可实现 “图文理解”“音视频分析” 等跨模态任务,应用场景更广泛。
专用架构模型:针对特定任务优化的架构,如 MoE(混合专家模型,如 GPT-4、DeepMind GLaM)、稀疏激活模型。特点:通过 “激活部分参数” 提升效率,在保持大模型能力的同时降低计算成本。
按训练目标与能力定位划分
通用大模型:以 “全领域通用能力” 为目标,可处理文本生成、问答、翻译、代码等多种任务,如 GPT-3/4、豆包、智谱清言、Kimi。特点:适用场景广泛,无需针对单一任务深度优化,主打 “一站式解决多种需求”。
垂直领域大模型:针对特定行业或任务训练,聚焦某一领域的专业能力,如医疗大模型(如医疗问诊)、法律大模型(如北大法宝、律舟大模型)、代码大模型(如 CodeLlama、DeepSeek-Coder)。特点:在垂直领域的知识深度、准确性远超通用模型,需结合领域数据微调,解决专业场景问题(如医疗诊断、合同分析)。
任务专用模型:针对单一任务优化,如摘要生成模型(如 BART)、情感分析模型(如 DistilBERT 微调版)、图像生成模型(如 Stable Diffusion)。特点:在特定任务上效率更高、效果更佳,但通用性极差。
按部署方式与访问形式划分
云端大模型:部署在云端服务器,用户通过 API 接口访问(如 OpenAI 的 GPT 系列、Anthropic 的 Claude、文心一言 API)。特点:依赖云端算力,用户无需本地硬件资源,但受网络稳定性和服务商限制,数据隐私依赖第三方保障。
开源大模型:模型权重开源,允许用户本地部署、修改和二次训练,如 LLaMA 系列、Mistral、Qwen(通义千问开源版)。特点:灵活性高,可本地化部署(保障数据隐私),但对用户硬件资源和技术能力有要求。
轻量化 / 边缘大模型:通过模型压缩(如量化、剪枝)适配边缘设备(如手机、物联网设备),如 GPT-4 量化版、华为盘古边缘版。特点:低延迟、低功耗,适合离线场景,但能力通常弱于完整版模型。
按训练数据与知识覆盖划分
通用知识模型:训练数据涵盖书籍、网页、论文、新闻等通用领域内容,知识覆盖广泛但深度有限,如 ChatGPT、豆包。
专业知识模型:训练数据以某一专业领域的文献、数据为主(如医学论文、法律条文、工程手册),如 PubMedGPT(医疗)、LawGPT(法律)。
实时知识模型:支持接入实时数据(如联网搜索、数据库更新),可获取最新信息,如 New Bing(结合搜索引擎)、Kimi(支持实时联网)。特点:解决传统大模型 “知识滞后” 问题,能响应最新事件或动态
按技术归属与研发主体划分
巨头自研模型:由科技巨头研发,依托雄厚资源和技术积累,如 OpenAI(GPT 系列)、谷歌(Gemini)、微软(Azure OpenAI)、百度(文心一言)。
创业公司模型:由 AI 创业公司研发,聚焦特定技术或场景,如 Anthropic(Claude)、DeepSeek(深度求索)、智谱 AI(智谱清言)。
学术机构模型:由高校或科研机构研发,侧重技术探索,如斯坦福大学(Alpaca)、清华大学(ChatGLM)。
地域划分:国产大模型(豆包)、国外大模型(GPT )。
0 条评论
下一页