火爆出圈,站上风口的数字人到底是什么“人”
2023-02-15 22:59:50 1 举报
AI智能生成
近两年,国内数字人项目呈现井喷态势,科技巨头集体入场。IDC预计,到2026年 中国AI数字人市场规模将达到102.4亿元。作为时下最热的技术话题,我们判断,开发者 有必要对数字人技术有完整的认知和理解。本专题将首先对数字 人做概要介绍,紧接着围绕数字人的技术、应用落地等维度分别做解读。
作者其他创作
大纲/内容
前序
在元宇宙风潮之下,数字人先火了。
近两年,国内数字人项目呈现井喷态势,科技巨头集体入场。IDC预计,到2026年<br>中国AI数字人市场规模将达到102.4亿元。作为时下最热的技术话题,我们判断,开发者<br>及相关领域人员有必要对数字人技术有完整的认知和理解。
十问数字人
如果请您用通俗的语言,来阐述什么是数字人,您会如何描述;虚<br>拟数字人目前在业内达成共识的、相对权威的定义是什么?
小冰公司CEO李笛
数字人是能和人交流的,在某种程度上是可以环绕在人们周围的一个新<br>角色,它能在我们的生活、社交网络中扮演一个新的角色,而非只是在视频中看到它,<br>也不只是在形象代言的时候看到它。它像是我们的一个好朋友,可以和人交流,或者它<br>是银行的客户经理,汽车里的智能助理,人可以和它交流……这就是我们所定义的数字<br>人——即AI Being。相比之下,前两类数字人的外在是虚拟的,AI Being不只外在是虚拟<br>的,更强调内在能够自驱。<br>
交互和自驱方向的虚拟人是一个像人一样的实例,即Instance,Instance<br>知道自己应该怎样说话和交流。有了这样的能力后,再赋予它一个外形,无论是通过3D<br>建模或其他方式构建的,只要有声音交互,就知道它是一个拟人的、独立的实体。
百度数字人与机器人业务负责人李士岩
从广义上看<br>
数字人就是具备人类的外形和<br>行为的数字化载体。
从场景的角度
它是一类新的内容和交互载体
更长远来看<br>
它是元宇宙中的一类核心的交互和内容载体
数字人的分类
通过场景分类
做服务的
做内容的
通过风格分类
2D卡通
3D超写实
3D写实
3D半写实
3D卡通
近两年,数字人十分火热,成为新晋技术热词。为什么是这样一个<br>时间点,数字人火了起来?
小冰公司CEO李笛
首先,整个市场的流量红利正在逐渐消减,交互正在<br>越来越深化。当你每天在N多个APP上交互,和更多的人进行交互……我们就会越来越难<br>以承载这样的交互。因此,很多场景需要用人工智能来代替人做出社交决定。
百度数字人与机器人业务负责人李士岩
数字人本质就是一条被技术驱动的赛道。
从最早的没有交互能力,完全卡<br>通化的阶段发展到现在人像具有多种风格,能被AI驱动,可以24小时与用户对话的阶段,<br>本质上是技术在助推。由于技术发展到了可以向场景中应用的阶段,再加上客户以及用<br>户的旺盛需求,他们“握手”到一起,促成了这一波数字人的行业热潮。
虚拟数字人,数字人,虚拟人,这三个概念常常容易混淆,这三者<br>之间的关联和区别是什么?
小冰公司CEO李笛
三个概念本身是包含关系
虚拟人,简单来说,如果用一个数码绘图版,在iPad里画了一个二次元的、2D的人,这个人就是虚拟人,它是拟人的,有眼睛、鼻子、嘴巴就可以。虚拟人强调外在,且只要有外在就可以了。<br>
虚拟数字人
在虚拟人表象外之上,加了一个数字的概念
数字指的是,它一定要有某种形式的行为,如某种形式的运动,这个行为在一定程度上可以自驱。
例如一个真人演员身上绑定了VR头显来控制前台的人,人在屏幕上看到是一个虚拟数字人正在动,<br>它不一定是AI自驱的,它说的每一句话都可能是后面那个真人所说的,可以简单理解为它没有大脑。
数字人是一个完全后端自驱的形象
数字人的表述是最准确的,因为它是真正的由AI驱动的,数字人的声音是AI生成的,驱动数字人说话的文本也是AI生成的。
百度数字人与机器人业务负责人李士岩
倾向于将它叫作数字人,希望它通过数字化的形式来服务于企业的内容生产、营销等维度<br>
数字人是大的数字化浪潮下的一个分支。
虚拟人的定义更多在强调非实体化的概念。
数字人是元宇宙带火的第一个概念。元宇宙被认为是下一个互联网<br>的范式,而现在元宇宙未至,数字人先行,数字人在元宇宙里,扮演的角色是什么?
小冰公司CEO李笛
数字人不局限于任何一个空间,元宇宙是它存在的其中一个空间。
元宇宙是一种独特的、新的虚拟空间,虚拟空间和现实世界是互相对应的世界。<br>我们所认为的AI Being存在于虚拟空间中,人类也在这个空间里。人不可能一直在元宇宙<br>里,还是要把头显摘下来,回到客厅等现实空间,这时,客厅的智能设备也在。
百度数字人与机器人业务负责人李士岩
它是长在空间计算平台上的新的互联网,那<br>显然,它首先必须要基于一个空间计算平台。当空间计算平台在用户内部的渗透率,或<br>者出货量达到一定的规模,才存在长在它之上的互联网的基础。
数字人是元宇宙里一类非常重要的互动载体、内容载体以及服务载体。
构建数字人制作流程复杂,所涉及的的核心技术包括哪些?其中,AI<br>技术是不是最为核心的技术?
小冰公司CEO李笛
数字人
人工智能
实现自驱,人工智能才有意义
人工智能主要在数字人的两个部分上体现
一是后台的Soul上,如何用AI技术表达其所想表达的东西;
二是Body
数字人的表情、声音等是不是AI生成的。
技术
自然语言处理<br>
如在NLP领域,有人坚持封闭域,我们一直坚持的是全领<br>域,数字人能很好地像一个人一样与其他人聊天。
计算机视觉
一个是CG<br>
现在看到的3D虚拟人,主要通过建模的方式来实现
神经网络渲染方向
神经网络渲染基于的理念是,透涉到视网膜上的成像就是看到的世界,跳过了构建<br>的中间步骤,它足够拟真,但因为没有经过建模过程,会让人有种空落落的感觉。去年,<br>神经网络渲染跟3D建模技术相比还有很多差异,但到现在已经逐渐加速。现在很多应用<br>把3D建模技术与渲染技术结合在一起使用。
智能语音
3D为主的虚拟人
可能并不是真的需要人工智能,比如运营IP,台前的虚拟偶像可能说的每句话背后都是“中<br>之人”控制,它不具有自驱性,人工智能对它来说意义不大。
百度数字人与机器人业务负责人李士岩
AI是最核心的技术
数字人最核心的几个技术节点<br>
数字人和数字资产的生成
数字人的智能互动
通过数字人智能驱动来生产内容
现阶段,构建数字人的技术难点是什么?
小冰公司CEO李笛
虚拟偶像
前面有个“Body”,后面用动捕把“Body”驱动起来,某种程度<br>上,这个“Body”就只是一个壳子。“Body”由“中之人”掌控。它强调的是驱动,不<br>是自驱。这种模式的难点是,如何用技术把“中之人”砍掉,让“Body”不要呈现出<br>“中之人”的影子和特征。这样,即便原有的“中之人”被换掉,也不会影响到用户。
动画类虚拟人通常是真人拍摄,然后把人脸换了,注重剧情。
这种模式的难点是,如何降低成本。
要想做一个超写实数字人,做好渲染,时间成本和人力成本都很高,可<br>能一秒钟就要几万元。制作成本超过使用真人演员,内容回收成本也低于真人演员,难<br>以形成可持续的制作模式。因此,现在业内会采用超写实虚拟人的3D建模技术,以更快、<br>更低成本地采用数字人。
虚拟数字人
难点往往不在于前端,也不在于由真人驱动,而是在于AI如何实现自驱。
百度数字人与机器人业务负责人李士岩
通过数字人智能驱动来生产内容
数字人和数字资产的生成
数字人的智能互动
数字人的应用场景主要有哪些?目前应用企业和场景是否比较有限?<br>数字人如果要实现大规模的落地存在的制约因素是什么?距离大规模落地大概多长时间?<br>
小冰公司CEO李笛
万科集团年度优秀员工“崔筱盼”题
红杉中国首位虚拟分析师“Hóng”
每日经济新闻虚拟主播“N小黑”<br>和“N小白”等
小冰公司中标的2025日本大阪世博会的项目,届时小冰框架将会创造60万个不同个性的虚拟人“陪护者”,进入老年家<br>庭,提供24小时不间断地陪伴。
现阶段数字人在企业的Marketing部门应用较多,主要基于品牌宣传的目的
数字人的应用价值体现在三方面
提供情感价值
提供员工价值
提供专家价值
百度数字人与机器人业务负责人李士岩
数字人在企业中的落地速度越来越快,企业应用数字人的数量
上的增长速度可能已经超过了50%以上。
浦发做的数字人小浦
北京冬奥会我们的AI手语数字人
央视网打造数字主播小C
文博虚拟宣推官“文夭夭”
以多个“数字人分身”同<br>时服务数十上百家博物馆,提供讲解、导览、主持对话、直播等服务
中国日报打造了首位数字员工“元曦”<br>
数字人在行业的收入规模增速也在加快
数字人在一些如直播带货、企业服务等垂类场景的渗透率会有大幅提升,因为,<br>在这些场景的数字人产品正在逐步走向成熟,成本大幅降低,应用的门槛也越来越低。<br>但例如趋势性内容的生产,这个领域可能还需要1—2年的时间继续做技术攻关和打磨。<br>概括起来看,在细分场景内的渗透率在一年之内将会有非常高的增长,有一些场景还存<br>在技术制约,需要技术不断突破。
生成式AI 最近爆火,您如何看待生成式AI 的发展以及生成式AI 在数字<br>人上的应用?生成式AI 背后依靠大模型, 业内也有一些厂商在采用小模型的方案,<br>您认为是大模型还是小模型更适合?
小冰公司CEO李笛
内容产业是一个强交互和强沟通的市场
有观点提出来应该走大模型,一方面是大模型的确在质量上有提高,第二是在某些地方如<br>果用大模型会比用小模型要好。
但为什么会存在争论?,因为有些地方用小模型要比用大模型要好,而没有绝对的完美,
认为未来的趋势一定是混合的解决方案
大模型的参数规模大,但时间和金钱成本也很高。
当对相关性要求高的交互场景,如和金融领<br>域的数字人交流,客户要求较高,这时,用大模型要比用小模型强,但用大模型,交互<br>成本很高,交互周期较久。
日常情况交流过程或者简单的对话系统,自然小模型更为适合。
大模型和小模型不是“新时代”和“旧时代”的类比
他们各有优劣势,而不是一个新旧取代的过程。
如果要做的是一个庞大的系统,必然面临把模型组织在一起,核心问题在于如何能够很<br>好地融合。未来, AI Being这类数字人将逐渐采用融合型的模型方案。
百度数字人与机器人业务负责人李士岩
AIGC的内容更多是基于文本、音乐和静态图像为主,图文影音<br>这四大信息有种类会进一步拓展,既在深度上扩展,也会在宽度上扩展。<br>
AIGC会呈现一横一纵的趋势发展
横的方向上是信息的种类、图文影音,由<br>图文音向影逐步地过渡得越来越好
在纵向的发展上,每个信息的维度都有可纵向发展<br>的空间
逐渐向着表演类和叙事类的深水区迈进
我们的观察,尤其是AIGC相关的技术,在数字人模型的智能生产和内容的智能<br>生产这两个维度,我们确实看到了大模型的优越性。因为它生产的内容更接近于用户输<br>入的描述,生产的种类更多、更丰富,具有更好的扩展性。就我们目前看到的现象来讲,<br>我们认为大模型更好。
从行业全局的角度看,数字人如何实现商业化,其可行的盈利模式<br>有哪些?现阶段数字人要实现这种大规模的落地还有哪些制约因素?
小冰公司CEO李笛
市场先后走到了几个误区
系统集成路线
AI技术本身很难商业化变现,所以价值系统集成是一个显著代表的路径
软硬结合
在硬件里体现软件
AI Being的高附加值以及可拓展性是它的收入来源
AI Being最重要的特点就是无处不在,开车时它也在,回家时它也在,玩游戏时它也在……如果把它实体化了,它的实体在哪它就在哪,它的实体不在了,就削减了它作为AI自身的优点。
利用数字人的高并发能力去做标准化的交付,纯软件的模式。
谈到落地的制约因素
两个先决条件
框架得完备
只用一个模型落地显然不可能,这也是AI落地难的原因之一
此外,需求本身千变万化
AI的能力往往有过高或过低的估计,总之这种估计不准,会导致将<br>它收敛成的产品或解决方案真正能用起来比较难。
百度数字人与机器人业务负责人李士岩
将会成为数字人行业爆发的主流范式
SaaS
内容生产的的特征是场景是收敛的,一旦这个场景特征是收敛的,它就一定会向标准化的产品发展,对于标<br>准化的产品,一个最合理的商业模式就是与客户共赢,就是SaaS化
订阅制
数字人核心技术在不同领域内扎根、深耕应用的场景下的企业定制化服务
只有在这个场景下,才能够将数字人的技术<br>具体地深入应用到具体的行业里,才能够让数字人在垂类的行业里产生更多价值。<br>与此同时,也通过这种商业化的形式与企业一起来锤炼某个细分领域内的数字人最核心的技术。<br>
目 前在国内外,数字人发展到什么阶段了?国内和国外的发展情况<br>有什么不同?如何看待其在接下来3-5 年的发展趋势?
小冰公司CEO李笛
发展方向
基于IP运营
动画制作
AI Being
接下来会朝着通用化的趋势发展
市场确实存在一些需求,这种需求最好是广泛的需求,而不是专用的需求,以前我们利用AI赋<br>能各行业,常把AI锁定在不同的垂直领域,比如医疗AI、金融AI...把AI细分到垂直领域的<br>方向很难让AI通用化起来。另外一个趋势是普及,让AI Being更多出现在人们周围。
百度数字人与机器人业务负责人李士岩
两大场景
服务场景
演艺场景
国外发展更多的是在演艺场景
0 条评论
下一页