火爆出圈,站上风口的数字人到底是什么“人”
2023-02-15 22:59:50 0 举报
AI智能生成
登录查看完整内容
近两年,国内数字人项目呈现井喷态势,科技巨头集体入场。IDC预计,到2026年 中国AI数字人市场规模将达到102.4亿元。作为时下最热的技术话题,我们判断,开发者 有必要对数字人技术有完整的认知和理解。本专题将首先对数字 人做概要介绍,紧接着围绕数字人的技术、应用落地等维度分别做解读。
作者其他创作
大纲/内容
在元宇宙风潮之下,数字人先火了。
近两年,国内数字人项目呈现井喷态势,科技巨头集体入场。IDC预计,到2026年中国AI数字人市场规模将达到102.4亿元。作为时下最热的技术话题,我们判断,开发者及相关领域人员有必要对数字人技术有完整的认知和理解。
前序
数字人是能和人交流的,在某种程度上是可以环绕在人们周围的一个新角色,它能在我们的生活、社交网络中扮演一个新的角色,而非只是在视频中看到它,也不只是在形象代言的时候看到它。它像是我们的一个好朋友,可以和人交流,或者它是银行的客户经理,汽车里的智能助理,人可以和它交流……这就是我们所定义的数字人——即AI Being。相比之下,前两类数字人的外在是虚拟的,AI Being不只外在是虚拟的,更强调内在能够自驱。
交互和自驱方向的虚拟人是一个像人一样的实例,即Instance,Instance知道自己应该怎样说话和交流。有了这样的能力后,再赋予它一个外形,无论是通过3D建模或其他方式构建的,只要有声音交互,就知道它是一个拟人的、独立的实体。
小冰公司CEO李笛
数字人就是具备人类的外形和行为的数字化载体。
从广义上看
它是一类新的内容和交互载体
从场景的角度
它是元宇宙中的一类核心的交互和内容载体
更长远来看
做服务的
做内容的
通过场景分类
2D卡通
3D超写实
3D写实
3D半写实
3D卡通
通过风格分类
数字人的分类
百度数字人与机器人业务负责人李士岩
如果请您用通俗的语言,来阐述什么是数字人,您会如何描述;虚拟数字人目前在业内达成共识的、相对权威的定义是什么?
首先,整个市场的流量红利正在逐渐消减,交互正在越来越深化。当你每天在N多个APP上交互,和更多的人进行交互……我们就会越来越难以承载这样的交互。因此,很多场景需要用人工智能来代替人做出社交决定。
数字人本质就是一条被技术驱动的赛道。
从最早的没有交互能力,完全卡通化的阶段发展到现在人像具有多种风格,能被AI驱动,可以24小时与用户对话的阶段,本质上是技术在助推。由于技术发展到了可以向场景中应用的阶段,再加上客户以及用户的旺盛需求,他们“握手”到一起,促成了这一波数字人的行业热潮。
近两年,数字人十分火热,成为新晋技术热词。为什么是这样一个时间点,数字人火了起来?
虚拟人,简单来说,如果用一个数码绘图版,在iPad里画了一个二次元的、2D的人,这个人就是虚拟人,它是拟人的,有眼睛、鼻子、嘴巴就可以。虚拟人强调外在,且只要有外在就可以了。
例如一个真人演员身上绑定了VR头显来控制前台的人,人在屏幕上看到是一个虚拟数字人正在动,它不一定是AI自驱的,它说的每一句话都可能是后面那个真人所说的,可以简单理解为它没有大脑。
数字指的是,它一定要有某种形式的行为,如某种形式的运动,这个行为在一定程度上可以自驱。
在虚拟人表象外之上,加了一个数字的概念
虚拟数字人
数字人的表述是最准确的,因为它是真正的由AI驱动的,数字人的声音是AI生成的,驱动数字人说话的文本也是AI生成的。
数字人是一个完全后端自驱的形象
三个概念本身是包含关系
倾向于将它叫作数字人,希望它通过数字化的形式来服务于企业的内容生产、营销等维度
数字人是大的数字化浪潮下的一个分支。
虚拟人的定义更多在强调非实体化的概念。
虚拟数字人,数字人,虚拟人,这三个概念常常容易混淆,这三者之间的关联和区别是什么?
元宇宙是一种独特的、新的虚拟空间,虚拟空间和现实世界是互相对应的世界。我们所认为的AI Being存在于虚拟空间中,人类也在这个空间里。人不可能一直在元宇宙里,还是要把头显摘下来,回到客厅等现实空间,这时,客厅的智能设备也在。
数字人不局限于任何一个空间,元宇宙是它存在的其中一个空间。
数字人是元宇宙里一类非常重要的互动载体、内容载体以及服务载体。
数字人是元宇宙带火的第一个概念。元宇宙被认为是下一个互联网的范式,而现在元宇宙未至,数字人先行,数字人在元宇宙里,扮演的角色是什么?
实现自驱,人工智能才有意义
一是后台的Soul上,如何用AI技术表达其所想表达的东西;
数字人的表情、声音等是不是AI生成的。
二是Body
人工智能主要在数字人的两个部分上体现
人工智能
如在NLP领域,有人坚持封闭域,我们一直坚持的是全领域,数字人能很好地像一个人一样与其他人聊天。
自然语言处理
现在看到的3D虚拟人,主要通过建模的方式来实现
一个是CG
神经网络渲染基于的理念是,透涉到视网膜上的成像就是看到的世界,跳过了构建的中间步骤,它足够拟真,但因为没有经过建模过程,会让人有种空落落的感觉。去年,神经网络渲染跟3D建模技术相比还有很多差异,但到现在已经逐渐加速。现在很多应用把3D建模技术与渲染技术结合在一起使用。
神经网络渲染方向
计算机视觉
智能语音
技术
数字人
可能并不是真的需要人工智能,比如运营IP,台前的虚拟偶像可能说的每句话背后都是“中之人”控制,它不具有自驱性,人工智能对它来说意义不大。
3D为主的虚拟人
AI是最核心的技术
数字人和数字资产的生成
数字人的智能互动
通过数字人智能驱动来生产内容
数字人最核心的几个技术节点
构建数字人制作流程复杂,所涉及的的核心技术包括哪些?其中,AI技术是不是最为核心的技术?
前面有个“Body”,后面用动捕把“Body”驱动起来,某种程度上,这个“Body”就只是一个壳子。“Body”由“中之人”掌控。它强调的是驱动,不是自驱。这种模式的难点是,如何用技术把“中之人”砍掉,让“Body”不要呈现出“中之人”的影子和特征。这样,即便原有的“中之人”被换掉,也不会影响到用户。
虚拟偶像
这种模式的难点是,如何降低成本。
动画类虚拟人通常是真人拍摄,然后把人脸换了,注重剧情。
要想做一个超写实数字人,做好渲染,时间成本和人力成本都很高,可能一秒钟就要几万元。制作成本超过使用真人演员,内容回收成本也低于真人演员,难以形成可持续的制作模式。因此,现在业内会采用超写实虚拟人的3D建模技术,以更快、更低成本地采用数字人。
难点往往不在于前端,也不在于由真人驱动,而是在于AI如何实现自驱。
现阶段,构建数字人的技术难点是什么?
万科集团年度优秀员工“崔筱盼”题
红杉中国首位虚拟分析师“Hóng”
每日经济新闻虚拟主播“N小黑”和“N小白”等
小冰公司中标的2025日本大阪世博会的项目,届时小冰框架将会创造60万个不同个性的虚拟人“陪护者”,进入老年家庭,提供24小时不间断地陪伴。
现阶段数字人在企业的Marketing部门应用较多,主要基于品牌宣传的目的
提供情感价值
提供员工价值
提供专家价值
数字人的应用价值体现在三方面
数字人在企业中的落地速度越来越快,企业应用数字人的数量上的增长速度可能已经超过了50%以上。
浦发做的数字人小浦
北京冬奥会我们的AI手语数字人
央视网打造数字主播小C
以多个“数字人分身”同时服务数十上百家博物馆,提供讲解、导览、主持对话、直播等服务
文博虚拟宣推官“文夭夭”
数字人在行业的收入规模增速也在加快
中国日报打造了首位数字员工“元曦”
数字人在一些如直播带货、企业服务等垂类场景的渗透率会有大幅提升,因为,在这些场景的数字人产品正在逐步走向成熟,成本大幅降低,应用的门槛也越来越低。但例如趋势性内容的生产,这个领域可能还需要1—2年的时间继续做技术攻关和打磨。概括起来看,在细分场景内的渗透率在一年之内将会有非常高的增长,有一些场景还存在技术制约,需要技术不断突破。
数字人的应用场景主要有哪些?目前应用企业和场景是否比较有限?数字人如果要实现大规模的落地存在的制约因素是什么?距离大规模落地大概多长时间?
内容产业是一个强交互和强沟通的市场
有观点提出来应该走大模型,一方面是大模型的确在质量上有提高,第二是在某些地方如果用大模型会比用小模型要好。
当对相关性要求高的交互场景,如和金融领域的数字人交流,客户要求较高,这时,用大模型要比用小模型强,但用大模型,交互成本很高,交互周期较久。
大模型的参数规模大,但时间和金钱成本也很高。
日常情况交流过程或者简单的对话系统,自然小模型更为适合。
认为未来的趋势一定是混合的解决方案
他们各有优劣势,而不是一个新旧取代的过程。
如果要做的是一个庞大的系统,必然面临把模型组织在一起,核心问题在于如何能够很好地融合。未来, AI Being这类数字人将逐渐采用融合型的模型方案。
大模型和小模型不是“新时代”和“旧时代”的类比
横的方向上是信息的种类、图文影音,由图文音向影逐步地过渡得越来越好
在纵向的发展上,每个信息的维度都有可纵向发展的空间
AIGC会呈现一横一纵的趋势发展
AIGC的内容更多是基于文本、音乐和静态图像为主,图文影音这四大信息有种类会进一步拓展,既在深度上扩展,也会在宽度上扩展。
看好并比较确定这一趋势,因为三维内容的生产成本和三维内容的需求量间已有了非常大的矛盾,现在生产的效率不能满足需求量,我们认为一个非常有效的解决路径就是AIGC。
我们的观察,尤其是AIGC相关的技术,在数字人模型的智能生产和内容的智能生产这两个维度,我们确实看到了大模型的优越性。因为它生产的内容更接近于用户输入的描述,生产的种类更多、更丰富,具有更好的扩展性。就我们目前看到的现象来讲,我们认为大模型更好。
逐渐向着表演类和叙事类的深水区迈进
生成式AI 最近爆火,您如何看待生成式AI 的发展以及生成式AI 在数字人上的应用?生成式AI 背后依靠大模型, 业内也有一些厂商在采用小模型的方案,您认为是大模型还是小模型更适合?
大模型更好
AI技术本身很难商业化变现,所以价值系统集成是一个显著代表的路径
系统集成路线
在硬件里体现软件
软硬结合
市场先后走到了几个误区
AI Being最重要的特点就是无处不在,开车时它也在,回家时它也在,玩游戏时它也在……如果把它实体化了,它的实体在哪它就在哪,它的实体不在了,就削减了它作为AI自身的优点。
利用数字人的高并发能力去做标准化的交付,纯软件的模式。
AI Being的高附加值以及可拓展性是它的收入来源
只用一个模型落地显然不可能,这也是AI落地难的原因之一
框架得完备
AI的能力往往有过高或过低的估计,总之这种估计不准,会导致将它收敛成的产品或解决方案真正能用起来比较难。
此外,需求本身千变万化
两个先决条件
谈到落地的制约因素
内容生产的的特征是场景是收敛的,一旦这个场景特征是收敛的,它就一定会向标准化的产品发展,对于标准化的产品,一个最合理的商业模式就是与客户共赢,就是SaaS化
SaaS
只有在这个场景下,才能够将数字人的技术具体地深入应用到具体的行业里,才能够让数字人在垂类的行业里产生更多价值。与此同时,也通过这种商业化的形式与企业一起来锤炼某个细分领域内的数字人最核心的技术。
数字人核心技术在不同领域内扎根、深耕应用的场景下的企业定制化服务
订阅制
将会成为数字人行业爆发的主流范式
数字人应用价值体现的一个很重要的场是内容生产
本质
从行业全局的角度看,数字人如何实现商业化,其可行的盈利模式有哪些?现阶段数字人要实现这种大规模的落地还有哪些制约因素?
基于IP运营
动画制作
AI Being
发展方向
市场确实存在一些需求,这种需求最好是广泛的需求,而不是专用的需求,以前我们利用AI赋能各行业,常把AI锁定在不同的垂直领域,比如医疗AI、金融AI...把AI细分到垂直领域的方向很难让AI通用化起来。另外一个趋势是普及,让AI Being更多出现在人们周围。
接下来会朝着通用化的趋势发展
国内和国外现在的发展阶段都差不多,没什么差别,甚至在某些使用领域,国内比国外发展还快,差距在于原生的创新是由谁驱动的,国内的原生创新推动还是不足。
服务场景
国外发展更多的是在演艺场景
演艺场景
两大场景
通过不断降低服务门槛,加快交付效率,数字人在文娱、金融、广电等行业的渗透率,一定会逐步提升。
两个场景在国内发展地更快
目 前在国内外,数字人发展到什么阶段了?国内和国外的发展情况有什么不同?如何看待其在接下来3-5 年的发展趋势?
十问数字人
火爆出圈,站上风口的数字人到底是什么“人”?
0 条评论
回复 删除
下一页