AI | 虚拟数字人之下的交互革命

2020-02-26 20:02:19

来源：刘国辉 AIM人工智能学院

[导读：近日，前沿技术情报所最新发布的文章，全方位展现中国虚拟数字人当下的发展图景、应用现状、优势与瓶颈。本文为节选缩减版，为您畅享未来。]

三星旗下STAR Labs展示了其设计的虚拟数字人NEON，受到高度关注。这些虚拟数字人与真人的外在表现无异，竟然是AI学习的结果。据介绍，NEON具备共情能力，能够真正理解人类的想法。通过机器学习累计的数据和能力，他们会进化得更像现实生活中的演员、发言人、电视主播等。

不过，NEON学得最好的还是人类的表情动作，至于说智能化水平，就一言难尽了。NEON首席执行官Pranav Mistry第一次现场展示时，甚至出现了数次宕机，以至于演示无法继续。而在国内，已有不少公司就在做虚拟数字人了，甚至在全国的疫情防控方面，也有了虚拟数字人的身影。

为什么我们需要研发看起来跟真人没啥区别的虚拟数字人呢？

虚拟数字人应用五花八门

国内已经开始使用虚拟数字人的领域：

有银行在网点设置大屏，屏里的数字人做导向、咨询的工作，有点像数字化的大堂经理；

银行APP也打算用数字人来承担理财顾问的角色；

线上泛娱乐是一块重要市场，想必大家已经上见过一些虚拟主持人，百度、科大讯飞、搜狗、创业公司如魔珐科技等都推出过类似产品。

虚拟数字人目前在功能上略显稚嫩，但不能以现在的能力来评判未来，数字人不仅带来一种新的界面，更是带来一种新的交互方式。虚拟数字人看上去就是用三维视觉感知、3D建模等技术塑造出比较逼真的形象，用语音识别、语音合成、自然语言处理等技术让数字人初步具备一些交互能力。

在应用上，虚拟数字人有线上线下之分：

在线下，虚拟数字人可以在政府部门、医院、银行、消费场所等场景里提供简单的客服功能；在线上，虚拟数字人还有个典型的场景是泛娱乐，如虚拟主持人、主播、模特等。虚拟数字人第一个市场一定是泛娱乐，以数字人为依托生产内容，比如进行虚拟直播、短视频、综艺秀等，所有的内容是导演策划好的，不需要全智能。此外，数字人在线上还可以提供一种新的交互方式，以前是人与网站、APP界面交互，此后，用户可以直接跟数字人交互。或是在泛娱乐或者教育等场景来提供一个拟人的形象，代替真人来表演或者教学。

当然，现在数字人的交互也还很机械：以北京互联网法院为例，依然是用户查找各种版面寻找需要的信息，虽然有数字人，也只是按照预设程序来播放。比如想要了解著作权信息，点击之后由数字人在视频中讲解。

哪些领域更适合落地？

虚拟数字人是一项新兴技术，商业模式还在探索之中。比较明确的是虚拟数字人可在手机、智能家居等场景下成为每个人专属虚拟助手以及情感陪伴，也可以在企业成为虚拟数字员工，帮助企业升级智能化无人办公，还可以成为新闻、游戏解说、网红等虚拟主播。

虚拟数字人在泛娱乐领域需求会比较明确。利用虚拟数字人可以解决影视和游戏、短视频等内容制作中效率低、产能低、质量低的痛点，至今这些领域在国内基本仍属于劳动密集型的手工作坊制作。其次，增量市场比如虚拟直播和虚拟偶像，可以连续直播、连续表演，这个事情，泛娱乐领域的大公司都想做。在其他领域，虚拟数字人主要解决降本增效的问题。全智能虚拟数字人不是要去替代人，也不一定要做得比人好，它更多是解决有限人力，以及人不能24×7工作的问题。另外，全智能虚拟数字人可以把以前的语音客服进行升级，从语音交互升级成多模态交互。

判断哪些领域会适合虚拟数字人的应用，可以从三个角度去考量：对交互的需求、对形象的需求、对体验的需求。某些行业特别适合图文并茂跟用户交互信息的，而且需要的信息量没有那么大，不是十轮、二十轮那种对话，都可以用虚拟数字人来提供服务。

重内容轻交互的领域是最先应用的一类，像虚拟老师大部分时间在讲课。泛娱乐领域的虚拟数字人大部分时间在表演，交互很少，应用起来会更早期；另一类是不需要很强的知识库，比如一家公司以前介绍自己更多是通过官网，现在可以有虚拟数字人图文并茂解释。

对于专业性比较强的领域，或者通用的领域，虚拟数字人的应用可能不会那么乐观。越是专业、通用、强交互的场景，在当下的技术条件下，越不适合做虚拟数字人。

虚拟数字人面临的拷问

现在虚拟数字人应用正在起步，三星、百度、腾讯等大厂都有产品问世，应用也在一点点落地，显示这个新兴领域正在受到越来越多的关注，但虚拟数字人想要大行其道，还有经过几番试炼。

落地场景一定需要形象吗？

首先，虚拟数字人背后是AI，真的需要做出一个真人的形象吗？以虚拟老师为例，有一个数字形象来播放课程，跟没有数字形象的视频相比，对教学效果有什么效率提升吗？

这涉及到项目落地的必要性问题。从客户的角度看，你的产品可能对我有一定价值，但我对你的产品没有达到非用不可的程度，这时候落地就比较难，即使能落地，产品也卖不上价。

没有一个交互的提升是必须的，一种新应用要替代原有方式，必须能做到一旦有了这个交互后，用户不愿意回到原来的方式。那么，数字人怎么跟所有的图文信息、数字答疑、视频结合起来，让用户感到这种提供信息的方式是最方便的，这是业界需要解决的问题。

综合来看，虚拟数字人的交互相比原有的APP交互是否更舒服更顺畅，还有待于市场检验。毕竟，人们对现有的交互方式黏性很高，想要替换是比较难的。就像人们已经熟悉了二维码支付，现在让人去体验刷脸支付，即使是微信支付宝这样的重量级玩家去推，也显得很难。想要替换原有的交互方式，虚拟数字人就要显示出更明显的价值来，吸引客户来付费。这当然要技术的进步，更重要的是产品能够更贴近客户的场景。

写实是数字人的趋势吗？

其次，就算在一些场景需要一个虚拟形象，但是这个虚拟形象一定是要跟真人一样写实吗，有无必要？

虚拟数字人往往主打真实形象的概念，数字人的形象确实也比一般的动画作品更真实，但跟真人的形象相比还是有差别，真人的眼睛是非常灵动的，而虚拟数字人看起来速率比较慢，面部表情也没有真人那么丰富。其他的肢体动作跟真人比也比较迟缓。这个事情分两个点：一是角色效果会越来越好，它是一个技术加艺术的过程，不是技术做的特别好了，艺术马上就做好了；二是超写实是不是要跟真人一样，也不一定，取决于应用场景。

需要高度智能化吗？

未来数字人的产品趋势是什么，是继续做一个简单的客服，还是通过持续的学习有更强的智能性？

AI虚拟数字人的智能化，需要具备多轮对话的能力，以及各个行业的知识图谱，形成一个庞大的智能知识库，并具备学习能力，这样才能解决各种专业的行业问题。

AI虚拟数字人在应用落地过程中，需要一个强大的AI后台大脑，以及触摸、语音、传感器等多模态交互融合，以达到适用于各种场景下的拟人化交互，帮助人类解决各种问题。然而，虚拟数字人想做到如此，还有很长的路要走。

虚拟数字人适合所有场景吗？

目前看来，并非所有的网站、APP都适合用数字人来做交互，数字人还是更适用于用户有明确需求的场景。比如用户想了解某APP应用，可以让一个虚拟数字人掌握了APP的全部公开资料后，形成知识库，再根据用户的提问去做回答。但对于一个没有明确阅读需求的用户来讲，面对虚拟数字人，可能没有问题去提。但这个人是可以在漫无目的地在APP上看一些文章的。另外，不是每个用户都喜欢用语音来控制，也不是每个场景都适合用语音，像办公室、会议室等场景，用语音驱动虚拟数字人，可能不太合适。

未来，我们会在越来越多的场景里看到虚拟数字人，虚拟数字人会与AI一起，成为技术落地的一环。起初数字人会比较简单，承载已经预设好的内容，比如在很多场合做客服的工作，或者在娱乐领域代替真人表演；如果AI能力进步，在自然语言处理、知识图谱等方面越来越强，虚拟数字人会有更好的交互体验，以及在专业领域形成比较强的替代能力。虚拟数字人未来做到怎样，其实还是要看AI能做成什么样。

[资料来源] 虎嗅Pro