首页 Metaverse 呆兔科技创始人付则宇:用AI数字人引擎拓展数字人的能力边界
呆兔科技创始人付则宇:用AI数字人引擎拓展数字人的能力边界

呆兔科技创始人付则宇:用AI数字人引擎拓展数字人的能力边界

  随着以 GPT 为代表的新一代人工智能技术的出现以及在各行各业的探索与实践。2023年,由映魅咨询主办的DevTalk“开发者说”聚焦在以AI、Metaverse(元宇宙)为代表的技术基础设施以及行业应用中,并邀请在技术、产品、运营等方面的专业从业者进行探讨和分享。

  2023年5月26日下午,由映魅咨询主办的DevTalk“开发者说”新一代AI与行业应用趋势第一站在上海举行。呆兔科技创始人付则宇受邀参与,付则宇毕业于首都师范大学计算机科学专业,在3D数字人领域创业4年,专注于音频驱动数字人动画研究多年。呆兔云数字人肢体动画驱动引擎,凭借音频驱动数字人肢体动画算法,仅通过音频,就能驱动数字人的肢体表达。呆兔以极低的动画生产成本,秒级生产效率,达到主流动作捕捉技术同样的效果。目前,呆兔率先推出动作生成API服务,为AI数字人提供肢体驱动能力

  付则宇就如何拓展AI数字人的能力边界进行了深入的分享与交流。

呆兔科技创始人付则宇

以下是付则宇的分享内容概要:

呆兔科技:AI数字人引擎开发商

  大家好!我是呆兔科技创始人付则宇,呆兔科技是一家AI数字人引擎开发商,我们致力于拓宽AI数字人的能力边界。在2017-2018年间,我们开始进入数字人领域,最早做的是一个加载PPT的数字工具,同时记录音频,讲完课就生成一个跟随PPT同步翻页的数字人视频,后来改进成上传PPT就能直接生成一个视频。2021年之后,我们开始专注于研发如何用音频驱动数字人肢体,使得数字人能够有更多的肢体表达语言,这个研发与应用一直持续到现在。

呆兔科技发展脉络

  过去,AI数字人并不智能,传统技术的没有办法解决AI数字人对话流畅度的问题,甚至有时候AI数字人会“胡说八道”。现在,随着GPT能力的加强,AI数字人产品变得更加智能了。

  呆兔科技致力于拓宽AI数字人的能力边界。目前,团队正在研发新一代AI数字人引擎:融合了文本、音频、表情、肢体等多项基于生成式技术的AI数字人引擎。我们的目标是借助引擎构建AI数字人开放应用生态,让AI数字人成为每一个个体的价值放大器。我们更关注数字人的驱动能力并致力于构建数字人生态系统,以提供更低的成本和更高的效率,给企业和用户带来更多的价值。

数字人行业发展变化

  回顾整个数字人行业,2D数字人被广泛用于电商和营销领域且技术已经达到了上限,而基于3D模型驱动的3D数字人可以自由驱动,潜力很巨大。我们正在尝试与行业内的权威人士合作,共同搭建一个开放的数字人生态系统。

数字人行业变化图(来源:呆兔科技)

  传统的数字人通常依赖于人工生产,随着AI+数字人的出现,可以通过计算机批量产出数字人内容。GPT的出现加速了数字人行业的变革,使得与数字人的对话更加智能,数字人具备了更多动态表现的可能性。过去,数字人行业通常是拼渠道、拼销售,但现在数字人需求更多地来自于产品驱动的市场,如教育场景和服务行业问答场景,这些都是更广泛的C端市场

AI数字人的价值

  近期出现了许多AI数字人工具,但大部分都是2D数字人,无法实现真正的个性化双向沟通。目前的AI数字人标准化程度高,把所有数字人都变得相似无异。

  以前我们只能通过单向输出的方式向外界传递信息,例如文章、音频、图像和视频等,而这些方式无法达到真正的双向沟通。AI数字人理论上可以达到真人的表现程度,在未来可以通过AI数字人来实现双向互动的过程。虽然现在AI数字人的能力还比较有限,但是我们希望可以逐渐提高数字人的各项能力,以实现更好的双向沟通。我们认为:AI数字人的深刻价值是实现规模化的个性双向沟通。每一个AI数字人背后都应该有真人,引擎提供基础能力供用户调教个性人格

呆兔科技AI数字人应用解决方案

  例如,AI教师应该具备每一个老师独特的教学风格和个性,而不是一味地标准化处理。尝试构建出所谓的数字人格,除了那些标准化的驱动,我们可以增加文本生成、音频生成和表情生成等个性化因素来影响数字人的表现和特点,让每一个人可以拥有独一无二的个性人格的AI数字人,以此实现更好的双向沟通和交流,提高用户体验。

个性化AI数字人的场景

  个性化的AI数字人在不同行业和领域都有着广阔的应用场景。与其通过数字人替代人力降本增效,我们更希望通过AI数字人引擎拓展数字人的能力边界,放大人的价值,赋能各行各业。比如在教育行业,对有一定经验的教师来说,他们可以通过数字人实现规模化教育服务。对于学生而言,数字人可以成为一种独特的教学资源,随时随地都可以获取到个性化的教育资源。

AI数字人核心痛点

  目前AI数字人普遍存在过于标准化的问题,数字人都“一模一样”,缺乏个性。要解决这个问题,我们需要构建出具备高情商、高智商且个性化的AI数字人。虽然数字人和大模型等技术已经让AI数字人能够在多种场景下提供服务,但如何让数字人具备“人格”特征,以推动个性化AI数字人更好的发展是我们需要探索的问题。

呆兔科技核心技术

  AI数字人的四个重要要素是文本生成、音频生成、表情生成和动作生成。目前我们在音频驱动AI数字人肢体动作生成方面已有了比较好的解决方案,表情和肢体的融合也将持续优化。AI数字人应用范围广泛,例如可以将虚拟形象应用于英语口语教学等,AI数字人的市场规模庞大,值得进一步研究。

  我们希望找到真正的机会,实现真正的规模化机会。如果AI数字人能真正实现个性化地双向沟通,将在各个行业都有应用落地的可能

Powered by Froala Editor