查看原文
其他

影眸科技张启煊:一句话生成3D人脸资产,探索AIGC+数字人

东西文娱 2023-10-23

The following article is from 共同虚拟 Author 共同虚拟

东西精品沙龙系列

本期「AIGC与生产力」第二期

上期分享

百度闫楚文:

未来AIGC将继续颠覆现有的生产模式,

加速进入一个新的周期

点击文末可阅读


随着AIGC现象级应用出现,巨头纷纷入局,部分产品加速寻找商业化机会,整体竞争态势爆发式升级。

时隔两个月,东方财富证券研究所联合东西文娱&东西游戏,举行“AIGC与生产力”系列会议第二期,邀请围绕AIGC进行技术布局与产品研发的技术、工具与平台公司、投资人,正在积极尝试利用AIGC拓展业务的相关企业等共同探讨与进行项目交流。下为现场纪要。

(全文点击下图即可阅读)
影眸科技 CTO 张启煊



影眸科技简介

Hello各位好,我是影眸科技的张启煊。影眸科技是上科大孵化的一家公司,我们成立于2020年,我们最重要的几个特点,第一个是我们会有很多学术上的产出,我们可能是国内最早跟进NeRF,还有其他生成式AI工作的团队。第二,国内第一个AIGC to c应用,至少在我们看来可能应该是我们推出的,当时也是一度登上过appstore的分区榜首。我们其实最主要的方向一个是生成式AI,另一个是光场,我们用光场技术做了很多数字人相关的项目,然后现在也是把生成式AI技术和数字人技术进行融合。

我们有个很大的特点是生成式AI生成的东西,会要求它更加符合工业级的标准。比如说如果我们去做文生图任务(当然我们没有做),我们可能会考虑我们是否需要把图做成多个图层的,因为现在在创作的过程中,他们往往会需要多图层的支持,然后我们现在生成3D资产,我们就会考虑它最好是拓扑一致的,是那种美术看着很舒服,能够在游戏引擎中直接使用,并且带PBR材质,这个是我们的一个好的侧重点。





元宇宙与数字人

其实作为一家在外界看起来业务方向比较偏数字人的公司,我们两次火出圈都不是因为数字人,一次是因为被称为老婆生成器的一个应用叫Wand,我们可以通过画简单的色块去即时生成一个二次元或者超写实的人物形象。

然后第二次让我们出圈的是我们做的一个元宇宙毕业典礼,当时给上科大400多名师生,每个人都生成了一个卡通化的3D形象,然后它其实是先通过我们的单张照片还原人脸技术,生成一个超写实版本的三维资产,然后再进一步通过3D小样本风格化做到了卡通化的版本。

我们其实在过去几年里做了大量的AIGC还有数字人方面的研究,我们第一项关于AIGC的工作应该是2020年的工作,影眸在技术这一块主要发力点一个是建模,一个是动画,还有一个是生成。我们的逻辑上会更加考虑我们怎样通过大型的硬件还有传统算法,先去打造别人不能够生成的数据,然后再用这些数据去进一步做生成式的算法,来给大家带来更多的一些AIGC的应用。

数字人部分我们其实主要是想要解决现在所谓元宇宙还有数字人方向的困局。第一个是元宇宙,它其实并没有所谓新的技术被带过来,它更多的是对以往技术概念的总结;在数字人这个事情上,虽然去年有很多数字人的项目,但是大家用的流程基本都还是传统的影视动画流程。

影眸科技把数字人的成本分为两类,一类是资产成本,一类是应用成本,我们在两类上都进行了发力。

我们可以在3到5天内完成一个超写实数字的资产的制作,这个球现在在上海有两个,青岛我们跟东方影都合作也做了一个,北京在今年4月份我们应该也会有一个地方。然后第二个我们去年在计算机图形学会议SIGGRAPH Asia上发了一篇微表情及面部捕捉技术,这个技术当时也是跟今年在《阿凡达2》中最新的WETA的面部捕捉技术在同一个session中进行了大家分享,接下来也会使用在国内一些影视作品中。我们也做各种跨语言的音频驱动等。

在我们去年7月份开始商业化陆陆续续也参与了20多个数字人项目的制作,但是刚刚所讲的那些数字人制作,本质上都是为了帮我们自己去构建一个超写实数字人的数据集,到目前为止我们一共有1000多个产品级的数字人,每一个都是在表面PBR材质,每一个都在完备的肌肉绑定,每一个都在血流图,都是毛孔级的高精度数字资产。



有关AIGC的尝试

接下来我们就做了很多AIGC的尝试。

AIGC这个词它更加贴切的表述其实应该是生成式AI,因为AIGC会让人觉得它是跟ugc pgc是有一个递进的关系,但其实在整个创作过程中起最主要作用的还是人,是人去决定了prompt,人去调试了prompt,人去调试了Seed。

第二个我们觉得生成式AI本质上第一步其是压缩,但压缩之后是差值和搜索,现在ChatGPT已经把搜索行业搅了一个底朝天,接下来所有可能涉及到搜索的,比如说搜索图库,搜索3D资产库,可能都会因此发生一些变化。

第三个也是我们自己做项目中发现的问题,我们现在可以根据一句话去生成3D数字人,但是如果你真的让我去想75个人或者100个人的长相,我自己脑子里是组装不出这些prompt的,所以我们会需要像当初计算机用命令行时代过渡到GUI时代的一个过渡,由人简单地去直接想prompt变到一个prompt user interface的过渡。

第四个就是刚刚说我们生成图的过程中,可能有人手指有6个,有人脚有3张,像这样的问题,我们就需要通过在生成的过程中加上一些physical constraint,比如说像stable diffusion2.0中,他就加入了depth的一些先验来固定这样的问题,这些都是在生成过程中加入physical constraint。

然后其实我们并不认为stable diffusion这样的模型是大模型,因为它参数量很少,它不像Chatgpt/gpt-3有百亿级的大参数,它是一个在大家的Mac上都能跑得很轻松的一个小模型,但它见多识广,它很难训练,它的训练难度是很大的,但它模型参数其实并不大。

从去年年底开始,大厂做了好多文本生成3D的工作,而且都不约而同在11月12月推出,包括英伟达、openAI、Microsoft,还有一家初创公司叫Luma AI,其实他们也做了很多不错的事情。

我们在今年年初的时候写完了一篇论文,接下来要推出一个产品,我们做我们自己的3D资产生成,我们可以通过一句话去简单的生成各种各样的三维形象,这个3D资产是正经的有UV拓扑的可以直接在游戏中使用,让艺术家二次编辑的3D资产,同时我们可以通过3D资产去做风格映射,可以把同一个三维资产去映射到不同风格的表达。


我们希望构建的就是这样一套系统,一个人可以在不同的三维应用中共用一个长相特征,比如说我在Roblox里是Roblox版本的我,在腾讯会议里是超写实版本的我,在不同应用中它能做风格的切换,同时我在各种三维场景中,我只需要用文本就能去生成所有我想要的三维物体,这些东西都会是我们今年的一个重要的产品。我们3月底会出现一个叫hyperhuman的文本生成数字人的demo,然后在今年7月份的时候我们会上线正式版本,它会包括完整的面部捕捉绑定驱动、音频驱动,还有人机交互都在里面。


Hello!
我们在为更加闭环、更加高效的服务模式做准备
欢迎加入限定白名单
与我们一起探索

点击图片,了解上期内容






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存