以下文章来源于NODE宇宙 ,作者Dien Isaac Cici
INTRO
NODE是资深企业服务投资人共同推出的原创科技论坛,致力于链接前沿科技领域的科学家、工程师和创业者。以多维视角传递当下的最新科研成果、商业实践及行业趋势思考
Nodes create, collect cognition and relay it to other nodes
近日,「NODE」举办了第一期闭门TALK,我们邀请了四位科技领域的顶尖科学家,一起讨论下一代互联网——元宇宙。
嘉宾介绍
注:本期闭门TALK的内容不对外发布,以下正文内容仅代表本文作者观点
时下科技领域最受关注的话题之一无疑是元宇宙,自2021年开始元宇宙在全球大火,今年8月在温哥华举行的计算机图形学年会SIGGRAPH上,大家广泛提到今年将是行业的转折点,SIGGRAPH2022可能会载入史册。
元宇宙其实并不是一个新概念,这个概念来源于大约30年前。从1992年的Snow Crash,到2006年Roblox创立,再到Facebook在2021年改名为Meta。
互联网、移动互联网、云计算、人工智能,科技一直在推着世界向着数字化方向迈进。
是什么让元宇宙在近两年如此大火?
我们看到几项核心技术在近几年取得飞速发展,并相互融合渗透。包括几何建模、物理仿真、图形渲染、多模态AI、XR交互等能力,促进了虚拟内容的生产效率大幅提升,也使得现实世界和虚拟世界的互动得到了有力支撑。
元宇宙让我们的科技创新真正从应用科学转向基础科学,它不应该只是游戏、社交、NFT,而是一种通过高维数字化以实现更低能耗解决现实世界问题的思维方式。它和过去5年大家在做的数字化是分不开的,当数字化对产业的贡献达到了一定浓度,产业的元宇宙进程就会开启。
因此元宇宙应该是数字化发展到一定阶段,形成的一个更高维的互联网。它不仅是对现实世界的模拟,更是对现实世界的扩展。在这过程中,能够不断指引我们去解决现实世界的问题,同时也帮助我们去探索现实世界在未来应该如何运转。
01 预训练大模型 ✦
以深度学习为代表的算法框架拉开了人工智能的浪潮,在计算机视觉、智能语音、自然语言处理等领域获得了广泛应用,但AI模型的训练仍存在很多挑战,最首要的问题是模型的通用性不高,每个模型都是针对特定的领域进行训练,迁移到其他领域时效果并不好。
BERT 、GPT 等大规模预训练模型近年来取得了一些成功,成为AI领域的一个里程碑。大模型提供了一种通用化的解决方案,通过“预训练+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。
今年,我们已经看到很多大模型开始应用到像工业、金融这样带有海量数据的传统行业当中。在成熟自监督算法的加持下,大模型在NLP、风控等下游任务的应用中都取得了一定的效果。
但是大模型的使用成本和使用效率受到了大家的关注。现在主要通过两种方法来提升大模型的使用效率。一种就是现在比较流行的提示学习(Prompt Learning),就是尽量去用已有的大模型,而不是重新去做一个新的。假如有华为、百度等大厂的大模型,可以尝试用Prompt learning来把大模型的能力适配到其他下游任务当中。而另一种方法,则是通过改进自监督学习的算法,以更低算力成本、更高效率的方式在一些相对垂直的领域构建大模型。
未来大模型的趋势是低成本化和小型化,即更快的推理速度、更低的空间占用和算力要求。11月中,业界已经开始传出Open AI准备发布GPT-4的消息,GPT-4的参数规模和训练成本预计将低于GPT-3,但功能会更加强大。行业未来研究方向主要是在保证大模型泛化能力的情况下,去追求更便捷的模型部署。
利用开源大模型的初创企业所面临的挑战
尽管像OpenAI推出了GPT-3、Dalle2等大模型,国内智源、百度、达摩院等也相继开源了自己的大模型,大模型的应用不是连接一个API那么简单。对于需要用到大模型的AI创业公司来说,还是面临一定的挑战。是否能够支撑庞大的GPU计算资源消耗以及有足够的工程人员来完成最后的工程化落地都很关键。
早在Transformer这样的通用大模型架构出来之前,就有AI大厂开始凭借自身GPU计算资源的优势,搭建了一个上千层的神经网络模型用在CV领域,虽然模型的泛化能力还不错,但当时的挑战在于模型参数实在太多,fine-tuning的成本很高,还需要做知识蒸馏适配到下游任务。所以,对于资金和人力资源本身就很匮乏的AI创业公司来说,大模型应用的挑战就更大了。
AI 最终还是要落到具体场景下才比较容易实现,因为数据更容易获取,而数据的本质上是knohow从何而来。对场景问题的理解是有门槛的,会涉及到如何定义开源大模型,包括它的限制性、逻辑推理、质量控制、需要哪些数据、如何获取这些数据。里边有大量算法化、工程化、产品化的东西可以深耕。
OpenAI推出实现图像和文本匹配的CLIP,以及根据输入文本生成对应图像的Dall·E,开启了多模态AI的发展。现在很多单一模态的数据问题已经解的差不多了,再往下走就是解决跨多个模态的数据融合的问题,包括听觉、视觉、触觉、味觉等,最终才能够实现更好的交互。未来我们看好多模态的模型,和上层的认知科学相结合的领域。
02 生成式AI ✦
图像合成任务通常由深度生成模型(如GAN)执行。GAN 由于其产生的输出质量,在过去一直是备受质疑。扩散模型Diffusion 今年非常火热,很多人认为在图像生成领域,Diffusion明显优于GAN。相较而言,GAN 能更灵活处理不同任务,应用层面部署比较容易,需要的资源少,生成的质量相对欠缺。而Diffusion的任务处理不太灵活,资源消耗极大,但生成质量较好。
今年Stable diffusion无疑是一个现象级的开源项目,近期它背后的商业化公司Stability AI也是获得了1亿美元的融资。
我们观察到像Stablediffusion这样的开源大模型一出来,有一大堆的AIGC创业者涌进来,迅速把整个市场变成了红海,无论对于AIGC应用的使用者还是投资人来说都挺迷茫。国内的创业公司本身也不像Open AI一样有很多资金去烧自己的大模型,如果只是调用别人的大模型能力的话,大家从技术上来说差异性不是很大。大家商业模式如何在国内形成闭环,目前还是一个挑战。
不过我们也看到AIGC应用的商业模式在美国其实是走通的,比如说,GPT-3做出来以后它是可以按照调用次数收费的,你要调用它的语言大模型去生成营销文案、做对话,你就要向它付费,所以GPT-3下游会有大量的SaaS公司。这些小的创业公司,如果想做文案改写、人机对话之类的创业,它就把落地场景需要的各种功能和体验封装成一个SaaS卖给客户。比如,客户调用一次SaaS的功能,你收他1美元,再付给Open AI的这个GPT-3 10美分,这样的话它就形成了商业闭环。
也就是说大模型可以作为一个PaaS层存在,因为它的训练成本很高,一般创业公司承担不起。而像Open AI这样的公司,它也不可能去做所有细分市场的SaaS服务或者应用,这个时候Open AI就需要一群SaaS公司围绕着它去做增值服务,调用它的API。所以,我们也看到一些公司像Jasper.ai、Copy.ai在这个上面是跑通闭环的。
但中国的商业环境可能不太一样,很多像GPT-3这样的大模型,对国内其实是不开放的,国内的AIGC创业公司就没法调用它。其次,中国本身在To B、企服这块就没美国那么成熟,大家对软件收费这个市场的认可度还不是很高,无论是To C还是To B都很难找到一个比较好的收费模式,完成最终的商业闭环。但我们觉得长远来说,大模型作为一个基础设施来提供能力,是需要大家在这里形成一个生态的。大公司去负责夯实底层AI能力炼大模型,初创公司负责提供SaaS服务去调用大模型API或者提供一些定制化服务,在垂直赛道里面AIGC应用公司还是有机会。
AIGC应用公司的机会
我们看到无论是Stable diffusion ,还是DALLE 2 ,基本上是以文本和图像为主,3D模型还比较少。近期NVIDIA推出了自己的Magic3D,一句话能够生成高质量的3D网格模型,可能会让很多3D建模师吓出一声冷汗。
但是除了模型层面,跟数据也有很大的关系,没有足够的数据就无法做训练。图像和文本的数据比较容易获取,而3D模型的数据很难获取,尤其是专业级模型的细节获取,比如机械类的、服装类的3D模型。
目前在某些细分方向的3D内容生成是值得尝试的。例如可以针对一些材质的属性、纹理的属性去做AI生成,这一类的数据在垂直场景里是比较容易获取的。若要做一个通用的3D模型,现阶段是不太现实的。
AIGC 首先第一点还是数据,第二点是特定的场景,能够帮你能够快速获取足够的数据。比如AI编程,我们看到微软在收购github后不出所料地推出了Copilot来探索AI在辅助编程中的想象力。那么在平面设计领域,adobe在收购figma后独霸天下的情况下,必然会探索基于素材的AI设计。
假如做一些网文,或者是做一些 PR 稿,是容易用AI来生成的。但是反过来想,为什么不用模板化呢?AIGC它的愿景在于生成的数据不是千篇一律的,它会有自己一定的原创性。但是很多时候我们的应用场景是不需要原创性的,比如某些游戏的内容生成,游戏里面大量的数据是复用的,一个场景,同样的地图,同样的人物,同样的物品可以反复复用,是模板化的,游戏引擎可以帮助到我们。
下一阶段 Text2Video
Text2Video其实可以大致分成个人视频生成、视频剪辑、带有叙事能力的长视频生成。个人视频生成在国外有Tavus、Synthesia等,视频剪辑有Runway,商业模式在国外都得到了初步的验证,而带有叙事能力的长视频生成还处于早期的学术研究阶段。
(GIF图看到最后,有惊喜!)
在叙事视频的生成这块,最近看到Google和Meta放出来的一些研究成果,大概就是一些GIF图的效果,可以基于一张照片让一个动物做一些动作。但做research和产业落地其实是两回事,拿人脸识别来说,2000年就已经有人开始做了,到了2016年的时候数据量开始丰富,再加上阿里、腾讯、百度这些大厂开始进场,以及深度学习算法的迭代以后,人脸识别这块才开始比较成熟。所以说,今年Text-to-Image很火,明年就能开始用文本生成电影、短剧了,这个说法是很不现实的。
如果从学术研究角度来说,无论是生成图像还是生成视频,技术确实是在一点点进步的。从内容生成的质量来说,以前我们都用GAN来生成图像,假如每天生成100张,里面可能有十几二十张是不错的,它的结果相对不太可控。现在结合了扩散模型之后,稳定性、美感都要比原来好很多,所以这么多人在玩Stable diffusion,从图像生成的效果来说是要比原来要强的,这是图像生成这块的进步。
用文字生成视频,其实就是基于几个关键帧来生成一个动作序列。但是如果想单纯用文本去无中生有生成一个视频,效果还是很糟糕的,还是逃脱不了数据拟合这个问题。Machine learning基本很多还是内插式的创新,它很难有往外的推演,所以Text-to-Video里面个人视频生成和视频剪辑的商业化落地在短期内是可行的,但叙事视频的生成还有很长的路要走。
总体来看,我们还是应该乐观一些。无论是图像编辑、视频生成、编程设计,如果单独看这个技术,它的应用领域其实是有限的,能解决的实际问题也不多。但反过来,如果我们把AIGC变成一个赋能工具,在很多领域里面,其实是可以不断地渗透进去,对我们的工作有效率提升,我们会慢慢习惯它。
比如现在我们用手机拍照,用户已经默认它自带美颜,摄像头上有算法的增强。我们每天拍的照片大概都有几十个算法在发挥作用,包括增强、去噪、人脸自动检测、虚化等。如果我们一个一个场景慢慢做的话,AIGC还是会逐渐把价值发挥出来。
03 NeRF ✦
对于三维重建的意义
NeRF可以说是时下最热的算法框架之一,代表着CV和CG的结合。从2020年成为ECCV会议的最佳论文开始,到最近两年所有人都在生怕错过,NeRF在一步步证明自己。
NeRF可以用多张2D图像来隐式重建3D场景,可以展示复杂的空间信息,目前已被应用于图像压缩、三维形状高精度展示和超高分辨率图像等领域,可以进行物体/人体重建、城市重建等。
但NeRF的框架其实并不那么完美,它也有很多缺陷。它需要计算大量的点位数据,导致计算推理时间过长,并且因为缺乏显性表征导致内容很难再编辑。不过我们也看到英伟达在SIGGRAPH 2022的最佳论文“NVIDIA Instant NeRF”,部分解决了NeRF模型的建模和训练速度慢的问题,提升了训练效率。
人脸现在已经做得不错,本质上是因为人脸的隐性空间是相对明确的。但是假如做建筑物的外观和做自然环境的纹理,生成的时候就会相对困难。就像用 GAN来生成的时候一样,难度会大幅增加。但它总体还是往work的方向在发展,包括用NeRF来做生成任务,如StyleSDF,现在分辨率也已经大幅提升。
CG的每一个方向都值得用NeRF来尝试深耕,比如做表皮的,做带光照的,做材质的,做动态的,每个细分领域都可以有一个团队沉下心来做研究。NeRF的工程化实现还是相对比较复杂,容易做失败,做下来需要很大的耐心。
我们看到,特斯拉在今年官宣即将采用100%纯视觉方案的自动驾驶,用8颗摄像头来代替传统的视觉+雷达的方案。其本质是用视觉神经网络来做大量的计算和预测,因为在雷达波长下,难以获取高质量的行驶环境的三维数据并用于新的训练。而在这个方案中也运用了NeRF,给出一段XY的2D坐标,能够预测地面的高度生成XYZ的3D坐标,再将道路数据放入,投放到摄像头的画面中,从而模拟出真实道路的状况。
相信在未来,NeRF会在各个细分方向不断突破进化,我们也非常期待类似于NeRF for autonomous driving等更多的场景落地。
04 Avatar ✦
用户未来进入到虚拟世界,需要一个数字分身来代替自己在元宇宙的角色。
从数字人功能性角度,可以划分成两类。一类是 IP 型,含有人物价值。另一类是功能型,像智能客服一样,满足垂直场景的具体问题。
针对 IP 型数字人,超写实形象会更有它的价值,毕竟要承载一个人的 IP 属性,凭空创造一个IP却没有真实的价值积淀,会比较困难。
针对功能型数字人,像客服、主持人、导游、伴侣等,是满足一个功能属性,它外观相对没这么重要,更多是以卡通形象来呈现。
从经济的角度,当做到以假乱真的状态,数字人就会诞生第二个附加价值,即以低一个数量级的能耗来解决现实世界的问题。这个时候,如何找到每个行业的稀缺资源并将它Avatar化就变得尤为重要。
目前其实以手工制作的方式可以做到相对超写实的状态,正如大家在著名的黄仁勋演讲片段中看到的一样,但也只能支持做一个小片段,它的经济成本是无法承受的。
而现在对于超写实的技术攻克还在初期,目前人脸和动作做的差不多了,但还有很多欠缺,例如脸部的细节、表情的细节、头发、衣服,都是非常难以刻画的。若要再加上实时的效果,攻克的周期更加漫长。
从元宇宙最终形态的角度,虚拟世界最重要的是交互,假如只是做一个形象,其实并不需要所谓的元宇宙概念。20年前好莱坞电影特效已然很成熟了,包括人体建模、静物动画等。虽然难做,成本投入很大,但是在电影界高预算、长制作周期的环境下都是可以实现的。
从这个角度来看,大量做数字人的公司,以离线的方式去做视效,与未来元宇宙的核心变量关联不大。有实时才会有交互,有交互才会有元宇宙应用的留存。假如只是视效上的输出是不够的,目前做静态离线的数字人的技术栈相对成熟,但是提升到实时的交互,还是有一定挑战。
生态
图形学领域多年来沉淀了很多工具,如建模工具、仿真工具、动画工具、细节雕刻工具等,整个工具链路非常长,导致3D内容生产的成本居高不下。现在国内很多企业在不同的环节进行布局和发力,也有一些公司开始做全链路或者部分链路的打通。
我们看到像NVIDIA推出了Omniverse平台,致力于跨不同3D应用实现打通协作和互操作性,可以说是NVIDIA元宇宙战略的杀手锏。包括推出了USD这套标准化的文件格式,把很多诸如渲染类的效果进行了标准化打通。最终Omniverse 会作为USD浏览器,上面长出元宇宙应用的开发工具。
未来元宇宙建设的一大挑战就在于各种数据、引擎的标准化,包括动画的数据、各种物体的材质数据的完全打通,让各家做的产品最后都能在虚拟世界给用户一个标准的结果呈现。期待未来有更多通用的标准化接口!
访问终端
智能手机的出现大幅降低了C端用户使用互联网的门槛,使我们从PC时代快速迈向了移动互联网时代。未来元宇宙也一定会有自己的访问入口,现在很多公司在做VR&AR设备,VR以全沉浸式的体验带来了感官革命,而AR则通过可穿戴设备给予用户基于现实世界的更多维的信息展示。发展至今VR头显出货量在2021年全球已超1000万台,AR眼镜则受制于应用场景和技术瓶颈仍处于早期阶段。
最早从2015年HTC VR头显开始,用户开始接触这类设备,刚开始重量大、不方便携带、眩晕感很重,到现在不断去做质量和便携度层面的迭代,可能眩晕感还有待进一步彻底解决。但这些都是设备层面的问题,更关键的问题还有:
1. 虚拟内容的形态以及内容的丰富度。目前虚拟内容快速且高质量的生成还面临极大挑战,当内容生产效率解决的时候,更加沉浸式的体验才会随之而来。
2. 最后回归到未来元宇宙的形态。就像当年先有互联网,后有智能手机一样,我们相信一定是先有元宇宙的某个刚需场景出现,后有终端设备通过大幅提升访问体验把场景打爆,最终才会确立真正的访问终端是什么形态。