一、元宇宙的构想 1.元宇宙概念的由来 元宇宙(metaverse)概念最早出现在1992年尼尔•斯蒂芬森(Neal Stephenson)的科幻小说《雪崩》(Snow Crash)中,特指一个平行于现实世界的虚拟数字世界。每个人通过控制虚拟世界里代表自己的虚拟分身来参与相关社交活动。 清华大学沈阳教授团队2022年1月发布的《元宇宙发展研究报告2.0版》[1]中把元宇宙描述成整合了多种新技术的互联网新生态,能为使用者提供沉浸式体验,通过数字孪生技术、区块链技术生成虚拟世界的经济系统、社交系统、身份系统,并且允许使用者进行内容生产和编辑。 在新型冠状病毒肺炎疫情(简称疫情)防控期间,人们使用互联网的时长大幅增长,加速了社会虚拟化进程。人类生活中的许多体验也开始向虚拟世界迁移或者进入虚实跨界状态。对于学生而言,线上学习由原先短时的偶然状态变为常态。因此有人以宇宙大爆炸奇点理论类比提出:2020年是人类社会虚拟化的临界点,2021年是元宇宙元年。但是2022年是否能形成奇点,还有待观察。 张世城等的《智慧教室3D模型的设计与实现》[2]一文指出:随着信息时代的到来,以及物联网和3D模型技术的兴起,各学校开始进行信息化、可视化智慧教室建设,提出在实现物联网硬件的基础上,使用ThingJS3D模型可视化技术,给出智慧教室的整体策略和体系架构,围绕智慧教室的硬件布局、网络通信和教室系统的平面构造、3D模型等方面进行设计与实现。 美国哈佛大学教育学博士郑燕祥教授在《教育范式转变:效能保证》[3]一书中指出:教育的理念要有根本性、系统性的范式转变,才能有突破性的进展,以应对全球化、高科技和社会发展的挑战。 2.元宇宙推动教学模式创新 为贯彻落实教育事业发展“十四五”规划的有关部署,教育部办公厅发文[4]要求开展虚拟教研室的建设与应用探索。笔者团队根据课题研究对元宇宙云课堂环境进行了研究,阐述了基于元宇宙的AI数字人云课堂的教育应用需求分析与系统设计。 元宇宙是下一代互联网生态,是虚拟时空,是全真互联网,即通过各类智能设备和系统提供人性化、智能化、独特的数字互动世界。狭义的元宇宙指把线下的世界映射到数字世界里面去;广义的元宇宙则指建立在数字世界里的纯粹虚拟时空。 元宇宙与教育的融合应用涉及两方面的问题:一是技术顶层设计,即运用系统论的方法,从全局的角度对该项技术的各方面、各层次、各要素统筹规划,以提升工作效益,高效快捷地实现目标。元宇宙技术顶层设计指为实现任何时间、任何地点、任何角色都可以在互动空间中生活和工作而进行的方案研究。二是教育范式研究,即通过创新教学模式,使课堂教学真正促进学生知识、能力、情感等的发展,培养学生的创新精神和实践能力。在“双减”政策及教育部门提出的校园防疫工作“五管”(管好人员流动、管好校门、管好场所、管好活动、管好应急处置)要求下开展高质量教学工作,是摆在教育工作者面前的挑战。常规教学模式已经不能适应新时期社会教育发展的需要,亟须教育范式变革。 虚拟数字人作为一种人工智能(简称AI)产物,本文称为AI数字人,是元宇宙的关键要素。将元宇宙云课堂与AI数字人相结合,有利于打造AI新生态下融合多种技术的教育应用新场景。
二、基于元宇宙的AI数字人云课堂需求分析 1.AI数字人云课堂的需求分析 (1)总体需求分析 第一,元宇宙系统要能在局域网环境下独立运行,进行AI数字人培训任务和云课堂交互教学工作;第二,留有云端接口,方便随时接入云服务器集群进行高算力业务处理。 (2)分项需求分析 分项需求包括:实体人的跨界数字身份系统(含实体人档案库以及AI数字人档案库)、AI数字人云课堂、AI数字人可使用的魔法装备。 2.实体人的跨界数字身份系统 为便于将来再生医学的发展,实体人的跨界数字身份系统应能实现实体人的肌体再生功能,实体人档案库除了常规档案基本信息外,还应预留以下选项与大数据健康档案库对接:包括干细胞库编码、精子库编码、虹膜库编码、指纹库编码等。 AI数字人档案库应具备的功能包括:能完成真人的AI数字人建档、形象打造(含照片合成脸部和捏脸修改)、行为学习训练、语音拟合、思维反应训练(支持自动回答问题的AI知识库)、信息检索、模型提取、输出档案表(打印表格或者输出其他格式的文件)等。 3.AI数字人云课堂的构建 构建的目标:打造虚实融合的“双师”课堂以及16个数字人互动对象,方便进行小组合作学习和班级授课模式的切换。 (1)可自主互动的虚拟对象 AI虚拟教师2人:授课教师、班主任。AI虚拟教师与实体人教师组合可打造“多师”课堂教学模式。 虚拟学伴4人:春同学、夏同学、秋同学、冬同学。心理学家认为,人的气质类型一般可分为胆汁质、多血质、黏液质和抑郁质四种。虚拟学伴4人分别对应这四种气质类型,以多样化的面貌辅助师生开展学习和训练。 同时设置10个可供实体人操控进行互动学习的数字身份账号:甲同学、乙同学、丙同学、丁同学、戊同学、己同学、庚同学、辛同学、壬同学、癸同学。 (2)提供虚实对象间的一对多、多对多互动 根据教学活动的需要,可以开展多元互动,提高学生的学习兴趣和协同学习活动的效率。 4.AI数字人可使用的魔法装备 在元宇宙云课堂中,为AI数字人赋能的魔法装备就是一些特殊的系统工具,使用装备功能,能够使AI数字人具有强大的“变身”能力。以《西游记》中的孙悟空作为类比,AI数字人的“变身”功能包括以下方面。 第一,重身术。在元宇宙云课堂中,AI数字人具有“一变多”分身功能,能同时进行多元任务实施。 第二,变身术。AI数字人具有“改头换面”的变身功能,可以按照使用者意愿改变AI数字人外观形象。 第三,隐身术/现身术。AI数字人能隐藏数字分身或者再次现身。 第四,变音术。AI数字人具有声音变化的功能,可以按照意愿改变音质音色。 第五,劫身术。AI数字人具有赋能某个分身强制接管另一个AI数字人账号的功能。 第六,再身术。AI数字人具有赋能某个分身进行形象重塑和行为举止重新训练的功能。 三、基于元宇宙的AI数字人云课堂系统设计 1.AI数字人的系统生成 元宇宙云课堂的核心技术之一是实现AI数字人的生成。以往的虚拟数字人在3D建模的基础上采用动画、面捕(面部捕捉)、动捕(动作捕捉)等技术实现真人表情、动作的模拟,但都脱离不开真人的辅助。而AI数字人具有类似真人的感知、理解和表达能力,能通过文本或者语音驱动,可以完全脱离真人的辅助,自主生成具有丰富表情和动作的真人分身。AI数字人的自主能力为其应用提供了广阔空间(见图1)。 图1 AI数字人的功能构成 AI数字人基于多模态融合技术(见图2),以文本和语音为输入端口。文本输入内容经深度神经网络的语音处理单元转成语音,处理完成后将语音信息返回给语境引擎。语音输入则直接发送到语境引擎,输出口唇动作的系数,然后再使用行为分析推理引擎将图像呈现出来,同时可以为AI数字人形象添加情绪、动作等设定,最终输出声画同步的真人分身视频。
图2 多模态融合技术处理流程示意图 AI数字人主要分为两类基础形态(见图3),即播报型和交互型,可满足不同应用场景的需求。播报型常用于一对多服务,如用文本驱动AI数字人进行内容播报并配合各类媒体素材制作数字媒体内容;交互型常用于一对一服务,如用语言驱动的智慧客服、AI助教等。
图3 AI数字人两类基础形态的应用 在具体应用中,只需简单输入文字或音频,即可快速生成具备精确口型、丰富表情和动作的AI数字人视频,可广泛应用于新闻播报、创意视频制作、虚拟客服、师资培训、教育课程批量制作等(见图4)。此外,仅需通过输入文字或者语音,就能制作包含AI数字人、图片、视频、PPT、3D模型、动画等元素的视频内容,有效提升视频的规模化制作效率。AI数字人的应用优势见图5。 图4 AI数字人的应用场景 图5 AI数字人的应用优势 (1)形象订制服务单元 AI数字人形象的制作过程(见图6)包括:数据采集(真人的视频、语音录制)、数据标注(视频、语音标注)、模型训练(表情生成模型、语音合成模型)、视频生成(文本、语音驱动播报和交互)。使用者可订制2D或3D的数字人,支持8个基础动作、1种姿态、 1种分辨率的设定。
图6 AI数字人的形象分类及制作步骤 (2)AI数字人系统的软件功能 具备“平台—播报”服务功能和视频生成接口(支持私有化部署),能完成与真人对应的AI数字人建档,支持形象打造、行为学习训练、语境拟合、思维反应训练、信息检索、模型提取、输出档案表等。 (3)AI数字人服务器 为保证本地智能互动和及时处理效果,推荐的系统配置为:主板(双路服务器主板)、CPU(Intel银牌CPU 2块)、内存(“DDR4+16 G”内存条10个)、硬盘(希捷1 000 G+512 G固态硬盘)、显卡(TeslaT4 16G)、电源(航嘉1 000 W)、鼠标键盘(罗技键盘鼠标套装)、显示器(戴尔24寸宽屏液晶)、机箱(专业4U机箱)、系统(Linux CentOS 7.6)。 2.AI数字人云课堂的硬件系统架构 AI数字人云课堂系统中的智能学伴可支持知识问答、游戏互动、学习对练、案例讲解、学习辅导等功能,并能提供7×24小时全天候问答服务(见图7)。 (1)编辑播控工作站 高配置可提供强大的算力以支持编辑播控工作。推荐的系统配置为:CPU(Intel 酷睿i7)、操作系统(Win 10专业版)、主板(PCI-E架构总线高速主板)、内存(16G高速内存)、电源(高效服务器电源)、显卡(Nvidia GTX1060)、硬盘(500 G SSD固态硬盘+希捷1 000 G SATA硬盘)、机箱(专业4U机箱)、鼠标键盘(罗技键盘鼠标套装)、显示器(戴尔24英寸IPS宽屏显示器)。 (2)渲染服务器 高配置可提供强大的算力以支持渲染工作。推荐的系统配置为:CPU(Intel Xeon 处理器2块)、操作系统(Win 10专业版)、主板(双路服务器高速GPU图形渲染主板)、内存(32 G高速服务器内存)、硬盘(500 G SSD固态硬盘+希捷1 000 G SATA硬盘)、电源(高效服务器电源)、显卡(广播级高清视频板卡Nvidia Quadro RTX 4000专业显卡)、机箱(专业4U机箱)、鼠标键盘(罗技键盘鼠标套装)、显示器(戴尔24英寸IPS宽屏显示器)。 (3)AI数字人云课堂系统软件 AI数字人云课堂系统软件具有便捷的素材资源导入功能、强大的模型处理功能、实时渲染合成功能、播出控制和输出功能。具体包括以下方面。 采用“制作—播出”分离架构:包含独立的模板设计端、播出控制端、实时渲染合成端模块。 可基于PBR渲染引擎实现各种逼真的渲染效果。 支持导入fbx、obj等格式的模型文件。 支持旋转、挤压等造型方法生成物体模型。 支持2D文字、3D文字、特效文字生成,支持中文、英文、日文、韩文、泰文、藏文等。 支持图片、视频、序列帧、网页等作为贴图源。 支持流媒体、视频卡输入等外部视频源作为贴图源。 支持柱状图、饼图、折线图、散点图、面积图等图表制作。 支持外部数据链接、内部属性链接、函数修改等链接机制。 支持各种外部数据源:ODBC,MySQL, PostgreSQL,SQL Server,Access,Excel,TXT格式文本,第三方软件实时生成数据等。 具备基于事件触发的时间线播出机制,支持手动、定时、自动、外部触发等渲染播出方式。 支持同时接入多个AI数字人。 基于模板化的播出方式,在播出端打开模板后,只需修改模板参数,即可替换模板的内容,驱动AI数字人生成课堂视频。 支持数字调音台对各种音频源进行混音输出。 渲染端支持录制、推流、视频板卡输出等。 (4)素材资源库 素材资源库包含三维场景、图文包装模板、前景植入物理模板、数据可视化等素材库。 (5)网络交互机 8口网络交换机,用于高效连接控制机、服务器。 (6)线材、工具、辅料 视音频线材、配件、工具、辅料等。
四、结语 元宇宙是人类的新梦想,但是“罗马不是一天建成的”,元宇宙的发展也不是一蹴而就的。人类从未像今天这样,融合了信息技术(5G/6G)、“互联网+” (Web3.0)、人工智能、云计算、大数据、区块链、裸眼技术、全息技术、XR技术(融合VR,AR,MR,HR等)以及游戏引擎来创造元宇宙的新世界。新技术驱动的“奇点”即将来临,它将引发基础数学(算法)、信息学(编程、信息熵)、生命科学(脑机接入)、区块链(加密金融)、量子计算(算力)等领域的深入研究和交叉互动,还会推动未来学、哲学、逻辑学、伦理学、科幻等人文科学体系的全新突破[5]。基于元宇宙概念及其多种技术融合特点,进行AI数字人云课堂的教育应用需求分析与系统设计,就是一种微观元宇宙技术顶层设计与教育范式研究的新尝试,目的在于实现元宇宙技术的教育应用落地。
参考文献
[1] 沈阳等.元宇宙发展研究报告2.0版[R].清华大学新闻与传播学院新媒体研究中心,2022. [2] 张世城,翟嘉琪.智慧教室3D模型的设计与实现[J].现代计算机,2020(36):100-103. [3] 郑燕祥.教育范式转变:效能保证[M].上海:上海教育出版社,2006. [4] 教育部办公厅关于公布首批虚拟教研室建设试点名单的通知[EB/OL]http://www.moe.gov.cn/srcsite/A08/s7056/202203/t20220322_609822.html. [5] 罗金海.元宇宙的“42条共识”[EB/OL].https://t.cj.sina.com.cn/articles/view/3181745997/bda5974d019014ij0.
覃祖军1 冯建刚2 郑兰梅3
1.北京市数字教育中心(北京电化教育馆) 2.天津中科物联网技术研究所元宇宙产业技术研究中心 3.北京科教创新信息科学研究院
|