AI虚拟主播“上新”！科大讯飞打造虚拟主播直播间

“大家好，欢迎来到科大讯飞官方直播间，我是你们的主播茜茜。”

“我是茜茜的妹妹西西，别忘记点个‘关注’哦，今天晚上福利可是很多的。”

……

5月15日，真人主播茜茜牵手“孪生妹妹”亮相科大讯飞抖音直播间。这对“双胞胎主播”虽然是样貌相同的“姐妹花”，但西西借助科大讯飞新推出的“AI虚拟人直播系统”，不仅复刻了真人主播茜茜的外在，还赋予了其驱动的能力，从而能够实现虚拟主播实时直播。

AI虚拟主播性格可定制、角色能多选

当下，越来越多的AI虚拟主播走进了大众视野，在直播间、短视频平台等频频“出道”，凭借多维度、全感官、沉浸式的交互体验，成为时下的“主播热选”，集“万千宠爱于一身”。

“科大讯飞AI虚拟主播依托语音识别、人脸建模、口唇预测、音频驱动等自主关键技术，支持用户通过文本或者语音输入驱动虚拟人进行直播，从而实现智能驱动，快速便捷地进行虚拟直播。”科大讯飞研究院执行院长刘聪告诉科技日报记者。

刘聪表示，科大讯飞基于大数据多模态预训练的语种及说话人无关的口唇驱动框架，在保证高真实度的口唇合成效果的同时，还可以实现不同类型语音，包括不同语种、方言、音色的口唇驱动，让虚拟主播无惧时空限制，哪怕是在卧室的床边也能进行直播，而且随时可以与真人主播“无缝切换”，方式更加灵活、多变。“而‘AI虚拟人直播系统’还拥有丰富的场景库，可以根据直播内容、虚拟人‘性格’等自由定制，打造专属的虚拟人直播间。”刘聪说。

据介绍，科大讯飞“AI虚拟人直播系统”拥有丰富的形象库，不仅能根据受众喜好、需求个性化选择五官“捏脸”，创造一个全新的虚拟人，还可以根据不同场景赋予其相应的形象气质，或2D或3D、或半身或全身、或“盐”或“甜”……“科大讯飞先进的语音合成技术，还能为虚拟人定制个性化语音库，还原真人主播的声音或是定制特色声音。多语种技术更是让AI虚拟主播既支持中英混合播报，又支持日、韩、泰、越等多国语言，国际范儿十足。”刘聪说。

可用于多个行业，未来也能“走进”寻常人家

记者在采访中了解到，AI虚拟主播还可针对不同需求提供多端接口，并能面向多个场景提供垂直且完善的解决方案，可用于媒体、金融、文旅、政企等多行业，提供音视频内容自动化生产、智能交互的AI产品服务，辅助实现自动化、智能化的客户价值。

其中，在媒体新闻场景中，可针对海量的音视频内容实现新闻内容的音视频生产自动化。只要输入文字即可“一站式”生产成品视频，尤其是对重大、突发新闻等更新频率较高的内容播报，能显著提升效率。目前，央视新闻、人民日报数字传播、合肥电视台等媒体，与科大讯飞共同打造的AI虚拟主播均已“上岗”，表现出色。

“以‘虚拟人为载体的新一代人机交互’将快速进化，我们需要在感知、理解、表达等多个维度持续取得技术突破，让人机交互体验得到跨越式的提升。简单来说，就是我们希望虚拟人越来越聪明，Ta们懂情感、有个性，能够帮助人类协助我们的工作和生活。”刘聪对虚拟人未来发展充满信心。

刘聪认为，从生产生活到奥运赛场，人工智能早已不是没有言语、冷冰冰的技术，而是饱含温情、赋能万物的科技力量。基于AI虚拟人交互平台底座研发的“AI虚拟人直播系统”，未来将会逐渐开放上百个虚拟形象、上千个音库，提供多模感知、多维表达、情感贯穿、自主定制的特色服务，让虚拟主播的形象更真实、情感更灵动、交互更智能。

AI如同水和电一样已融入百姓生活。刘聪表示，未来通过将技术与产品和应用场景深度融合，虚拟人也能“走进”寻常人家，给人们的工作和生活带来更便捷的服务，成为人类的亲密伙伴。