数字人 | 实战匠坊

5步制作你的专属虚拟化身(数字人)：https://mp.weixin.qq.com/s/_I9f3RvEYBuCWz4F-0Tf6Q

制作平台

1、即梦AI

站点： https://jimeng.jianying.com/ai-tool/home

每天有88个点可以免费使用

2、闪剪数字人

http://shanjian.tv/、官网

数字人轻松制作口播短视频

3、Metahuman

https://www.unrealengine.com/zh-CN/metahuman

轻松制作高保真数字人类

MetaHuman是一套完整的框架，所有人都可以使用它创造高度逼真的数字人类角色，为其制作动画，并随心所欲地使用这些角色。

MetaHuman Creator是一个云端服务，它允许用户创建高度逼真的数字人类角色。这些角色可以用于游戏开发、电影制作、虚拟现实应用以及其他需要高保真3D人物模型的领域。

4、synthesia

https://www.synthesia.io

使用AI虚拟形象和140多种语言的配音，轻松制作工作室级视频。就像制作幻灯片一样简单。

5、wombo

人脸视频生成，是款APP应用：https://www.wombo.ai/

6、pika

https://deevid.ai/text-to-video

https://deevid.ai/

国内站点：https://qihuiguan.cn/#/wanxiang

7、泡咖AI

https://ai.paoka.com/facevideo

AI视频换脸：图片换脸、多人换脸、视频换脸

照片数字人

基于二维图像（如照片或一系列照片）创建的虚拟形象。这些形象可以通过深度学习算法进行动画处理，使其看起来像是在说话或表现出某些表情。

技术上，它可能涉及到面部识别、图像生成、以及语音合成等技术来创建逼真的表现效果。

适用场景：在线客服、虚拟主播、社交媒体互动角色等领域

制作SOP: 抠图+api

案例分享

基于kreadoai快速搭建照片数字人： https://mp.weixin.qq.com/s/_I9f3RvEYBuCWz4F-0Tf6Q，专业版支持api调用
基于曦灵数字人开放平台制作照片数字人视频，api文档
基于阶跃星辰语音模型实现音色克隆：https://t.zsxq.com/JKP1Z

表情肖像动画

EMO
Hedra
Loopy

https://t.zsxq.com/4msfx

换脸-FaceFusion

项目地址: https://github.com/facefusion/facefusion.git

视频虚拟试穿ViViD

阿里ViViD：https://alibaba-yuanjing-aigclab.github.io/ViViD/

项目地址： https://github.com/alibaba-yuanjing-aigclab/ViViD

论文地址：https://arxiv.org/abs/2405.11794

唇形同步工具-wav2lip

主要用于将音频信号与视频中人物的口型动作进行高度匹配的同步生成。它通过分析音频内容，自动生成与语音内容一致的嘴唇动作，并将其叠加到目标视频中，从而实现逼真的“对口型”效果。

开源项目：https://github.com/Rudrabha/Wav2Lip

直接访问：https://sync.so/

Easy-Wav2Lip：Wav2Lip的改进版本，操作更简便，生成效果更逼真

洛曦-数字人视频播放器：https://github.com/Ikaros-521/digital_human_video_player

AI视频

形象层面：真人扫描建模形成数字人模型 + 动作库 + NLP意图识别 + 匹配算法

语音层面：wav2lip

虚拟主播LinlyTalker

Linly-Talker是一款创新的数字人对话系统，它融合了最新的人工智能技术，包括大型语言模型（LLM）、自动语音识别（ASR）、文本到语音转换（TTS）和语音克隆技术。

这个系统通过Gradio平台提供了一个交互式的Web界面，允许用户上传图片与AI进行个性化的对话交流。

项目地址：https://www.codewithgpu.com/i/Kedreamix/Linly-Talker/Kedreamix-Linly-Talker

实测ChatTTS，一款语音生成模型:https://mp.weixin.qq.com/s/aN43iwe2KRjfGW86MvAeWA

核心特点

多模型集成：Linly-Talker整合了Linly、GeminiPro、Qwen等大模型，以及Whisper、SadTalker等视觉模型，实现了高质量的对话和视觉生成。

多轮对话能力：通过GPT模型的多轮对话系统，Linly-Talker能够理解并维持上下文相关的连贯对话，极大地提升了交互的真实感。

语音克隆：利用GPT-SoVITS等技术，用户可以上传一分钟的语音样本进行微调，系统将克隆用户的声音，使得数字人能够以用户的声音进行对话。

实时互动：系统支持实时语音识别和视频字幕，使得用户可以通过语音与数字人进行自然的交流。

视觉增强：通过数字人生成等技术，Linly-Talker能够生成逼真的数字人形象，提供更加沉浸式的体验。

Linly-Talker的设计理念是创造一种全新的人机交互方式，不仅仅是简单的问答，而是通过高度集成的技术，提供一个能够理解、响应并模拟人类交流的智能数字人。

D-iD

付费方案：https://www.d-id.com/