本周AI领域多项技术均有新动向，包括3D模型生成、AI演员、动漫游戏、视频合成、图像生成。进来看看吧

Автор: 哎呀嗳

Загружено: 6 апр. 2025 г.

Просмотров: 42 просмотра

Описание:

AI技术的最新动态

本周AI领域多项创新技术均有新动向，包括3D模型生成、AI演员、动漫游戏、视频合成、图像生成等。

主要内容

1. High 3D Gen：高质量3D模型生成器
功能：仅需一张图片，即可生成高质量的3D模型。

特点：
生成的模型细节丰富，甚至能够估算原始图片中不存在的背面细节。
在处理复杂细节（如龙的鳞片、奖杯的花纹等）时表现出色。
与现有其他3D模型生成器（如Hunyan 3D和Trellis）相比，细节和准确性大幅提升。

工作原理：
输入图片后，首先估算图片的法线贴图（normal map），即物体表面的方向。
将法线贴图输入扩散模型（#diffusionmodels #diffusionmodel），生成3D几何形状。
使用“法线正则化潜在扩散”（normal regularized latent #diffusion）技术。

使用方式：
提供了免费的Hugging Face在线演示，用户可上传图片生成3D模型。
预计4月10日之前会发布代码。

2. HSMR（Human Skeleton Mesh Recovery）：人体骨骼网格恢复

功能：通过图片或视频生成人体的3D模型，包括骨骼和形状，并能准确估算姿势和动作。

特点：
不仅能映射人体的外形，还能包括完整的骨骼结构，从而更准确地估计身体各部位的姿势。
可以从不同角度查看人物的动作，而不局限于原始相机角度。

工作原理：
输入图片或视频帧后，通过Transformer模型估算相机位置、人物形状和姿势。
使用特殊的颅骨模型（skull model）重建人物的骨骼。

使用方式：
提供了Hugging Face在线演示和GitHub代码，用户可以上传图片进行测试。

3. Anime Gamer：AI驱动的互动动漫游戏

功能：通过文本提示创建无尽的互动动漫游戏，用户可以控制角色和环境。

特点：
用户可以通过简单的文本指令（如“Sosuke安静地坐在车里”）控制角色的行为。
角色的状态（如体力、社交能量等）会根据行为变化。
游戏场景和角色动作可以实时生成。

使用方式：
提供了Hugging Face演示和GitHub代码，用户可以在本地运行。

4. Skywork AI的Skyreels A2：视频合成工具

功能：将不同的参考图片（包括人物、物体和背景）组合成连贯的视频。

特点：
可以创建各种场景，如人物在海滩上、女人撑伞等。
能够处理复杂的动作和场景，如快速奔跑的狗、海浪拍打等。
可以用于创建广告、音乐视频等。
使用方式：
提供了Hugging Face演示和GitHub代码，用户可以在本地运行。

5. Dream Actor M1：AI演员技术

功能：将一张图片中的人物动作、手势和表情转移到另一个参考视频中的人物上。

特点：
不仅可以转移身体动作，还能准确转移手势和面部表情。
可以用于动画已故演员，甚至可以改变相机角度生成不同视角的视频。
支持多种艺术风格，包括2D、3D和动漫风格。

使用方式：
目前仅发布了技术论文，尚未开源。

6. Easy Control：开源图像生成器

功能：基于多种条件生成图像，如颜色参考图、边缘图、深度图等。

特点：
可以将多种条件（如颜色、边缘、姿势等）结合在一起生成图像。
提供了免费的Hugging Face演示，用户可以在线使用。
可以将普通图片转换为宫崎骏风格。

7. Luminina MGBT2：开源图像生成器

功能：基于自回归模型的图像生成器，类似于OpenAI的GPT-40 #图像生成器。

特点：
可以根据文本提示生成图像，也可以对现有图像进行微调。
支持多种输入，如边缘图、深度图等。
提供了GitHub代码，用户可以在本地运行。

8. Mocha：文本到视频的AI工具

功能：根据文本描述和 #语音音频生成视频。

特点：
生成的视频动作自然，支持复杂的场景和动作。
可以指定视频中的多个角色和场景。

使用方式：
目前仅发布了技术论文，尚未开源。

9. #OpenAI模型更新

计划变更：OpenAI计划发布GPT-03和GPT-04 Mini，随后发布GPT-5。

特点：
GPT-03将单独发布，而不是作为GPT-5的一部分。
GPT-03在编码、数学、科学等STEM领域表现出色。
GPT-5将结合非思考模型（如GPT-40）和思考模型（如GPT-01和GPT-03）。
10. Segment Any Motion in Videos：视频运动分割工具

功能：识别并分割视频中的运动物体。

特点：
能够处理复杂的运动场景，如快速运动、模糊、遮挡等。
提供了GitHub代码，用户可以在本地运行。

总结
本周AI技术在3D模型生成、视频合成、图像生成和动画制作等领域均有新进展。
这些技术具有广泛的应用前景，包括游戏开发、广告制作、影视特效等。
部分工具已经开源，用户可以自行下载和使用。

-----------
#ai代理 #文生图 #图生视频 #文生视频 #多模态AI代理 #生成式ai #aiagent #agenticai #llm #AGI #多模态 #多模态ai #大模型

本周AI领域多项技术均有新动向，包括3D模型生成、AI演员、动漫游戏、视频合成、图像生成。进来看看吧

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Blender Tutorial for Complete Beginners - Part 1

Blender Tutorial for Complete Beginners - Part 1

Glitter Dust 4k Sparkling Particles Overlay Free Footage Dust Video

Glitter Dust 4k Sparkling Particles Overlay Free Footage Dust Video

【入门指南】不会建模，怎么3D打印？

【入门指南】不会建模，怎么3D打印？

Lofi Hip Hop Radio, Beats to Chill, Studying, Working 📚 Relaxation, Yoga, coffee break, Join with us

Lofi Hip Hop Radio, Beats to Chill, Studying, Working 📚 Relaxation, Yoga, coffee break, Join with us

人脸识别啥原理？人工智能（二）卷积神经网络

人脸识别啥原理？人工智能（二）卷积神经网络

Deep & Melodic House 24/7: Relaxing Music • Chill Study Music

Deep & Melodic House 24/7: Relaxing Music • Chill Study Music

2025最新8款AI赚钱工具，90%的人却不知道，全部免费，错过等于少赚50万！0基础也能上手，1个月轻松赚到上百万$$$，用了上百款AI工具后，我总结了...这几个宝藏AI

2025最新8款AI赚钱工具，90%的人却不知道，全部免费，错过等于少赚50万！0基础也能上手，1个月轻松赚到上百万$$$，用了上百款AI工具后，我总结了...这几个宝藏AI

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

《机智过人》 20170908 人工智能史上第一位出版诗集的机器人小冰 | CCTV

《机智过人》 20170908 人工智能史上第一位出版诗集的机器人小冰 | CCTV