这一学期里选了一门选修课:智能语音技术 (王帅老师),在期末课程项目中,我们小组尝试做一个哈基米音乐生成器。我们尝试利用目前开源的歌声转换技术,在进行模型的微调后,搭建出一个端到端、合成效果较好的哈基米音乐生成器。具体代码和演示demo可以参考我们的仓库:https://github.com/CrazyJassBread/Hajimi-Music-generator

Read more »

EDM 论文可以说是一篇扩散模型领域里程碑式的论文,其真正总结了当前出现的主流扩散模型并形成了一套通用框架;在此基础上,EDM 还在通用框架的基础上提出了一套较优的实现方案,并在各大主要数据集上达到了 SOTA 的性能。

Read more »

生成式模型是如何从“加噪”与“去噪”的物理直觉,进化到“随机微分过程”与“概率流匹配”的数学精密推导的?
本文深入解析了 DDPM 的马尔可夫链基础与噪声回归本质,探讨了 DDIM 如何通过 ODE 视角实现采样加速,并进一步延伸至 Score Matching 在流形分布上的理论支撑,最后还剖析了 Flow Matching 如何利用最优传输理论将复杂的概率演化简化为高效的线性轨迹。通过对比 SDE 与 ODE 两种范式,希望探索生成模型在质量、速度与确定性之间取得平衡的数学底层逻辑,进而窥见扩散模型的数学本质。

Read more »

本文梳理了前馈 3D 重建模型(Feed-Forward 3D Models)从相机定位到大规模场景恢复的技术演进脉络。从早期的端到端位姿回归(PoseNet),到基于 ViT 和稠密预测的几何重建标杆(DUSt3R 及其演进版 MASt3R),再到完全依靠 data-driven 的 VGGT,前馈模型正逐步摆脱对传统优化对齐的依赖。

Read more »
0%