SLX's Blogs

Sing Voice Conversion: Hajimi Music

Posted on 2025-12-19 Edited on 2025-12-23 In Entertainment Word count in article: 183 Reading time ≈ 1 mins.

这一学期里选了一门选修课：智能语音技术 (王帅老师)，在期末课程项目中，我们小组尝试做一个哈基米音乐生成器。我们尝试利用目前开源的歌声转换技术，在进行模型的微调后，搭建出一个端到端、合成效果较好的哈基米音乐生成器。具体代码和演示demo可以参考我们的仓库：https://github.com/CrazyJassBread/Hajimi-Music-generator

EDM: A Landmark Work in Diffusion Models

Posted on 2025-12-19 Edited on 2025-12-23 In research Word count in article: 8.3k Reading time ≈ 1:07

EDM 论文可以说是一篇扩散模型领域里程碑式的论文，其真正总结了当前出现的主流扩散模型并形成了一套通用框架；在此基础上，EDM 还在通用框架的基础上提出了一套较优的实现方案，并在各大主要数据集上达到了 SOTA 的性能。

Diffusion Models

Posted on 2025-12-18 Edited on 2025-12-23 In research Word count in article: 4.8k Reading time ≈ 38 mins.

生成式模型是如何从“加噪”与“去噪”的物理直觉，进化到“随机微分过程”与“概率流匹配”的数学精密推导的？
本文深入解析了 DDPM 的马尔可夫链基础与噪声回归本质，探讨了 DDIM 如何通过 ODE 视角实现采样加速，并进一步延伸至 Score Matching 在流形分布上的理论支撑，最后还剖析了 Flow Matching 如何利用最优传输理论将复杂的概率演化简化为高效的线性轨迹。通过对比 SDE 与 ODE 两种范式，希望探索生成模型在质量、速度与确定性之间取得平衡的数学底层逻辑，进而窥见扩散模型的数学本质。

Feed-Forward 3D Models

Posted on 2025-11-23 Edited on 2025-12-23 In research Word count in article: 1.4k Reading time ≈ 11 mins.

本文梳理了前馈 3D 重建模型（Feed-Forward 3D Models）从相机定位到大规模场景恢复的技术演进脉络。从早期的端到端位姿回归（PoseNet），到基于 ViT 和稠密预测的几何重建标杆（DUSt3R 及其演进版 MASt3R），再到完全依靠 data-driven 的 VGGT，前馈模型正逐步摆脱对传统优化对齐的依赖。

How to conduct research before the experiment?

Posted on 2025-11-16 Edited on 2025-12-23 In research Word count in article: 368 Reading time ≈ 3 mins.

科研小白第一次进行项目调研，发现有点无从下手$\ldots$