Pengantar
Diff-SVC (singing voice conversion via diffusion model) adalah sistem AI yang dikembangkan untuk mengubah suara bernyanyi dari satu penyanyi (source) menjadi suara penyanyi lain (target) — sambil mempertahankan lirik, melodi, dan ritme asli. Songxiang Liu (刘颂湘)+2www1.se.cuhk.edu.hk+2
Dalam paper resminya, tim dari The Chinese University of Hong Kong dan Tencent AI Lab menyebutkan bahwa teknik yang digunakan adalah model denoising diffusion probabilistic model (DDPM) yang diadaptasi untuk domain suara bernyanyi. arXiv+1
Bagaimana Cara Kerja Diff-SVC?

Secara garis besar, berikut tahapan kerjanya:
- Sistem memanfaatkan phonetic posteriorgrams (PPGs) sebagai fitur konten utama, bersama dengan fundamental frequency (F0) dan loudness sebagai fitur tambahan. www1.se.cuhk.edu.hk+1
- Proses dimulai dengan forward-diffusion: mel-spektrogram asli “dirusak” (ditambahkan noise) hingga beberapa langkah.
- Kemudian modul denoising (generator) dipakai untuk memprediksi noise yang ditambahkan, dan mengembalikan audio ke bentuk bersih dengan karakter suara target. arXiv+1
- Hasil akhirnya: audio bernyanyi yang mempertahankan melodi & lirik asli dari source, namun “disuarakan” dengan karakter suara target.
Fitur dan Keunggulan Utama
- Suara hasil konversi memiliki tingkat naturalness dan kesamaan suara (similarity to target singer) yang diklaim unggul dibanding banyak metode sebelumnya. www1.se.cuhk.edu.hk+1
- Model open-source untuk keperluan riset (ada implementasi di GitHub) sehingga komunitas dapat mengeksplorasi teknologi SVC. GitHub+1
- Mendukung sampling rate hingga 44.1 kHz dalam versi terbaru model open-source (untuk kualitas audio lebih tinggi). GitHub+1
Keterbatasan & Catatan Penting
- Diff-SVC awalnya bersifat riset dan bukan ditujukan langsung untuk produksi komersial besar. Pengembang memberi catatan bahwa penggunaan publik harus memperhatikan lisensi dan hak suara. GitHub+1
- Meskipun menghasilkan suara yang mirip target, kontrol penuh atas ekspresi vokal, emosi, atau gaya masih terbatas dibanding manusia asli.
- Karena ini adalah teknologi conversion (mengubah suara yang sudah ada), bukan text-to-singing, maka pengguna harus menyediakan input audio bernyanyi sebagai basis.
Perbandingan dengan Teknologi Lain
| Teknologi | Fokus Utama | Input | Output | Cocok Untuk |
|---|---|---|---|---|
| Diff-SVC | Konversi suara bernyanyi satu penyanyi ke penyanyi lain | Audio bernyanyi | Audio bernyanyi dengan suara target | Musisi, eksperimen suara |
| Text-to-sing (misal Suno AI / Udio AI) | Mengubah teks ke lagu lengkap | Teks + deskripsi | Lagu dengan vokal otomatis | Kreator lagu tanpa nyanyi sendiri |
| SVC lainnya (misal RVC) | Konversi suara berbicara atau bernyanyi | Audio | Audio berbasis suara target | Voice-changer, cover lagu |
Aplikasi Nyata & Potensi
- Musisi atau kreator bisa merekam nyanyian sendiri kemudian mengubah suara ke karakter lain untuk eksperimen atau efek kreatif.
- Produksi demo lagu dengan berbagai karakter vokal tanpa harus mengundang banyak penyanyi.
- Industri hiburan dan game bisa menggunakan SVC untuk membuat versi lagu dengan suara karakter spesifik atau tokoh virtual.
Etika dan Hak Cipta
Penggunaan teknologi seperti Diff-SVC menyentuh beberapa isu penting:
- Jika target suara adalah penyanyi terkenal atau memiliki hak suara, maka penggunaan tanpa izin bisa menimbulkan pelanggaran.
- Transparansi penting: jika lagu atau audio yang dihasilkan menggunakan teknologi SVC, sebaiknya dicantumkan bahwa suara telah diubah oleh AI.
- Pengembang open-source menekankan bahwa proyek tersebut “untuk kepentingan riset” dan pengguna bertanggung-jawab terhadap hak cipta audio input.
Penutup
Sahabat Blog Learning & Doing demikianlah penjelasan mengenai Diff-SVC, Sistem AI yang Ubah Suaramu Jadi Penyanyi Lain . Semoga Bermanfaat . Sampai ketemu lagi di postingan berikut nya
