Minggu, 05 Desember 2010

Speaker Recognition: Mengenali Seseorang dengan Suara

Kemajuan teknologi membawa sesuatu yang sulit dibayangkan menjadi kenyataan. Layaknya seorang tunanetra, sebuah mesin dapat digunakan untuk mengenali seseorang dengan suara yang diucapkannya. Hanya dengan mengeluarkan sepatah kata, seseorang dapat membuka kunci rumahnya atau menyalakan suatu perangkat komputer. Selain itu, teknologi ini juga dapat digunakan untuk mengenali seorang pelaku kriminal yang mengeluarkan kata-kata ancaman kepada para korbannya.


Teknologi tersebut biasa disebut dengan dengan speaker recognition. Speaker recognition adalah metoda mengenali seseorang dari sepotong frasa yang diucapkan oleh orang tersebut. Teknologi ini merupakan bagian dari teknologi biometrik. Teknologi biometrik adalah teknologi yang memanfaatkan bagian tubuh manusia untuk berbagai kepentingan. Biasanya, teknologi ini diterapkan uttuk mengenali seseorang yang secara alamiah memiliki ciri-ciri yang berbeda pada bagian tubuhnya dengan orang lain. Selain suara, beberapa bagian tubuh diekploitasi untuk kepentingan ini. Sidik jari, wajah dan retina mata merupakan bentuk lain dari teknologi biometrik. Seperti diketahui, siduk jari sudah sejak lama digunakan sebagai salah satu komponen identitas manusia. Hal ini dilakukan karena adanya kesulitan atau bahkan mustahil untuk menemukan dua orang yang mempunyai sidik jari yang sama. Dengan sentuhan pemikiran manusia, sebuah mesin yang dapat mengenali sidik jari seseorang diciptakan. Saat ini, mesin ini mulai mudah ditemukan diantara kehidupan manusia. Beberapa tempat yang dijadikan tempat untuk menempelnya mesin ini adalah pintu rumah dan beberapa bagian dari komputer atau laptop seperti mouse, keyboard, cashing, dan layar sentuh (touch screen). Dengan begitu, seseorang dapat membuka kunci pintu rumahnya hanya dengan menempelkan salah satu jari yang ada ditangannya. Dengan cara yang sama, salah satu jari manusia juga dapat digunakan untuk membuka password suatu komputer atau laptop. Dengan motivasi yang hampir sama dengan sidik jari, wajah dan retina mata dapat digunakan untuk untuk mengenali seseorang. Kedua bagian tubuh manusia ini dikenali dengan metoda yang dikenal dengan image processing. Informasi yang dijadikan parameter sudah jelas yaitu gambar dari wajah atau retina mata. Dengan teknologi digital signal processing, gambar tersebut diolah secara digital sampai diperoleh informasi yang dapat mengenali seseorang.

Speaker recognition terbagi menjadi verification dan identification. Automatic speaker verification (ASV) adalah penggunaan dari sebuah mesin untuk membuktikan identitas yang diklaim oleh seseorang dari suaranya. Dengan begitu, ASV dapat digunakan untuk proses absensi siswa atau karyawan, membuka kunci rumah atau membuka password komputer. Dalam automatic speaker identification (ASI), tidak ada pembuktian identitas yang diklaim dari sistem menentukan siapakah orang, anggota dari kelompok manakah orang tersebut, atau dalam kasus ini orang tersebut tidak diketahui. Teknologi ini dapat digunakan untuk mengenali pelaku kriminal jika dalam melakukan kejahatan mengeluarkan beberapa kata.

Speaker verification didefinisikan sebagai proses penentuan jika seorang speaker adalah orang yang mengklaim dirinya. Hal ini berbeda dengan masalah speaker identification, yang berupa proses penentuan jika seseorang speaker adalah orang yang spesifik atau bagian dari sebuah yang terdiri dari beberapa orang. Dalam speaker verification, seseorang membuat sebuah klaim identitas (misalnya dengan memasukkan sebuah nomor karyawan atau smart card yang dimilikinya). Dalam text-dependent recognition, frasa diketahui oleh sistem dan dapat berupa frasa yang tetap atau dapat berubah. Orang yang mengklaim (claimant) mengucapkan suatu frasa ke dalam microphone. Sinyal ini dianalisis oleh sebuah sistem verifikasi yang membuat keputusan biner untuk menerima atau menolak klaim identitas user atau mungkin untuk melaporkan kepercayaan yang tidak cukup dan meminta input tambahan sebelum membuat keputusan.

Claimant, yang sebelumnya direkam oleh sistem, memasukkan smart card yang mengandung informasi identitasnya. Dia kemudian berusaha untuk dikenali dengan mengucapkan sebuah frasa ke dalam microphone. Hal utama untuk sebuah sesi verifikasi, user harus merekam dalam sistem (di bawah kondisi yang diperhatikan). Selama proses perekaman, model suara dihasilkan dan disimpan (mungkin dalam sebuah smart card) untuk digunakan dalam sesi verifikasi berikutnya. Dalam hal ini juga mencocokkan antara akurasi dan durasi serta jumlah dari sesi perekaman.

Beberapa faktor dapat menyebabkan kesalahan dalam proses verifikasi dan identifikasi antara lain:
o Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa
o Keadaan emosional yang ekstrim (misalnya stress)
o Pergantian penempatan microphone (intrasession atau intersession)
o Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya multipath dan noise)
o channel mismatch (misalnya penggunaan microphone yang berbeda dalam perekaman dan verifikasi)
o Sakit (misalnya flu yang dapat merubah vocal tract)
o Aging (model vocal tract dapat berubah berdasarkan usia).

Dari beberapa faktor diatas terlihat bahwa keadaan tubuh atau kesehatan manusia juga dapat mempengaruhi hasil dari identifikasi. Hal ini semakin menjelaskan bahwa adanya keterkaitan antara kondisi tubuh manusia dengan teknologi biometrik seperti speaker recognition.

Download artikel selengkapnya dalam file PDF: Voice Recognition


0 komentar:

Posting Komentar

Twitter Delicious Facebook Digg Favorites More