Tulisan ini merupakan tugas Jaringan Saraf Tiruan (JST) di Teknik Elektro, Universitas Andalas. Dalam Tulisan ini akan menjelaskan tentang “Basic Principles of ANNs And Their Early Structure” yang bersumber dari buku Principles of Artificial Neural Networks 2nd edition oleh World Scientific.
Ide dasar di balik pelatihan statistik (stochastic) dari jaringan saraf adalah: Perubahan nilai oleh sejumlah kecil nilai acak dan menjaga perubahan-perubahan yang dapat meningkatkan performa. Kelemahan dari pendekatan ini adalah bahwa hal itu sangat lambat! Selain itu, dapat terjebak di minimum lokal jika perubahan acak kecil karena perubahan mungkin tidak memiliki kekuatan yang cukup untuk mendaki \ di atas sebuah bukit “(lihat Gambar. 11.1) untuk mencari lembah lain.
Untuk mengatasi terjebak dalam minimum lokal, perubahan nilai yang besar dapat digunakan. Namun, kemudian jaringan dapat menjadi berosilasi dan miss menetap di setiap nilai minimum. Untuk menghindari ketidakstabilan ini mungkin, perubahan nilai dapat secara bertahap menurun dalam ukuran. Strategi ini menyerupai proses anil dalam metalurgi. Pada dasarnya berlaku untuk semua jaringan yang dijelaskan sebelumnya, tetapi khususnya untuk kembali propagasi dan Mode jaringan ed.
11.1 Metode Anil (Kembali)
Dalam metalurgi, anil berfungsi untuk mendapatkan pencampuran yang diinginkan molekul untuk membentuk paduan logam. Oleh karena itu, logam pada awalnya diangkat ke suhu di atas titik leleh. Dalam keadaan cair molekul terguncang, sehingga jarak tinggi perjalanan. Secara bertahap suhu berkurang dan akibatnya amplitudo gerak berkurang sampai logam mengendap di tingkat energi terendah. Gerak molekul diatur oleh distribusi probabilitas Boltzman.
p (e) = exp (e = K T) .............(11.1)
Dimana p (e) adalah probabilitas sistem berada di tingkat energi e. K menjadi Boltzman konstan, T yang menunjukkan temperatur absolut dalam derajat Kelvin (selalu positif). Dalam hal ini, jika T adalah tinggi, exp (e = K T) mendekati nol, sehingga kemungkinan hampir semua nilai e, yaitu adalah p (e) yang tinggi untuk setiap relatif tinggi e. Namun, ketika T berkurang, kemungkinan nilai tinggi e berkurang karena e = K T meningkat sehingga exp (e = K T) dikurangi untuk tinggi e.
11.2 Simulasi Annealing Oleh Boltzmann Pelatihan Nilai(Kembali)
Kita gantikan e Persamaan. (11.1) dengan E yang menunjukkan perubahan dalam fungsi energi E
p (E) = exp (E = K T) ..........(11.2)
sementara T menunjukkan setara suhu. Sebuah prosedur latihan bobot jaringan saraf sehingga akan menjadi:
- Atur suhu setara T di beberapa nilai awal yang tinggi.
- Terapkan set input pelatihan untuk jaringan dan menghitung output jaringan, dan menghitung fungsi energi.
- Menerapkan perubahan berat badan secara acak w dan menghitung ulang sesuai output dan fungsi energi (misalnya fungsi error kuadrat E = i (error) 2).
- Jika energi dari jaringan berkurang (untuk menunjukkan peningkatan kinerja) kemudian terus w, lain: menghitung probabilitas p (E) menerima w, melalui Persamaan. (11.2) di atas dan pilih beberapa pseudo nomor acak r dari distribusi seragam antara 0 dan 1. Sekarang, jika p (E)> r (catatan: E> 0 dalam kasus peningkatan E) maka masih menerima perubahan di atas, lain, kembali ke nilai sebelumnya dari w.
- Pergi ke Langkah (3) dan ulangi untuk semua bobot dari jaringan, sementara secara bertahap reduc-ing T setelah setiap set lengkap bobot telah (kembali) disesuaikan.
- Prosedur di atas memungkinkan sistem untuk sesekali menerima perubahan bobot聽ke arah yang salah (memburuknya kinerja) untuk membantu menghindari dari terjebak di minimum lokal.
- Pengurangan bertahap dari temperatur setara T mungkin deterministik (menyusul tingkat pra-ditentukan sebagai fungsi dari jumlah iterasi). Penyesuaian stokastik w mungkin seperti di Sec. 11.4.
11.3 Penentuan Stokastik Besaran Bobot Perubahan(Kembali)
Penyesuaian stokastik (11,3 langkah 3 di Sec. Di atas) w juga dapat diikuti setara termodinamika, di mana w dapat dianggap untuk memenuhi distribusi Gaussian seperti dalam Persamaan. (11.4):
p yang menunjukkan probabilitas dari w perubahan berat badan. Atau p dapat mematuhi distribusi Boltzman serupa dengan E. Dalam kasus ini, Langkah 3 adalah dimodifikasi untuk memilih langkah perubahan w sebagai berikut [Metropolis et al., 1953].
1. Pra-menghitung 1P distribusi kumulatif (w), melalui integrasi numerik
2. Pilih nomor acak dari distribusi seragam pada interval dari 0 sampai 1. Gunakan nilai ini sehingga P akan memuaskan, untuk beberapa w:
µ= P...............(11,5)
dan mencari yang sesuai w ke P menurut (11,6). Menunjukkan resultan w sebagai wk hadir untuk cabang saraf yang diberikan. Oleh karena itu, berasal
Δwk = wk wk 1...........(11,6)
wk– 1 menjadi nilai bobot sebelumnya di cabang dipertimbangkan dalam jaringan.
11.4 Pengaturan Suhu-Equivalent(Kembali)
Kita telah menyatakan bahwa pengurangan suhu bertahap merupakan dasar untuk proses anil simulasi. Telah terbukti [Geman dan Geman 1984] bahwa untuk konvergensi ke minimum global, laju penurunan suhu-setara harus memenuhi
k yang menunjukkan iterasi langkah.
11.5 Cauchy Pelatihan Neural Network(Kembali)
Karena pelatihan Boltzman dari jaringan saraf seperti pada Secs. 11,2-11,4 sangat lambat, metode stokastik cepat berdasarkan distribusi probabilitas Cauchy diusulkan oleh Szu (1986). Distribusi Cauchy perubahan energi diberikan oleh
untuk menghasilkan fungsi distribusi lagi (surut lebih lambat) ekor dibandingkan kasus Boltzman atau distribusi Gaussian. Perhatikan bahwa untuk distribusi Cauchy:
var (ΔE) = ∞!!
Ketika distribusi Cauchy digunakan untuk w, resultan w akan memuaskan
Δw = ρT tan [p (Δw)].................... (11.9)
menjadi pembelajaran tingkat koefisien. Langkah (3) dan langkah (4) dari prosedur framing dari Sec. 11.3 demikian akan menjadi:
(3.a) Pilih nomor n acak dari distribusi seragam antara 0 dan 1 dan membiarkan
p (Δw) = n......................... (11,10)
dimana p adalah dalam bentuk persamaan. (11.8) di atas
(3.b) Selanjutnya, menentukan w via Persamaan. (11,9) untuk memenuhi
Δw = ρT tan (n).....................(11.11)
1 + k tingkat Sec log. 11.5.
Perhatikan bahwa algoritma baru untuk T mengingatkan kondisi Dvoretzky untuk konvergensi dalam pendekatan stokastik [Graupe, 1989].
(4) Mempekerjakan Cauchy atau distribusi Boltzman di (4) dari Sec. 11.3.
Metode pelatihan di atas adalah lebih cepat dari pelatihan Boltzman. Namun, hal ini masih sangat lambat. Selain itu, dapat mengakibatkan langkah ke arah yang salah menyebabkan ketidakstabilan. Karena Cauchy-mesin dapat menghasilkan yang sangat besar Δw, jaringan dapat terjebak. Untuk menghindari hal ini, batasan keras dapat ditetapkan. Atau, Δw dapat tergencet menggunakan algoritma yang sama dengan yang digunakan untuk fungsi aktivasi, yaitu:
M menjadi batas keras pada amplitudo Δw.
11.6 Statistik Pelatihan Studi Kasus – Jaringan Stochastic Hopfield Pengenalan Karakter(Kembali)
Studi kasus Sec. 11.a terkait dengan situasi di mana tidak ada minimum lokal yang muncul dan dengan demikian ada tampaknya tidak ada t bene dalam jaringan stokastik. Kami sekarang hadir masalah di mana dalam situasi tertentu jaringan stokastik dapat meningkatkan pada satu deterministik, karena minima lokal memang ada. Namun, tidak selalu melakukan algoritma stochastic memperbaiki satu deterministik bahkan dalam studi kasus ini, seperti yang ditunjukkan oleh hasil di bawah.
Sumber :
Sumber :
- http://ahmadfajri88.blogspot.com/2017/04/cahpter-11-statistical-training.html
- Principles of Artificial Neural Networks 2nd edition oleh World Scientific
Komentar
Posting Komentar