Teknologi

Memajukan Penyelarasan Kecerdasan Buatan Dan Nilai Kemanusiaan

Memajukan Penyelarasan Kecerdasan Buatan Dan Nilai Kemanusiaan – Sistem AI semakin mampu membantu manusia dalam tugas-tugas kompleks, mulai dari layanan pelanggan hingga chatbots dan algoritma diagnostik medis. Namun, karena sistem AI ini mengambil tanggung jawab yang lebih besar, penting untuk menjaganya tetap sejalan dengan nilai-nilai dan preferensi kemanusiaan.

Memajukan Penyelarasan Kecerdasan Buatan Dan Nilai Kemanusiaan

meggettsc – Salah satu pendekatan untuk mencapai hal ini adalah teknik yang disebut pembelajaran penguatan dengan umpan balik manusia (RLHF). Dalam RLHF, sistem AI, yang disebut kebijakan, diberi penghargaan atau hukuman berdasarkan penilaian manusia atas perilakunya. Tujuannya adalah agar politik belajar memaksimalkan manfaatnya dan berperilaku sesuai dengan preferensi masyarakat.

Komponen utama RLHF adalah Remuneration Model (RM). RM bertanggung jawab untuk mengevaluasi langkah-langkah dan hasil kebijakan serta memberikan sinyal penghargaan yang mengarahkan pembelajaran. Merancang RM yang baik merupakan sebuah tantangan karena preferensi masyarakat bisa jadi rumit, bergantung pada konteks, dan bahkan tidak konsisten. Peneliti Google DeepMind baru-baru ini mengusulkan teknik inovatif yang disebut Weight Averaged Reward Models (WARM) untuk meningkatkan desain RM.

Bangkitnya Penggabungan Model
Meningkatnya minat terhadap strategi penggabungan model seperti model Ratatouille berasal dari kesadaran bahwa model yang lebih besar, meskipun efektif, bisa jadi tidak efisien dan tidak praktis. Melatih model dengan triliunan parameter memerlukan data, komputasi, waktu, dan biaya yang sangat besar. Yang lebih penting lagi, model-model ini cenderung melebih-lebihkan distribusi pelatihan, sehingga menghambat kemampuan mereka untuk menggeneralisasi banyak skenario kehidupan nyata.

Baca Juga : Generator Pitch Deck AI Terbaik

Model casting memberikan cara alternatif untuk membuka fitur yang lebih besar tanpa cakupan yang tidak dapat dikelola. Dengan menggunakan beberapa model khusus yang dilatih untuk distribusi, tugas, atau tujuan berbeda, penggabungan model bertujuan untuk meningkatkan keserbagunaan dan ketahanan di luar distribusi. Premisnya adalah bahwa model yang berbeda menyimpan pola prediksi berbeda yang dapat saling melengkapi bila digabungkan.

Hasil terkini menunjukkan potensi konsep ini. Model yang diperoleh melalui agregasi dapat menyamai atau bahkan melampaui performa model raksasa seperti GPT-3, meskipun memiliki parameter yang jauh lebih sedikit. Misalnya, ansambel model Ratatouille dengan hanya 7 titik kontrol berukuran sedang mencapai akurasi maksimum pada kumpulan data pengikatan teks berdimensi tinggi, lebih baik daripada GPT-3.

Penyelarasan Kecerdasan Buatan

Model Imbalan Rata-Rata Tertimbang
WARM secara inovatif menggunakan model imbalan proksi (RM), yang merupakan rata-rata tertimbang dari beberapa RM individual, masing-masing dikonfigurasi oleh LLM terlatih yang sama namun dengan hyperparameter berbeda. Metode ini meningkatkan efisiensi, keandalan dalam mengubah alokasi, dan ketahanan terhadap preferensi yang tidak konsisten. Studi ini juga menunjukkan bahwa menggunakan WARM sebagai proksi RM, terutama ketika jumlah rata-rata RM meningkat, meningkatkan kinerja dan memperlambat peretasan hadiah dan efek tracking-is-rewarded. akan menjadi lebih buruk seiring berjalannya waktu.

Urutan Acak
Pendekatan yang sepele namun efektif adalah dengan mengacak urutan titik data yang dilihat oleh setiap model selama pelatihan. Bahkan langkah sederhana ini menghilangkan korelasi bobot dan mengurangi pola memori yang berlebihan.

Variasi hyperparameter
Menyesuaikan hyperparameter seperti kecepatan pembelajaran dan probabilitas dropout pada setiap giliran memberikan variasi yang berguna. Model-model tersebut mengambil pendekatan berbeda dan menangkap karakteristik data yang berbeda.

Checkpoint Average – Baklava
Metode Baklava menginisialisasi model untuk menggabungkan snapshot berbeda pada jalur pelatihan yang sama. Hal ini mengurangi kendala dibandingkan dengan model sup, yang memerlukan titik awal yang sama. Dibandingkan dengan model Ratatouille, Baklava menghindari tugas tambahan. Secara keseluruhan, ini memberikan keseimbangan efektif antara akurasi dan variabilitas.

Analisis menegaskan bahwa menambahkan pos pemeriksaan lama dengan rata-rata bergerak akan menurunkan kinerja individu dan mengorbankan manfaat keberagaman. Rata-rata hasil akhir dari setiap proses akan menghasilkan kinerja yang lebih baik. Secara keseluruhan, menyeimbangkan tujuan keberagaman dengan menjaga akurasi masih merupakan tantangan penelitian yang terbuka.

Secara keseluruhan, kombinasi model ini konsisten dengan prinsip umum industri yang menggunakan kembali sumber daya yang ada secara efektif untuk meningkatkan keandalan, efisiensi, dan keserbagunaan. Kesederhanaan rata-rata tertimbang memperkuat posisinya sebagai kandidat terbaik untuk merakit model yang kuat dari blok penyusun yang ada.

Tidak seperti metode ansambel rata-rata prakiraan konvensional, WARM meminimalkan biaya komputasi dengan hanya mempertahankan satu set bobot. Eksperimen pada tugas peringkasan teks menunjukkan efektivitas WARM:

Untuk sampel N terbaik, WARM mencapai tingkat kemenangan 92,5% dibandingkan dengan pemilihan acak berdasarkan preferensi manusia.
DiRLHF, kebijakan WARM mencapai tingkat kemenangan sebesar 79,4% dibandingkan dengan kebijakan yang dilatih dengan satu RM setelah jumlah langkah yang sama.
WARM masih berfungsi dengan baik, meskipun seperempat tag manusia rusak.
Hasil ini menggambarkan potensi WARM sebagai teknik praktis untuk mengembangkan asisten AI sejati yang andal.
Dengan mengatasi inkonsistensi masukan manusia, praktik WARM dapat tetap konsisten dengan nilai-nilai kemanusiaan meski terus belajar dari pengalaman baru.

Gambar Lebih Besar
WARM berada di titik persimpangan dua tren utama dalam penelitian penyelarasan AI. Yang pertama adalah studi umum di luar distribusi (OOD), yang bertujuan untuk meningkatkan kinerja model dengan data baru yang berbeda dari distribusi pelatihan. Studi lainnya adalah studi tentang ketahanan algoritmik, yang berfokus pada ketahanan meskipun terdapat gangguan atau gangguan masukan yang kecil.

Membuat hubungan antara bidang-bidang ini seputar konsep invarian yang dipelajari, WARM mengarahkan kita pada teknik penentuan nilai yang lebih mendasar. Wawasan WARM dapat digeneralisasikan bahkan melampaui RLHF, sehingga memberikan pelajaran yang lebih luas untuk sistem pembelajaran mesin yang berinteraksi dengan dunia terbuka.

Pemodelan imbalan tentu saja hanyalah salah satu bagian dari teka-teki. Kami masih memerlukan kemajuan dalam tantangan lain seperti penentuan imbalan, pelacakan terukur, dan penelusuran aman. Dikombinasikan dengan teknologi yang saling melengkapi, WARM dapat mempercepat pengembangan kecerdasan buatan yang meningkatkan kesejahteraan manusia secara berkelanjutan. Dengan secara kolektif menjelaskan prinsip-prinsip di balik keselarasan yang kuat, para peneliti memetakan jalur menuju kecerdasan buatan yang berguna dan etis.

Jacob Anderson