Pencarian

GPT-5.5 Kejutkan Publik dengan Kalahkan Claude Fable 5 di Benchmark Agresif ALE, Skor Tertinggi Capai 24%

Kamis, 11 Juni 2026 • 16:54:32 WIB
GPT-5.5 Kejutkan Publik dengan Kalahkan Claude Fable 5 di Benchmark Agresif ALE, Skor Tertinggi Capai 24%
GPT-5.5 unggul dalam benchmark ALE dengan skor tertinggi 24%.

Para peneliti dari University of California, Berkeley, melalui Center for Responsible, Decentralized Intelligence (RDI), bersama lebih dari 300 pakar dari berbagai bidang, meluncurkan Agents’ Last Exam (ALE) pekan ini. Benchmark ini dirancang untuk menjadi tolok ukur yang lebih realistis, menguji apakah AI benar-benar bisa menjalankan alur kerja profesional yang panjang dan kompleks, bukan sekadar memecahkan soal-soal isolasi yang sudah lazim di berbagai tes sebelumnya.

ALE Dirancang untuk Membongkar Celah 'Kecurangan' Model AI

Salah satu masalah besar dalam evaluasi AI adalah fenomena "kecurangan" di mana model membaca kunci jawaban yang tersembunyi di dalam sistem, atau penguji otomatis yang kerap salah menolak solusi yang benar. ALE menetralisir celah ini dengan memaksa model beroperasi dalam kerangka Generalist Computer-Use Agent (GCUA). Agen harus menggunakan "mata" dan "tangan" virtualnya untuk menavigasi mesin Linux atau Windows, menggabungkan perintah shell dengan klik-titik di perangkat lunak desktop berat seperti Siemens NX untuk pemodelan 3D atau Adobe After Effects untuk komposisi efek visual.

"Ini bukan lagi soal menjawab pertanyaan dengan benar," tulis Zengyi Qin, peneliti MIT PhD dan kontributor data proyek, di akun X-nya. "Claude Opus 4.8 memiliki tingkat kelulusan 0,0% pada subset tersulit. Ini bukti bahwa model tercanggih sekalipun masih gagal total di hadapan tugas profesional yang autentik."

GPT-5.5 Unggul Berkat Ketaatan pada Instruksi Kompleks

Kemenangan GPT-5.5 yang menggunakan harness Codex bukanlah kebetulan. Analisis pihak ketiga menunjukkan bahwa model OpenAI saat ini lebih unggul dalam mematuhi instruksi multi-bagian yang rumit. Sebaliknya, arsitektur Claude dari Anthropic kerap menunjukkan sifat "pelupa" terhadap langkah-langkah yang harus dijalankan, sebuah kelemahan fatal di ALE yang menuntut eksekusi alur kerja yang ketat.

ALE sendiri membagi tugasnya ke dalam tiga tingkat kesulitan: Near-Term, Full-Spectrum, dan Last-Exam. Pada tingkat tersulit, Last-Exam, sebagian besar konfigurasi—termasuk Claude Opus 4.8 milik Anthropic dan Gemini CLI milik Google—mencatatkan tingkat kelulusan 0,0%. Ini menegaskan bahwa meskipun GPT-5.5 menjadi yang terbaik, performa absolutnya masih sangat rendah untuk standar pekerjaan profesional.

Bagaimana ALE Menjaga Integritas Benchmark di Tengah Ledakan Data

Masalah kontaminasi benchmark—di mana soal tes bocor ke data pelatihan model—menjadi momok bagi industri. ALE mengatasinya dengan strategi peluncuran ganda. Hanya sekitar 10% dari total 1.490 tugas (sekitar 150 tugas) yang dirilis ke publik melalui GitHub dan Hugging Face. Sisanya, lebih dari 1.300 tugas, dijaga ketat sebagai data privat. Tugas-tugas ini akan diputar secara sistematis: tugas privat akan dipublikasikan secara bertahap, sementara tugas publik yang sudah lama akan ditarik. Ini memastikan bahwa skor tinggi yang diraih model benar-benar hasil dari kemampuan, bukan hafalan.

Selain itu, ALE menyediakan dua papan skor: "Full" untuk tugas yang membutuhkan perangkat lunak berbayar, dan "Unlicensed" untuk tugas yang hanya menggunakan alat gratis. Ini mencegah model yang memiliki akses ke perangkat enterprise mendapat keuntungan tidak adil.

Skor 24%: Realitas Pahit di Balik Klaim Pemasaran AI

Bagi pengembang dan perusahaan yang frustrasi dengan kesenjangan antara klaim pemasaran dan performa produksi, kurva penilaian ALE yang keras menjadi pengecekan realitas yang sangat dibutuhkan. Dengan modal miliaran dolar yang diinvestasikan ke dalam agen AI, kebutuhan akan kompas yang mengarah ke utara sejati—bukan sekadar angka benchmark yang dimanipulasi—semakin mendesak. Hingga agen AI mampu menaklukkan ALE, mereka belum benar-benar siap bergabung dengan angkatan kerja manusia.

Bagikan
Sumber: venturebeat.com

This article was automatically rewritten by AI based on the source above without altering the facts of the original article.

Berita Lainnya

Indeks

Pilihan

Indeks

Berita Terkini

Indeks