GPT-5.5 Kejutkan Publik dengan Kalahkan Claude Fable 5 di Benchmark Agresif ALE, Skor Tertinggi Capai 24%

Kamis, 11 Juni 2026 • 16:54:32 WIB

Para peneliti dari University of California, Berkeley, melalui Center for Responsible, Decentralized Intelligence (RDI), bersama lebih dari 300 pakar dari berbagai bidang, meluncurkan Agents’ Last Exam (ALE) pekan ini. Benchmark ini dirancang untuk menjadi tolok ukur yang lebih realistis, menguji apakah AI benar-benar bisa menjalankan alur kerja profesional yang panjang dan kompleks, bukan sekadar memecahkan soal-soal isolasi yang sudah lazim di berbagai tes sebelumnya.

ALE Dirancang untuk Membongkar Celah 'Kecurangan' Model AI

Salah satu masalah besar dalam evaluasi AI adalah fenomena "kecurangan" di mana model membaca kunci jawaban yang tersembunyi di dalam sistem, atau penguji otomatis yang kerap salah menolak solusi yang benar. ALE menetralisir celah ini dengan memaksa model beroperasi dalam kerangka Generalist Computer-Use Agent (GCUA). Agen harus menggunakan "mata" dan "tangan" virtualnya untuk menavigasi mesin Linux atau Windows, menggabungkan perintah shell dengan klik-titik di perangkat lunak desktop berat seperti Siemens NX untuk pemodelan 3D atau Adobe After Effects untuk komposisi efek visual.

"Ini bukan lagi soal menjawab pertanyaan dengan benar," tulis Zengyi Qin, peneliti MIT PhD dan kontributor data proyek, di akun X-nya. "Claude Opus 4.8 memiliki tingkat kelulusan 0,0% pada subset tersulit. Ini bukti bahwa model tercanggih sekalipun masih gagal total di hadapan tugas profesional yang autentik."

GPT-5.5 Unggul Berkat Ketaatan pada Instruksi Kompleks

Kemenangan GPT-5.5 yang menggunakan harness Codex bukanlah kebetulan. Analisis pihak ketiga menunjukkan bahwa model OpenAI saat ini lebih unggul dalam mematuhi instruksi multi-bagian yang rumit. Sebaliknya, arsitektur Claude dari Anthropic kerap menunjukkan sifat "pelupa" terhadap langkah-langkah yang harus dijalankan, sebuah kelemahan fatal di ALE yang menuntut eksekusi alur kerja yang ketat.

ALE sendiri membagi tugasnya ke dalam tiga tingkat kesulitan: Near-Term, Full-Spectrum, dan Last-Exam. Pada tingkat tersulit, Last-Exam, sebagian besar konfigurasi—termasuk Claude Opus 4.8 milik Anthropic dan Gemini CLI milik Google—mencatatkan tingkat kelulusan 0,0%. Ini menegaskan bahwa meskipun GPT-5.5 menjadi yang terbaik, performa absolutnya masih sangat rendah untuk standar pekerjaan profesional.

Bagaimana ALE Menjaga Integritas Benchmark di Tengah Ledakan Data

Masalah kontaminasi benchmark—di mana soal tes bocor ke data pelatihan model—menjadi momok bagi industri. ALE mengatasinya dengan strategi peluncuran ganda. Hanya sekitar 10% dari total 1.490 tugas (sekitar 150 tugas) yang dirilis ke publik melalui GitHub dan Hugging Face. Sisanya, lebih dari 1.300 tugas, dijaga ketat sebagai data privat. Tugas-tugas ini akan diputar secara sistematis: tugas privat akan dipublikasikan secara bertahap, sementara tugas publik yang sudah lama akan ditarik. Ini memastikan bahwa skor tinggi yang diraih model benar-benar hasil dari kemampuan, bukan hafalan.

Selain itu, ALE menyediakan dua papan skor: "Full" untuk tugas yang membutuhkan perangkat lunak berbayar, dan "Unlicensed" untuk tugas yang hanya menggunakan alat gratis. Ini mencegah model yang memiliki akses ke perangkat enterprise mendapat keuntungan tidak adil.

Skor 24%: Realitas Pahit di Balik Klaim Pemasaran AI

Bagi pengembang dan perusahaan yang frustrasi dengan kesenjangan antara klaim pemasaran dan performa produksi, kurva penilaian ALE yang keras menjadi pengecekan realitas yang sangat dibutuhkan. Dengan modal miliaran dolar yang diinvestasikan ke dalam agen AI, kebutuhan akan kompas yang mengarah ke utara sejati—bukan sekadar angka benchmark yang dimanipulasi—semakin mendesak. Hingga agen AI mampu menaklukkan ALE, mereka belum benar-benar siap bergabung dengan angkatan kerja manusia.

Pencarian

GPT-5.5 Kejutkan Publik dengan Kalahkan Claude Fable 5 di Benchmark Agresif ALE, Skor Tertinggi Capai 24%

ALE Dirancang untuk Membongkar Celah 'Kecurangan' Model AI

GPT-5.5 Unggul Berkat Ketaatan pada Instruksi Kompleks

Bagaimana ALE Menjaga Integritas Benchmark di Tengah Ledakan Data

Skor 24%: Realitas Pahit di Balik Klaim Pemasaran AI

Berita Lainnya

US Mobile Rilis Paket Unlimited Flex Rp280 Ribu per Bulan, Bisa Pilih Jaringan Verizon-AT&T-T-Mobile

Kesalahan Umum Pengguna Claude Code: Perintah /goal Bukan Sekadar Prompt Biasa

Google Resmi Luncurkan Speaker Rumah Berbasis Gemini pada 25 Juni, Harga Rp1,6 Juta

IBM, NVIDIA, dan Red Hat Rancang Format Dokumen Baru agar Lebih Mudah Dicerna AI, Klaim Bisa Hemat Biaya Hingga 30 Kali Lipat

Dead by Daylight Rayakan 10 Tahun dengan Jason Voorhees, Mode Zombie, hingga Film Layar Lebar

Google Gemini Membantu Saya Akhirnya Memulai Hobi Tanaman Hias Setelah Bertahun-Tahun Hanya Membayangkannya

Pilihan

Ratusan Anjing di Tokyo Big Sight Bertarung Diam 30 Detik Demi Rekor Guinness

Sambut HUT ke-28, Bank Mandiri Gelar Cek Kesehatan Gratis untuk 1.650 Abdi Dalem Keraton Yogyakarta

Taufik Hidayat Akui Aniaya YTR karena Alkohol, Polisi Dalami Motif dan Penyekapan

Kemenkeu Buka Rekrutmen Hakim Pengadilan Pajak 2026, Syarat Pengalaman Minimal 10 Tahun

Pasokan Batu Bara Aman, Jamaludin Malik Minta PLN Perbaiki Distribusi 154 Juta Ton

Berita Terkini

Polres Manggarai Barat Larung Karangan Bunga di Perairan Labuan Bajo untuk Hormati Pahlawan Jelang Hari Bhayangkara ke-80

Flores di Antara Panas Bumi dan Batalyon: Membaca Ulang Peringatan Albert Camus tentang Pembangunan yang Tak Pernah Meminta Persetujuan Rakyat

22 Rumah di Desa Paralando Manggarai Belum Teraliri Air Bersih Setahun Proyek Rp973 Miliar, Mahasiswa Desak Bupati Buka Audit

Toyota Veloz HEV Hybrid 1.500 cc: Tiga Varian, Konsumsi 26 km/liter, Harga Masih Rahasia

Jadwal Kapal Pelni KM Binaiya Juli 2026: Berangkat dari Labuan Bajo ke Makassar, Ini Rute Lengkapnya