Pencarian

IBM, NVIDIA, dan Red Hat Rancang Format Dokumen Baru agar Lebih Mudah Dicerna AI, Klaim Bisa Hemat Biaya Hingga 30 Kali Lipat

Selasa, 16 Juni 2026 • 09:41:31 WIB
IBM, NVIDIA, dan Red Hat Rancang Format Dokumen Baru agar Lebih Mudah Dicerna AI, Klaim Bisa Hemat Biaya Hingga 30 Kali Lipat
IBM, NVIDIA, dan Red Hat mengembangkan format dokumen baru bernama DocLang untuk memudahkan pemrosesan AI.

Bayangkan perusahaan Anda harus membayar mahal hanya agar model bahasa besar (LLM) bisa membaca laporan tahunan atau faktur. Itulah realitas yang dihadapi banyak korporasi saat ini. Format dokumen seperti PDF, Markdown, dan HTML, menurut para pengembang, diciptakan untuk mata manusia, bukan untuk mesin. Akibatnya, ketika dokumen-dokumen ini diumpankan ke AI, struktur, makna, dan tata letak informasi sering kali hilang, memaksa model untuk menebak-nebak dan meningkatkan risiko halusinasi.

Bukan Sekadar Format Baru, Tapi Standar Pertukaran Data

DocLang lahir dari tangan dingin IBM, NVIDIA, Red Hat, ABBYY, HumanSignal, dan Forgis yang bergabung dalam kelompok kerja di bawah LF AI & Data Foundation. Mereka tidak hanya membuat satu format file baru. Lebih dari itu, DocLang adalah standar terbuka untuk bertukar output data terstruktur antar sistem, yang dibangun di atas fondasi toolkit open source IBM bernama Docling yang dirilis pada akhir 2024.

"Dokumen dibangun untuk manusia, bukan mesin," ujar Maxime Vermeir, VP of AI Strategy di ABBYY, dalam pernyataan resmi. Ia menambahkan bahwa format baru ini menghadirkan representasi struktur dokumen, tata letak, makna, dan tata kelola yang bersifat "AI-native" sehingga memberikan fondasi yang lebih deterministik bagi sistem AI modern.

PDF Bikin Boros Token, DocLang Janji Lebih Irit

Inti masalahnya ada pada efisiensi token. Setiap kali AI memproses teks, ia memecahnya menjadi token—unit dasar data. Format yang berantakan berarti lebih banyak token yang terbuang untuk memahami tata letak, bukan mengekstrak makna. Jon Knisley, AI Value and Enablement Lead di ABBYY, menjelaskan bahwa timnya kerap harus membangun parser khusus untuk setiap jenis dokumen baru, yang hanya menjadi pekerjaan satu kali dan rapuh.

"Struktur yang ambigu memaksa model melakukan tebakan, yang meningkatkan risiko halusinasi dan membakar token untuk menerjemahkan tata letak alih-alih mengekstrak makna," kata Knisley melalui email kepada The Register. ABBYY mengklaim benchmark awal menunjukkan penghematan biaya 4 kali hingga lebih dari 30 kali lipat tergantung model AI yang digunakan.

Uji Coba: Laporan Tahunan IBM Jadi Lebih Cepat dan Akurat

Untuk membuktikan klaimnya, ABBYY meluncurkan DocLang Interactive Benchmark. Hasilnya cukup mencengangkan: ketika mengolah laporan tahunan IBM 2025, versi PDF membutuhkan 8.421 token input dan 512 token output. Sementara versi DocLang hanya butuh 5.310 token input dan 498 token output. Lebih penting lagi, latensi turun dari 4,2 detik menjadi 2,7 detik, dan kualitas output lebih baik—versi PDF bahkan gagal membaca satu sub-bagian dan mengacaukan penggabungan tabel.

DocLang menggunakan kosakata XML terbatas yang selaras dengan tokenizer LLM secara 1-ke-1. Format ini diklaim lossless, artinya tidak ada informasi berharga yang hilang saat konversi. Dokumen juga bisa menyimpan metadata dan data provenansi yang selama ini kerap terlepas saat file dipindahkan antar sistem—sebuah keuntungan besar dari sisi tata kelola data.

Standar Terbuka, Tapi Adopsi Masih Jauh

Knisley mengakui bahwa ini masih awal. "Standar ini terbuka dan gratis untuk dibangun, dan kelompok ini secara aktif mengundang lebih banyak penyedia teknologi dan perusahaan untuk bergabung," ujarnya. Respons awal disebutnya menggembirakan, meskipun ia enggan berspekulasi tentang tingkat adopsi di masa depan.

Bagi perusahaan Indonesia yang mulai serius mengadopsi AI untuk otomatisasi dokumen—mulai dari perbankan, asuransi, hingga logistik—perkembangan ini patut dicermati. Selama ini, biaya pemrosesan dokumen PDF yang membengkak sering menjadi batu sandungan. Jika DocLang bisa diadopsi secara luas, bukan tidak mungkin biaya operasional AI di korporasi bisa ditekan secara signifikan. Tapi seperti semua standar baru, tantangan terbesarnya bukan pada teknologinya, melainkan pada kemauan industri untuk meninggalkan kebiasaan lama.

Bagikan
Sumber: theregister.com

This article was automatically rewritten by AI based on the source above without altering the facts of the original article.

Berita Lainnya

Indeks

Pilihan

Indeks

Berita Terkini

Indeks