Claude Opus 4.8 Melesat di Coding, Tapi Justru Menonjol Karena Lebih Jujur

Redaksi Octopus

02/06/2026

Anthropic kembali menekan ritme pembaruan Claude dengan menghadirkan Opus 4.8 hanya sekitar sebulan setelah Opus 4.7. Yang menarik, pembaruan ini tidak hanya menonjol karena hadir cepat, tetapi juga karena membawa peningkatan yang paling terasa pada pekerjaan teknis yang sering menjadi andalan pengguna profesional.

Fokus utama Opus 4.8 ada pada coding dan terminal. Anthropic menyebut model ini mencatat kenaikan sekitar 5 poin pada agentic coding dan lebih dari 8 poin pada agentic terminal coding dibanding pendahulunya.

Dua area tersebut penting karena menjadi tolok ukur utama bagi model AI yang dipakai untuk membantu produktivitas. Agentic coding merujuk pada kemampuan model menangani tugas pemrograman secara lebih mandiri, sedangkan agentic terminal coding menggambarkan performa model saat berinteraksi dengan terminal dan alur kerja berbasis perintah.

Peningkatan di agentic coding menunjukkan model ini makin kuat saat diminta membantu tugas pemrograman yang menuntut ketelitian. Sementara lonjakan pada agentic terminal coding memberi sinyal bahwa Opus 4.8 lebih siap menangani tugas yang lebih kompleks dan berbasis eksekusi.

Bagi pengguna yang bekerja dengan kode, perubahan seperti ini bukan hanya soal angka benchmark. Model yang lebih baik di coding dan terminal berpotensi terasa lebih stabil saat dipakai untuk debugging, menyusun skrip, atau mengerjakan tugas teknis lain yang membutuhkan konsistensi.

Anthropic memaparkan pembaruan Opus 4.8 lewat blog resminya dengan penekanan pada dua kemampuan tersebut. Langkah ini memperlihatkan bahwa perusahaan masih menempatkan produktivitas teknis sebagai nilai utama untuk lini Claude Opus.

Di luar performa, Anthropic juga menyoroti sisi yang sama pentingnya bagi pengguna AI, yaitu kejujuran model. Perusahaan menyebut salah satu peningkatan paling menonjol pada Opus 4.8 ada pada aspek honesty atau kejujurannya.

Anthropic menjelaskan bahwa semua modelnya memang dilatih agar jujur dan menghindari klaim yang tidak didukung. Namun, perusahaan juga mengakui masalah yang umum muncul pada model AI, yakni kecenderungan terlalu cepat menarik kesimpulan dan mengklaim kemajuan tanpa bukti yang cukup.

Pada Opus 4.8, penguji awal dilaporkan melihat perubahan yang lebih baik di area itu. Model ini disebut lebih sering menandai ketidakpastian dan lebih jarang membuat klaim yang tidak didukung.

Sikap seperti ini penting karena salah satu kelemahan besar AI generatif adalah halusinasi. Saat model lebih mau mengakui batas pengetahuannya, risiko pengguna mengambil keputusan berdasarkan jawaban yang keliru ikut menurun.

Bagi pengguna profesional, kemampuan itu bisa sama berharganya dengan kenaikan skor benchmark. Dalam banyak skenario kerja, model yang mengakui belum yakin justru lebih berguna daripada model yang terdengar meyakinkan tetapi salah.

Rilis Opus 4.8 juga memperlihatkan betapa cepatnya persaingan di pasar AI bergerak. Opus 4.7 baru hadir pada pertengahan April, tetapi posisinya kini langsung digeser oleh penerus yang datang dalam waktu singkat.

Claude Opus 4.8 sudah tersedia untuk dicoba saat ini. Dengan begitu, pengguna bisa langsung menilai apakah peningkatan pada coding, terminal, dan tingkat kejujuran model benar-benar terasa dalam penggunaan harian.

Source: www.xda-developers.com