Setelah Mythos: mengapa bug bounty kini butuh bukti yang lebih kuat

15 Juni 2026 • 8 min read

Daftar isi

Beberapa minggu lalu saya menulis tentang Anthropic Mythos dan Project Glasswing. Saat itu fokusnya terutama pada gambaran besar: jika model benar-benar menjadi lebih baik dalam menemukan kerentanan lama, menggabungkan jalur exploit, dan memahami seluruh codebase, maka vulnerability research akan berubah.

Artikel baru Sophos tentang bug bounty di era Mythos sekarang menunjukkan sisi operasional dari perubahan itu.

Ini bukan lagi hanya soal apakah AI menemukan kerentanan yang lebih baik. Ini soal apakah program bug bounty, tim security, dan organisasi engineering masih bisa cukup cepat membedakan sampah, klaim yang terdengar masuk akal, dan masalah keamanan yang nyata.

Di era Mythos, laporan yang paling bernilai bukan yang paling keras suaranya, tetapi yang paling bersih untuk direproduksi.

Masalah sebenarnya bukan hanya slop AI

Saat membahas AI dan bug bounty, orang cepat memikirkan slop: laporan yang dibuat otomatis, pesan error yang setengah dipahami, rantai exploit yang dikarang, klaim yang tidak bisa direproduksi, dan banyak teks dengan sedikit substansi.

Itu nyata. Dan bagi maintainer, tim product security, dan orang-orang triage, itu sangat menyebalkan.

Namun itu hanya satu sisi.

Sisi lainnya lebih berbahaya: peneliti yang baik dapat memakai model yang sama untuk menemukan kerentanan nyata lebih cepat, menguji hipotesis di codebase yang lebih besar, dan menelusuri variasi dari sebuah pola secara sistematis. Hal yang dulu butuh hari atau minggu kerja manual bisa masuk antrean dalam hitungan jam.

Jadi masalahnya bergeser. Dulu pertanyaannya sering: apakah kita mendapat cukup finding eksternal yang bagus? Sekarang pertanyaannya lebih seperti: apakah kita bisa cukup cepat mengenali, memvalidasi, memprioritaskan, dan mengubah finding nyata menjadi fix, sementara noise terus naik?

Mengapa Sophos menarik sebagai sumber

Artikel Sophos bukan komentar generik tentang AI. Sophos melihat kembali program bug bounty mereka sendiri dan menyebut angka yang konkret.

Menurut Sophos, program publik mereka berjalan di Bugcrowd sejak Desember 2017. Sophos menulis bahwa hingga artikel itu diterbitkan, 1.343 kerentanan telah diberi reward, dari total 7.091 submission, dengan total payout 599.695 dolar AS.

Untuk 2025, Sophos menyebut antara lain:

payout 59.400 dolar AS untuk lebih dari 52 laporan
sekitar 420 peneliti terlibat
hingga 80.000 dolar AS untuk Intercept X Endpoint dalam kondisi tertentu
hingga 50.000 dolar AS untuk Sophos Central
hingga 50.000 dolar AS untuk Sophos Firewall
13 bug Sophos Firewall yang valid pada 2025 dengan total payout 21.500 dolar AS
13 bug Sophos Central yang valid pada 2025 dengan total payout 11.650 dolar AS

Angka-angka itu tidak astronomis, dan justru karena itu menarik. Mereka menunjukkan berapa banyak pekerjaan penyaringan di balik program yang cukup matang. Ribuan submission tidak otomatis berarti ribuan masalah keamanan yang relevan. Dan AI kemungkinan besar tidak akan membuat rasio ini lebih santai.

AI akan membuatnya lebih keras.

Reproduksibilitas menjadi tiket masuk

Konsekuensi terpenting menurut saya sederhana, tetapi tidak nyaman: security report tanpa reproduksibilitas yang bersih akan makin berkurang nilainya.

Bukan karena tim triage malas. Tetapi karena waktu mereka makin terbatas.

Jika sebuah laporan mengklaim menunjukkan remote code execution, auth bypass, atau kebocoran data kritis, laporan itu harus membuktikan dengan jelas:

versi mana yang terdampak
konfigurasi apa yang diperlukan
hak akses apa yang dibutuhkan penyerang
langkah apa yang secara reproduktif menghasilkan hasil tersebut
log, request, trace, atau screenshot apa yang mendukung klaimnya
dampak apa yang benar-benar terbukti
di mana batas antara dugaan dan bukti

Kedengarannya ketat. Memang. Tetapi itu akan diperlukan agar security team tidak tenggelam dalam teks yang terdengar masuk akal.

Laporan yang dibuat AI bisa tampak sangat meyakinkan secara bahasa. Ia bisa mengutip kode, menulis dengan gaya CVE, dan berpura-pura punya struktur yang rapi. Itu tidak membuatnya benar. Sebaliknya, laporan pendek dan kering dengan proof of concept yang baik bisa sangat bernilai.

Mata uang baru bukan formulasi. Mata uang baru adalah bukti.

AI membuat bug authorization sangat merepotkan

Satu poin dalam artikel Sophos terasa sangat praktis bagi saya: AI dapat membantu memperluas authorization bypass yang ditemukan ke permukaan scope yang lebih besar.

Ini cocok dengan apa yang sering terlihat di lingkungan SaaS nyata. Authorization jarang berupa satu tombol. Ia hidup di role, tenant, object ID, subdomain, versi API, permukaan admin, endpoint mobile, route legacy, dan fitur yang migrasinya setengah jalan.

Jika seorang peneliti menemukan sebuah pola, AI dapat membantu mengecek variasinya secara sistematis:

Apakah bypass itu hanya berlaku untuk satu endpoint atau seluruh keluarga endpoint?
Apakah ia hanya bekerja di satu tenant atau lintas tenant?
Apakah logika yang sama ada di API lama dan baru?
Apakah role admin dan user benar-benar terpisah dengan bersih di semua tempat?
Bisakah sebuah objek dimuat lewat ID langsung meskipun UI tidak akan menampilkannya?

Di titik inilah AI menjadi berbahaya sekaligus berguna. Bukan sebagai hacker ajaib, tetapi sebagai akselerator untuk pengujian yang membosankan, luas, dan sistematis.

Dan itu buruk bagi organisasi yang security-nya sangat bergantung pada fakta bahwa tidak ada orang yang punya cukup waktu untuk menguji semua variasi membosankan itu.

Bug bounty bukan kotak masuk PR

Banyak perusahaan masih memperlakukan bug bounty setengah sebagai tema citra: kami punya program, jadi kami terbuka, modern, dan security-minded.

Itu tidak cukup lagi.

Program bug bounty adalah sistem produksi. Ia butuh aturan yang jelas, triage yang baik, reproduksi teknis, kedekatan dengan produk, tanggung jawab engineering, dan koneksi ke incident response. Kalau tidak, ia hanya menjadi kotak masuk publik tempat peneliti eksternal, slop AI, dan penyerang nyata masuk lewat pintu yang sama.

Sophos menyatukan dua poin yang tidak nyaman:

Pertama: peneliti yang baik membantu. Perspektif eksternal, pola pikir berbeda, dan tekanan berkelanjutan itu bernilai.

Kedua: sistem dengan uang dan kepercayaan juga bisa disalahgunakan. Sophos merujuk pengalaman seputar Pacific Rim, Asnarök, dan Personal Panda, di mana kedekatan waktu antara eksploitasi aktif dan laporan bug bounty berikutnya setidaknya memunculkan pertanyaan. Sophos tidak mengatakan secara eksplisit bahwa setiap laporan seperti itu jahat. Namun poin operasionalnya tetap: program bug bounty tidak boleh dibangun secara naif.

Artinya secara konkret:

Laporan harus dikorelasikan dengan telemetri.
Finding baru juga harus bisa memicu threat hunt retroaktif.
Triage harus tahu apakah upaya exploit serupa sudah terlihat.
Reputasi peneliti membantu, tetapi tidak menggantikan verifikasi teknis.
Safe harbor penting, tetapi bukan pengganti deteksi penyalahgunaan.

Itulah realitas yang tenang: bug bounty adalah bagian dari Secure by Design, bukan penggantinya.

Bukti yang lebih kuat juga berarti tanggung jawab yang lebih kuat

Ada ketegangan di sini yang tidak seharusnya ditutup-tutupi.

Secara historis, peneliti sering diberi pesan: berhenti cukup awal. Tunjukkan bug, tetapi jangan terlalu dalam. Jangan sentuh data pelanggan. Tidak ada lateral movement. Tidak ada tindakan destruktif.

Itu benar.

Pada saat yang sama, beban pembuktian akan naik. Jika AI menghasilkan laporan yang terdengar masuk akal tetapi salah dalam jumlah besar, program akan meminta lebih banyak evidence. Maka muncul pertanyaan sulit: bagaimana peneliti bisa membuktikan dampak dengan lebih kuat tanpa tergelincir ke perilaku berbahaya?

Jawabannya tidak bisa: “lakukan saja lebih banyak.” Jawabannya harus lebih terkontrol:

rules of engagement yang lebih jelas
environment test khusus
jalur reproduksi yang aman
batas yang disepakati untuk pembuktian impact
sistem sandbox dan lab yang lebih baik
replay proof of concept yang otomatis

Bagi vendor besar, ini hampir wajib. Jika membayar bounty tinggi, mereka juga seharusnya memiliki infrastruktur untuk memvalidasi laporan dengan bersih dan cepat.

Bagi proyek kecil, ini lebih pahit. Mereka menerima gelombang slop yang sama, tetapi tidak punya resource yang sama. Karena itu beberapa proyek akan mengurangi bug bounty berbayar atau menutupnya sama sekali. Bukan karena mereka tidak serius soal security, tetapi karena menjalankan program itu sendiri menjadi beban.

Apa yang bisa dipelajari admin dan MSP

Orang bisa berkata: ini hanya menyangkut vendor dan program Bugcrowd.

Saya tidak percaya begitu.

Mekanisme yang sama juga mengenai MSP, tim IT internal, dan penanggung jawab security. Di mana pun finding eksternal atau internal harus dievaluasi, tekanannya meningkat:

Scanner menghasilkan lebih banyak finding.
Asisten AI menjelaskan finding dengan lebih meyakinkan.
Developer membawa catatan security yang dibuat AI.
Customer bertanya soal CVE sebelum memahami konteks.
Manajemen ingin tahu apakah risiko itu nyata atau hanya keras suaranya.

Jawaban praktisnya bukan mengabaikan semuanya. Jawabannya adalah proses validasi yang lebih keras.

Menurut saya, setidaknya pertanyaan-pertanyaan ini harus ada:

Apakah masalahnya bisa direproduksi?
Apakah scope yang terdampak jelas?
Apakah ada jalur penyerang yang realistis?
Apakah impact terbukti secara teknis atau hanya diklaim?
Apakah ada log atau telemetri yang bisa menunjukkan eksploitasi?
Apakah fix-nya patch, konfigurasi, workaround, atau hanya tambalan?
Apakah perlu pencarian retroaktif untuk melihat apakah ini sudah dieksploitasi?

Kedengarannya seperti lebih banyak pekerjaan. Memang. Tetapi itu pekerjaan yang lebih baik daripada bereaksi panik terhadap setiap laporan yang ditulis dengan baik.

Mengapa ini cocok dengan Mythos

Poin utama Mythos bagi saya tidak pernah hanya: “wow, sebuah model menemukan bug.”

Poinnya adalah: jika kemampuan seperti itu menjadi lebih nyata, waktu antara menemukan, memahami, mereproduksi, dan mengeksploitasi akan menyusut. Di situlah program bug bounty terkena dampaknya. Mereka berada di persimpangan antara riset, potensi serangan, engineering, dan tanggung jawab.

Sophos merumuskannya dengan cara yang mirip dalam artikelnya: pertanyaannya bukan bagaimana menghentikan submission AI. Pertanyaannya adalah bagaimana mempertahankan trust dan signal ketika riset yang baik dan noise sama-sama bisa diproduksi dengan kecepatan mesin.

Bagi saya, itu ringkasan paling bersih dari masalah ini.

Tidak setiap organisasi membutuhkan program bug bounty besar miliknya sendiri. Tetapi setiap organisasi membutuhkan mekanisme yang lebih baik untuk memeriksa klaim teknis. Karena banjir informasi security tidak akan mengecil. Ia akan menjadi lebih cepat, lebih keras, dan lebih rapi bahasanya.

Penilaian saya

Saya melihat artikel Sophos sebagai follow-up yang berguna untuk Mythos, karena ia membawa debat dari ruang model ke ruang operasi.

Mythos adalah sinyal yang spektakuler. Triage bug bounty adalah meja kerja tempat terlihat apakah proses security bisa mengikuti.

Tesis saya sederhana:

Siapa yang hanya mengumpulkan lebih banyak laporan akan kalah.
Siapa yang menuntut evidence yang reproduktif akan memprioritaskan lebih baik.
Siapa yang menghubungkan bug bounty, telemetri, engineering, dan incident response akan bereaksi lebih cepat.
Siapa yang melihat AI hanya sebagai generator teks meremehkan nilainya untuk pekerjaan security yang sistematis.
Siapa yang tidak memfilter slop AI membakar waktu orang-orang yang seharusnya menyelesaikan masalah nyata.

Itu terdengar kurang glamor dibanding model frontier yang menemukan zero-day. Tetapi tepat di sana ditentukan apakah keuntungan security sampai ke defender atau semua orang tenggelam dalam lebih banyak noise.

Sampai lain kali,
Joe

Sumber