PERUSAHAAN pengembang kecerdasan buatan (artificial intelligence/AI) seperti OpenAI dan Anthropic terus berlomba menghadirkan model AI yang semakin canggih.
Setiap peluncuran model baru biasanya disertai publikasi hasil benchmark untuk menunjukkan keunggulan performa masing-masing.
Pendekatan serupa juga dilakukan oleh Tracking AI, sebuah platform yang secara khusus menguji dan membandingkan performa berbagai model AI.
Platform ini mengukur tingkat “kecerdasan” model menggunakan tes IQ, yang hasilnya kemudian divisualisasikan oleh Visual Capitalist.
Pengujian terbaru dilakukan pada April 2026 menggunakan tes IQ dari Mensa Norwegia, dengan melibatkan sedikitnya 26 model AI dari berbagai perusahaan dan versi.
Hasilnya menunjukkan persaingan yang semakin ketat. Model Grok-4.20 Expert Mode dan OpenAI GPT-5.4 Pro (Vision) sama-sama meraih skor tertinggi, yakni 145, sehingga menempati posisi pertama secara bersama.Di bawahnya, Gemini 3.1 Pro Preview mencatat skor 141.
Capaian ini meningkat dibandingkan hasil pengujian tahun 2025, di mana skor tertinggi saat itu berada di angka 135.
Model AI asal China juga menunjukkan daya saing yang kuat. Qwen 3.5 yang dikembangkan oleh Alibaba menjadi model dengan peringkat tertinggi dari China, menempati posisi ke-10 dengan skor 130.
Selain itu, model seperti DeepSeek R1 dan DeepSeek V3 turut masuk dalam daftar.
Berikut daftar model AI dengan skor IQ tertinggi:
Grok-4.20 Expert Mode — 145
OpenAI GPT-5.4 Pro (Vision) — 145
Gemini 3.1 Pro Preview — 141
OpenAI GPT-5.4 Thinking (Vision) — 139
OpenAI GPT-5.3 — 136
Grok-4.20 Expert Mode (Vision) — 133
OpenAI GPT-5.4 Thinking — 133
Meta Muse Spark — 133
Gemini 3.1 Pro Preview (Vision) — 132
Qwen 3.5 — 130
Claude 4.6 Opus — 130
Kimi K2.5 — 127
Manus — 115
DeepSeek R1 — 112
DeepSeek V3 — 111
Gemini 3.1 Flash — 110
Llama 4 Maverick — 110
GPT-5.3 (Vision) — 109
Claude 4.6 Sonnet — 106
Bing Copilot — 101
Perplexity — 97
Mistral Medium 3.1 — 96
Claude 4.6 Sonnet (Vision) — 94
Claude 4.6 Opus (Vision) — 82
Llama 4 Maverick (Vision) — 79
GPT-5.4 Pro (non-vision) — 73
Tes Mensa Norwegia yang digunakan terdiri dari 35 soal berbasis pola visual. Dalam pelaksanaannya, terdapat perbedaan metode antara model berbasis teks dan model multimodal.
Model non-vision mengerjakan soal yang telah dikonversi menjadi deskripsi verbal, sementara model vision mengerjakan soal dalam bentuk gambar asli.
Tracking AI juga menerapkan aturan khusus: apabila model menolak menjawab, pertanyaan yang sama akan diulang hingga maksimal 10 kali, dengan jawaban terakhir yang digunakan sebagai penilaian.
Meski demikian, hasil ini bersifat komparatif dan tidak dapat dijadikan tolok ukur mutlak kecerdasan AI secara keseluruhan. Pasalnya, tes IQ hanya mengukur satu aspek, yakni kemampuan penalaran pola, sebagaimana dihimpun dari Visual Capitalist.
Sumber : Kompas.com | Editor : Muh Taufan













