Daftar Model AI dengan Skor IQ Tertinggi Versi Tracking AI

PERUSAHAAN pengembang kecerdasan buatan (artificial intelligence/AI) seperti OpenAI dan Anthropic terus berlomba menghadirkan model AI yang semakin canggih.

Setiap peluncuran model baru biasanya disertai publikasi hasil benchmark untuk menunjukkan keunggulan performa masing-masing.

Pendekatan serupa juga dilakukan oleh Tracking AI, sebuah platform yang secara khusus menguji dan membandingkan performa berbagai model AI.

Platform ini mengukur tingkat “kecerdasan” model menggunakan tes IQ, yang hasilnya kemudian divisualisasikan oleh Visual Capitalist.

Pengujian terbaru dilakukan pada April 2026 menggunakan tes IQ dari Mensa Norwegia, dengan melibatkan sedikitnya 26 model AI dari berbagai perusahaan dan versi.

Hasilnya menunjukkan persaingan yang semakin ketat. Model Grok-4.20 Expert Mode dan OpenAI GPT-5.4 Pro (Vision) sama-sama meraih skor tertinggi, yakni 145, sehingga menempati posisi pertama secara bersama.Di bawahnya, Gemini 3.1 Pro Preview mencatat skor 141.

Capaian ini meningkat dibandingkan hasil pengujian tahun 2025, di mana skor tertinggi saat itu berada di angka 135.

Model AI asal China juga menunjukkan daya saing yang kuat. Qwen 3.5 yang dikembangkan oleh Alibaba menjadi model dengan peringkat tertinggi dari China, menempati posisi ke-10 dengan skor 130.

Selain itu, model seperti DeepSeek R1 dan DeepSeek V3 turut masuk dalam daftar.

Berikut daftar model AI dengan skor IQ tertinggi:

Grok-4.20 Expert Mode — 145

OpenAI GPT-5.4 Pro (Vision) — 145

Gemini 3.1 Pro Preview — 141

OpenAI GPT-5.4 Thinking (Vision) — 139

OpenAI GPT-5.3 — 136

Grok-4.20 Expert Mode (Vision) — 133

OpenAI GPT-5.4 Thinking — 133

Meta Muse Spark — 133

Gemini 3.1 Pro Preview (Vision) — 132

Qwen 3.5 — 130

Claude 4.6 Opus — 130

Kimi K2.5 — 127

Manus — 115

DeepSeek R1 — 112

DeepSeek V3 — 111

Gemini 3.1 Flash — 110

Llama 4 Maverick — 110

GPT-5.3 (Vision) — 109

Claude 4.6 Sonnet — 106

Bing Copilot — 101

Perplexity — 97

Mistral Medium 3.1 — 96

Claude 4.6 Sonnet (Vision) — 94

Claude 4.6 Opus (Vision) — 82

Llama 4 Maverick (Vision) — 79

GPT-5.4 Pro (non-vision) — 73

Tes Mensa Norwegia yang digunakan terdiri dari 35 soal berbasis pola visual. Dalam pelaksanaannya, terdapat perbedaan metode antara model berbasis teks dan model multimodal.

Model non-vision mengerjakan soal yang telah dikonversi menjadi deskripsi verbal, sementara model vision mengerjakan soal dalam bentuk gambar asli.

Tracking AI juga menerapkan aturan khusus: apabila model menolak menjawab, pertanyaan yang sama akan diulang hingga maksimal 10 kali, dengan jawaban terakhir yang digunakan sebagai penilaian.

Meski demikian, hasil ini bersifat komparatif dan tidak dapat dijadikan tolok ukur mutlak kecerdasan AI secara keseluruhan. Pasalnya, tes IQ hanya mengukur satu aspek, yakni kemampuan penalaran pola, sebagaimana dihimpun dari Visual Capitalist.

Sumber : Kompas.com | Editor : Muh Taufan

Pos Terkait

Baca Juga