Background
Saat ini sudah ada banyak provider LLM/AI, mulai dari gemini, claude, deepseek, minimal 500 Miliar sampai 1 Triliun parameter. MoE (Mixture of Expert) memungkinkan satu model punya berbagai kemampuan expert sehingga lebih cerdas dan kreatif, mampu memberikan hasil yang tidak pernah terpikirkan oleh siapapun yang menggunakannya.
Masalah yang sering dihadapi LLM (Large Language Model)
- Halusinasi, hasilnya nampak meyakinkan tetapi tidak akurat
- Komputasi yang tinggi dan mahal
- Membutuhkan internet atau perangkat mahal
- Mudah Overthinking: masalah sepele menjadi jawaban yang panjagn dan rumit
SLM (Small Language model) menjadi solusi dari masalah diatas untuk kebutuhan yang instan dan tanpa koneksi internet. Walaupun nampak terbatas, tapi cukup untuk kebutuhan personal. Disini saya akan bahas pengujian, dan beberapa pembahasan model yang dapat dijalankan.
Pengujian
Pengujian ini menggunakan Macbook Air M2 dengan spesifikasi 8 GB integrated RAM.
Prompt yang diuji:
- Zero-shot: meminta AI menjawab tanpa memberikan contoh atau intruksi spesifik.
- Single-shot: Meminta AI menjawab dengan memberikan contoh dan intruksi
- Few-shot: Komunikasi dengan AI dengan beberapa kali tahapan.
Aplikasi yang digunakan LM Studio. Saat ini tidak menyediakan pengujian spesifik dengan berbagai test yang konsisten sesuai standar sains. Tapi disini saya berfokus pada kecepatan generate text dari prompt zero-shot dan single-shot. Jenis prompt bervariasi dan sebisa mungkin menggunakan prompt yang sama pada model yang berbeda-beda.
Sebagai perbandingan chat LLM lewat website gemini, gemini 3.5 flash 95 tok/s, dan latency 1,64s.
Model Performance Comparison
Disini saya coba berbagai variasi model, ukuran dan backend.
| Model Name | Size (B) | Backend | Speed (tok/s) | TTFT (s) |
|---|---|---|---|---|
| Qwen2.5-Coder-0.5B-Instruct | 0.5 | MLX | 166 | Instant |
| qwen3.5-0.8b-lm-mlx | 0.8 | MLX | 64 | Instant |
| qwen/Qwen3-1.7b | 1.7 | MLX | 36.07 | Instant |
| mistralai/ministral-3-3b | 3 | GGUF | 31.05 | – |
| qwen3.5:4b-mlx (Ollama) | 4 | MLX | ~20 | – |
| qwen/Qwen3-4B-thinking-2507 | 4 | MLX | 26-28.78 | 22s |
| microsoft/phi-4-mini-reasoning | 3.8 | MLX | 15.07 | Instant |
| mlx-community/codegemma-2b | 2 | MLX | 14 | 2.02 |
| google/gemma-4-e2b (LiteRTLM) | 2 | Lite-RT | 38-46 | Instant |
| google/gemma-4-e2b (MLX) | 2 | MLX | Very Slow | Very Slow |
| deepseek/deepseek-r1-0528-qwen3-8b | 8 | MLX | 9 | – |
| smollm3-3b-mlx (512 ctx) | 3 | MLX | 17 | 0.97 |
| liquid/lfm2.5-1.2b | 1.2 | – | Fast | – |
Beberapa hal jadi catatan untuk menjalankan AI di lokal:
- Perangkat Apple lebih ringan dan cepat menggunakan MLX, tapi GGUF punya lebih banyak konfigurasi.
- Penggunaan macbook sehari-hari, digabungkan membuka browser membuat RAM jadi penuh.
- Semakin kecil Parameter, maka semakin kecil memory yang digunakan, dan semakin cepat respon LLM.
- Model yang di-fine-tunned punya hasil lebih bagus dibandingkan model general.
Bagian penting dalam memilih model adalah TFTT dan kecepatan token per detik, semakin cepat maka semakin responsif dan menandakan bahwa RAM tidak penuh sehingga mampu mengolah data dengan cepat.
Dibandingkan Gemini, kecepatan tertinggi yang dapat dijalankan di lokal adalah 166 token per detik. Qwen2.5-Coder-0.5B-Instruct sangat ringan dan hanya 0.5B (500 juta parameter). Hasilnya cukup memuaskan—bagi pendapat pribadi.
Konfigurasi Model
Saya coba beberapa konfigurasi yang dapat mengurangi penggunaan RAM. Khususnya penggunaan single-shot untuk jawaban singkat
Semakin besar context window maka ukuran chat AI semakin besar. Context window secara default 4K (+4000). Jika penggunaan single-shot, ukuran 512 atau 1024 sudah cukup. Selain meningkatkan kecepatan token/detik, juga mengurangi penggunaan RAM.
Pilih model sesuai dengan spesifikasi mesin:
- GGUF: tipe model yang umum
- MLX: Model khusus untuk chip Mac.
- Litert-lm: Backend model buatan google, belum support oleh LM studio.
MLX punya ukuran lebih kecil dibanding GGUF (200-300 MB lebih kecil). Sedangkan Litert-lm sangat kecil menggunakan RAM. Sedangkan Liter-lm belum banyak aplikasi yang mendukungnya, jadi hanya google yang menyediakan.
Kemampuan Model
Beberapa model dibekali fitur thinking, seperti Gemma 4 E2B. Fitur tersebut dapat digunakan untuk Deep Research pada data yang besar (dengan context besar pula). Sedangkan model yang tidak dibekali fitur ini, bisa gunakan thinking step by step untuk meminta LLM menjawab dengan analisa daripada menebak.
Selain itu, beberapa model punya fitur visual, bisa melihat dan membaca gambar. Walaupun ini bagus, tapi tidak cukup jalan di 8GB vRAM tanpa lag.
Fitur Tool Calling, memungkinkan AI untuk memanggil tool seperti MCP. Misalnya menugaskan membuat jadwal, baca email, membuat file, membaca file, dan lain-lain. Fitur ini bagus banget, jadi bisa bikin agent sendiri.
Secara umum, fitur generate text sudah pasti ada. Jarang gunakan visual dan tool karena tidak butuh gambar dan tool perlu pengujian lebih jauh. Jadi, model yang sederhana dan simpel sudah cukup.
Adaptasi Workflow

Penggunaan AI local SLM perlu adaptasi workflow, kita tidak bisa chat singkat dan padat lalu berharap AI bisa memahaminya seperti LLM.
liquid/lfm2.5-1.2b sudah cukup memberi jawaban pertanyaan umum programming dengan cepat (74 tok/s, 0.35s ttft). Saya sering gonta-ganti model, misalnya gunakan 0.5B untuk mengubah sql ke syntax pandas.
Disini saya belajar prompting sesuai kebutuhan, setiap prompt menjadi spesifik dan mengerucut untuk masalah umum. Contoh prompt yang saya gunakan:
- Translate bahasa pemrograman X ke Y: “Syntax Javascript in python for loop“
- Summarize: “Summarize this function …”
- Documentation: “Write documentation for this class ….”
- Change log generator: “Turn this git log into a changelog …”
Selain itu, SLM sudah mampu otomatis jalankan Chain-of-Thought (CoT), cukup tambahkan “… Let’s think step by step” pada akhir prompt.
Prompt engineering jadi kunci untuk menggunakan SLM. Prompt perlu sangat ringkas dan spesifik untuk mendapatkan jawaban yang tepat. Jika ingin belajar Prompt Engineering, bisa baca di website Guide Prompt Engineering.
Kemampuan terbatas SLM dapat ditingkatkan menggunakan Knowledge Distillation bertujuan untuk kompres pengetahuan dari LLM besar (teacher) ke LLM Kecil (Student). Survei riset tersebut punya banyak bukti bahwa SLM mampu mengerjakan tugas spesifik lebih baik dibandingkan LLM besar.
Bagian ini yang cukup berat karena perlu belajar mengolah kata dan dokumentasi dengan baik. Tapi dipikir-pikir lagi, LLM besar juga tidak paham konteks user apabila tidak punya data yang cukup. Manfaat LLM atau SLM relevan terhadap kemampuan pengguna menulis prompt. Prompt sampah akan mengeluarkan hasil sampah pula. Walaupun begitu, LLM punya toleransi cukup ttinggi dengan prompt sederhana.
Memilih Fine-tuned Model
Fine-tuned model adalah model base yang telah lakukan fine-tuning sesuai spesialisasi model. Proses fine-tuning tidak bisa dilakukan pada spesifikasi yang kecil, disini kita bahas memilih model yang telah di-fine-tuned.
SLM semakin baik digunakan apabila dilakukan fine-tuning terhadap kebutuhan pengguna. Umumnya Model dibuat secara general, dan fine-tuning sesuai kebutuhan
- Coding: Qwen2.5-Coder-0.5B-Instruct
- Matematika: Qwen/Qwen2.5-Math-1.5B-Instruct
- Classification & Sentiment Analysis: hampir semua SLM sudah mampu
- Information Extraction: hampir semua LLM kecil sudah mampu dengan batasan konteks
- Roleplay & Conversational Agents: hampir semua SLM sudah mampu
PENTING untuk baca dokumentasi model, contoh penggunaan, data pengujian, dan konfigurasi yang digunakan.
Banyak model yang di-fine-tuning sesuai kebutuhan mereka masing-masing, dan tidak jarang menghapus guard model sehingga berisiko memberikan hasil yang tidak layak. Maka, perlu baca dokumentasi model untuk paham fungsi dari model tersebut.
Sebagai contoh Qwen2.5-Coder-0.5B-Instruct, dibuat khusus untuk coder/programmer. Sedangkan Instruct artinya telah memasukkan intruksi khusus dalam model. Selain tidak memakan memory yang besar, juga hasilnya sangat instan (166 token perdetik)
Apakah Worth it AI Lokal?
AI lokal yang kecil, spesifik dan fine-tuned lebih cepat memberikan respon dibandingkan LLM. Cocok untuk sekedar mengingat syntax bahasa pemrograman atau framework yang baru dipelajari.
Tetapi jangan harap bisa menjalankan proses besar dan panjang seperti agent, SLM tidak didesain untuk itu.
Dikatakan layak (worth it) bagi saya:
- Bisa menjawab syntax kode dengan cepat? ya, bisa.
- Tidak menghabiskan RAM? iya.
- Bisa CoT? bisa.
- Offline? bisa.
Ini semua sudah cukup bagi saya sendiri. LLM terlalu besar untuk menjawab “python server code” atau “What is object in javascript?“. Potensi penggunaan SLM tidak terbatas pada penggunaan personal, bisa juga di gunakan untuk:
- Kesehatan: dokter bisa memahami penyakit dari berbagai pola yang tidak terstruktur atau meringkas dokumen dari berbagai sumber.
- Pendidikan: membantu siswa untuk memahami konteks dan pembelajaran personal yang lebih baik.
- Administrasi: membantu membuat dokumentasi, meringkas dokumentasi.
Keterbatasan dari SLM saat ini hanya mendukung bahasa inggris, karena data sumber mereka bahasa inggris. Belum ada yang menyediakan bahasa indonesia, mungkin bisa jadi riset kedepannya. Pengguna umum pasti sulit menggunakannya karena sudah termanjakan dengan AI LLM yang memahami berbagai gap knowledge.
Terlepas dari itu semua, SLM semakin mudah digunakan saat ini sehingga perangkat kecil punya kemampuan AI yang tidak kalah hebat juga. AI kecil ini cocok untuk siapapun yang butuh AI dengan respon cepat, privasi, keamanan, dan otak cerdas dalam komputer sendiri.
Sekian dari saya, terima kasih sudah membaca!

Add a comment