Mistral Medium 3.5: 128B open weights и benchmarks [2026]
Mistral Medium 3.5 излезе на 29.04.2026 — 128B dense open weights, 256K контекст, MIT лиценз. Benchmarks срещу Claude и GPT-5.5 в пълния преглед за 2026
Накратко: Mistral Medium 3.5 е 128B dense frontier модел с open weights под Modified MIT лиценз, пуснат на 29 април 2026 г. от френския Mistral AI. Подходящ е за EU enterprises с GDPR изисквания, регулирани индустрии и разработчици с планиран API бюджет — но изостава с 2-10 пункта от Claude при сложни coding задачи.
Ключови факти:
- Дата на пускане: 29 април 2026 г.
- Архитектура: 128B dense параметри (не Mixture-of-Experts)
- Контекст: 256K tokens, multimodal вход (text + image)
- API цена: $1.50/$7.50 на милион tokens (input/output)
- Лиценз: Modified MIT — търговско ползване позволено (с revenue exception)
- SWE-Bench Verified: 77.6%
- τ³-Telecom (агентски): 91.4
- Self-host: официално vLLM с tensor-parallel-size 8; възможно с 4 GPU при FP8 quantization
Какво е Mistral Medium 3.5 и какъв проблем решава?
Mistral Medium 3.5 е флагмански multimodal frontier модел на френския Mistral AI, пуснат на 29 април 2026 г. под Modified MIT лиценз. Моделът обединява две предишни специализирани линии — Devstral 2 (coding) и Magistral (reasoning) — в един 128B dense модел с конфигурируем reasoning toggle и нативна обработка на изображения.
Mistral AI е основан през април 2023 г. в Париж от Arthur Mensch (бивш DeepMind), Guillaume Lample и Timothée Lacroix (и двамата бивши служители на Meta). Компанията се позиционира като европейския отговор на американските затворени модели — със стратегия, фокусирана върху отворени тегла, възможности за self-hosting и съответствие с GDPR и EU AI Act.
Проблемът, който Mistral Medium 3.5 решава, е реален и нараства: затворените модели като Claude Opus 4.7 и GPT-5.5 предлагат водещо качество, но струват $5-30 за милион tokens, нямат опция за self-hosting и оставят данните в инфраструктурата на доставчика. За EU enterprises с GDPR изисквания, регулирани индустрии или компании с непредвидим обем на API заявки, това е сериозно ограничение.
Guillaume Lample, съосновател и chief scientist на Mistral AI, формулира директно стратегията на компанията:
"На практика, огромната част от enterprise приложенията са задачи, които могат да се решат с по-малки модели — особено ако ги донастроите чрез fine-tuning. Клиентите често започват с огромни затворени модели, но осъзнават, че са скъпи и бавни в production." — Guillaume Lample, съосновател и chief scientist, Mistral AI
По данни от Hugging Face, Mistral Medium 3.5 има над 15 000 сваляния само през първия месец и вече има 15 квантизирани версии и 6 варианта с fine-tuning от общността — практическо доказателство, че пазарът чака open-weight frontier алтернативи.
Какви са ключовите функции и възможности?
Mistral Medium 3.5 предлага комбинация от функции, които до момента изискваха три различни модела:
Конфигурируем reasoning — Можете да превключвате между instant reply и reasoning mode за всяка заявка. При активиран reasoning, моделът използва допълнителни inference токени за анализ стъпка по стъпка, подобно на OpenAI o3 или Claude extended thinking. При изключен reasoning — отговаря веднага, без латентност.
Нативна multimodality — Vision encoder, обучен от нулата за поддръжка на различни размери и aspect ratios на изображения. Моделът приема текст и изображения като вход и връща текст като изход, без нужда от отделна OCR pipeline.
256K tokens контекст — С 28% по-голям контекст от Claude Sonnet 4.6 (200K), но около 4× по-малък от DeepSeek V4 Pro (1M) и GPT-5.5 (1.05M). Подходящ за анализ на дълги репозитории, multi-file refactoring и сложни agentic workflows.
Function calling и JSON output — Вградена поддръжка на структурирани отговори и tool use, без нужда от prompt engineering за налагане на формата.
11+ езика с native quality — Според официалния model card: английски, френски, испански, немски, италиански, португалски, нидерландски, китайски, японски, корейски и арабски. Български не е официално включен в списъка, но за европейски езици с латиница качеството е сравнимо с GPT-5.5.
Open weights с търговско ползване — Modified MIT лицензът позволява търговска употреба без лицензионни такси до определен праг за приходи (компании с голям приход трябва да преговарят отделен лиценз).
Какво НЕ може:
Mistral не публикува резултати за GPQA Diamond, MMLU-Pro и LiveCodeBench при пускането, според независим анализ. Това е отстъпка спрямо Anthropic и OpenAI, които публикуват пълни benchmark suites.
При сложни coding задачи Mistral Medium 3.5 изостава с ~2 пункта от Claude Sonnet 4.6 при SWE-Bench Verified — 77.6% срещу 79.6%. За frontier-level coding продуктивност Claude Opus 4.7 остава по-добрият избор с резултат над 87% при същия benchmark.
Self-hosting изисква сериозен hardware — официалното vLLM ръководство препоръчва tensor-parallel-size 8 (т.е. 8 GPU карти) за пълна BF16 точност. С агресивно квантизиране (FP8 или INT4) моделът се събира в 4 H100 карти. За малки екипи това означава месечни инфраструктурни разходи €15 000-30 000, освен ако не се ползва hosted API.
Как работи Mistral Medium 3.5 на практика — стъпка по стъпка
Mistral Medium 3.5 е достъпен през четири канала: директен API, Le Chat (web/mobile UI), Mistral Vibe (coding-фокусиран agent) и self-host чрез Hugging Face weights. Изборът зависи от вашия use case и от изискванията за data residency.
Стъпка 1: Започване с API заявка (Python)
Mistral Medium 3.5 е най-бързо достъпен през Mistral API. Нужни са регистрация в console.mistral.ai, API ключ и pip install:
from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
response = client.chat.complete(
model="mistral-medium-3.5",
messages=[
{"role": "user", "content": "Обясни как работи RAG в 3 изречения."}
],
temperature=0.7
)
print(response.choices[0].message.content)
Очакван резултат: Отговор за под 2 секунди при инстант режим, цена около $0.001 за заявка.
Стъпка 2: Активиране на reasoning mode
За сложни задачи (математика, code refactoring, multi-step planning) активирайте reasoning effort:
response = client.chat.complete(
model="mistral-medium-3.5",
messages=[{"role": "user", "content": "Refactor this O(n²) algorithm to O(n log n)..."}],
reasoning_effort="high",
temperature=0.7,
top_p=0.95
)
Очакван резултат: Допълнителни 5-15 секунди за reasoning плюс по-точен отговор. Внимание: reasoning токените се таксуват като output, така че сложна задача може да струва 3-5× повече.
Стъпка 3: Multimodal заявка с изображение
response = client.chat.complete(
model="mistral-medium-3.5",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Какво виждаш на снимката?"},
{"type": "image_url", "image_url": "https://example.com/screenshot.png"}
]
}]
)
Очакван резултат: Вградена обработка на изображението без отделна OCR стъпка.
Стъпка 4: Self-hosting с vLLM (за enterprise deployments)
pip install vllm "mistral_common>=1.11.1" "transformers>=5.4.0"
vllm serve mistralai/Mistral-Medium-3.5-128B \
--tensor-parallel-size 8 \
--tool-call-parser mistral \
--enable-auto-tool-choice \
--reasoning-parser mistral \
--max_num_batched_tokens 16384 \
--gpu_memory_utilization 0.8
Очакван резултат: Локален OpenAI-съвместим endpoint на http://localhost:8000/v1 — вашите данни никога не напускат инфраструктурата ви.
Стъпка 5: Fine-tuning за domain-specific задачи
Mistral Medium 3.5 поддържа fine-tuning чрез стандартния pipeline на Hugging Face transformers. За малки datasets (под 1 000 примера) LoRA adapters са достатъчни и работят на 1× A100 80GB. Това отваря пътя за специализирани български-нативни варианти, обучени върху локални корпуси.
Ако не работи: Проверете версиите на mistral_common и transformers — старите версии не разпознават новата архитектура. Минимални изисквания: mistral_common>=1.11.1, transformers>=5.4.0.

За кого е подходящ Mistral Medium 3.5?
Mistral Medium 3.5 не е универсален избор. Реалистичната оценка зависи от три фактора: бюджет, регулативни изисквания и сложност на задачата.
Подходящ за:
- EU enterprises с GDPR изисквания — френска компания, ISO 27001 certified, опции за EU data residency в default deployment
- Регулирани индустрии (банки, здраве, държавна администрация) — възможността за self-hosting означава пълен контрол върху потока на данните
- Developers с предвиден API бюджет — на 50% от цената на Claude Sonnet 4.6 и 30% от GPT-5.5
- Open-source ентусиасти и изследователи — модифицираните weights позволяват пълно контролиран fine-tuning
- Компании, които искат vendor diversification — алтернатива на двойната зависимост от OpenAI и Anthropic
НЕ е подходящ за:
- Frontier-level coding продуктивност — Claude Opus 4.7 е с близо 10 пункта по-висок при SWE-Bench
- Real-time приложения с латентност под 500ms при reasoning queries — instant mode е бърз, но reasoning mode добавя забележими секунди
- Малки startup-и без DevOps capacity за self-hosting — API е добър, но истинската стойност на open weights е в опцията за self-host
- Long-context задачи над 256K tokens — DeepSeek V4 Pro предлага 1M, GPT-5.5 — 1.05M
- Български-нативни задачи в продукционно качество — българският не е в официалния списък на 11-те поддържани езика; нужен е A/B тест преди production
- ✓Open weights под Modified MIT лиценз — реален self-hosting за enterprise
- ✓256K context window — 28% по-голям от Claude Sonnet 4.6
- ✓Цена $1.50/$7.50 — половината на Claude Sonnet 4.6 ($3.00/$15.00)
- ✓Нативна multimodality (text и image) с vision encoder, обучен от нулата
- ✓EU/GDPR-съвместима юрисдикция и data residency
- ✓Конфигурируем reasoning toggle за оптимизация на скорост спрямо качество
- ✓Вградено function calling и JSON output без prompt hacks
- ✓Над 15 квантизирани и 6 варианта с fine-tuning вече налични в Hugging Face
- ×SWE-Bench Verified 77.6% изостава с близо 10 пункта от Claude Opus 4.7
- ×Mistral не публикува GPQA Diamond, MMLU-Pro, LiveCodeBench при пускането
- ×Self-host изисква 4-8 GPU карти (€15 000+/месец инфраструктура)
- ×Български не е в официалния списък на 11-те поддържани езика
- ×Modified MIT има праг за приходи — големи компании трябва да преговарят
- ×Reasoning mode добавя забележима латентност (5-15 секунди)
Как Mistral Medium 3.5 се сравнява с Claude, GPT-5.5 и DeepSeek V4?
Mistral Medium 3.5 заема специфична ниша: open-weight frontier модел на средна цена. Конкуренцията се групира в три сегмента — затворени frontier модели (Claude и GPT), open-weight frontier (DeepSeek и Qwen) и специализирани open-weight модели.
| Параметър | Mistral 3.5 | Sonnet 4.6 | GPT-5.5 | DeepSeek V4 |
|---|---|---|---|---|
| Архитектура | 128B dense | Не публ. | Не публ. | 1.6T MoE |
| Контекст | 256K | 200K | 1.05M | 1M |
| Input цена | $1.50/M | $3.00/M | $5.00/M | $1.74/M |
| Output цена | $7.50/M | $15.00/M | $30.00/M | $3.48/M |
| SWE-Bench | 77.6% | 79.6% | Не публ. | 80.6% |
| Open weights | Да (MIT*) | Не | Не | Да (MIT) |
| Multimodal | Да | Да | Да | Не |
| Self-host | Да (4-8 GPU) | Не | Не | Да (16+ GPU) |
Анализът показва ясна стратегическа позиция на Mistral Medium 3.5: моделът не е победител в нито един отделен критерий, но е най-балансираният при цялостна оценка по съвкупност от open weights, цена и съответствие с EU регулациите. Според Artificial Analysis, той е #2 по Intelligence Index в категорията си с резултат 39.
За чиста coding продуктивност Claude Opus 4.7 остава лидер със SWE-Bench над 87%, но цената му ($5/$25) е над 4× по-висока. За най-добро price-to-performance в coding с open weights DeepSeek V4 Pro предлага по-висок SWE-Bench (80.6%) при промо цена $0.435/$0.87 — но изисква 16+ GPU за self-host и е под китайска юрисдикция.
За EU compliance сценарии Mistral е практически безалтернативен сред open-weight frontier моделите — единственият европейски frontier lab с публикувани weights и юрисдикция в Париж. Това е критичен фактор за банки, здравни заведения и държавни администрации, които имат сериозни изисквания за data residency.

Цена и наличност на Mistral Medium 3.5 в България
Mistral Medium 3.5 е достъпен от България без географски ограничения. Цените и плановете са в EUR за consumer абонаментите на Le Chat и в USD за API (стандарт за AI инструменти).
Le Chat (consumer и small team):
- Free: chat, web search, image generation — без месечен лимит за обикновени заявки
- Pro: $14.99/месец (около €13.80/месец без ДДС) — extended thinking, 15 GB document storage, advanced coding
- Team: $24.99 на потребител месечно (около €23.00) — до 30 GB на потребител, domain verification
- Enterprise: custom — SSO, SOC 2, dedicated capacity
Mistral API (за developers):
- Input: $1.50 на милион tokens
- Output: $7.50 на милион tokens
- Без месечна абонаментна такса — pay-as-you-go
Self-host (open weights):
- Лиценз: безплатен под Modified MIT (с revenue exception)
- Hardware: 4-8 GPU карти (H100 80GB препоръчителни)
- Cloud cost: €15 000-30 000/месец за 8× H100 в EU region
- On-premise CapEx: €250 000-400 000 за full setup
България е в еврозоната от 01.01.2026, така че плащанията през стандартни бизнес карти преминават без forex надценки. Le Chat и API console приемат всички EU карти и фактурират в EUR за бизнес клиенти. Български разработчици имат достъп до пълните функции без ограничения — за разлика от някои GPT-5.5 функции, които остават регионално заключени.
Ключови показатели за Mistral Medium 3.5:
- API цена: $1.50/$7.50 на милион tokens — 50% по-евтин от Claude Sonnet 4.6
- SWE-Bench Verified: 77.6% — на 2 пункта от Claude Sonnet 4.6
- τ³-Telecom (агентски tool use): 91.4
- Контекст: 256K tokens — 28% по-голям от Claude Sonnet 4.6
- Hugging Face downloads: над 15 000 за първия месец
- Artificial Analysis Intelligence Index: 39 (#2 в класа
Практически съвети за напреднали
Mistral Medium 3.5 разкрива пълния си потенциал само с няколко конкретни практически техники. Тези съвети ще ви спестят пари и време и ще ви предпазят от грешки.
-
Превключвайте reasoning effort според задачата. Default
instantmode е достатъчен за 80% от заявките и струва 1× output.reasoning_effort="high"струва 3-5× повече, но дава видимо по-добро качество при multi-step planning, математически задачи и refactoring.# Бърз отговор за прости заявки response = client.chat.complete(model="mistral-medium-3.5", messages=msgs) # Дълбок анализ за сложни задачи response = client.chat.complete( model="mistral-medium-3.5", messages=msgs, reasoning_effort="high" ) -
Използвайте FP8 quantization за self-host. Стандартното BF16 внедряване изисква 8× H100, но FP8_E4M3 квантизиране (поддържано нативно) ги намалява до 4 GPU при същото качество. Спестявате около €7 000-15 000 от месечните cloud разходи.
-
Кеширайте системни prompt-ове чрез vLLM KV-cache reuse. Mistral API не предлага експлицитен prompt caching API като Anthropic, но при self-host setup vLLM прави автоматично KV-cache reuse за повтарящи се системни prompt-ове — намалява TTFT с 60-80%. За API workloads — групирайте заявки с еднакъв system prompt.
-
За RAG приложения използвайте dedicated embedding model. Mistral Medium 3.5 не е embedding модел — за това използвайте
mistral-embed(отделна тарификация). Ако градите RAG система от нулата, прочетете пълното ръководство за RAG имплементация. -
Тествайте multi-language quality преди production deploy за БГ задачи. Българският не е в официалния списък — направете A/B тест срещу GPT-5.5 със същите prompt-и преди да преминете към Mistral Medium 3.5 за български-нативни приложения. Очаквайте около 5-15% спад в качеството спрямо инструменти с native BG поддръжка.
Често задавани въпроси за Mistral Medium 3.5
Какво е Mistral Medium 3.5?+
Колко струва Mistral Medium 3.5?+
Mistral Medium 3.5 по-добър ли е от Claude или GPT?+
Мога ли да използвам Mistral Medium 3.5 в България?+
Mistral Medium 3.5 поддържа ли function calling и JSON output?+
Какъв hardware е нужен за self-host на Mistral Medium 3.5?+
Заслужава ли си Mistral Medium 3.5?
Mistral Medium 3.5 не е най-добрият модел в нито една отделна категория, но е най-балансираният open-weight frontier избор към май 2026 г. За EU enterprises с GDPR изисквания, регулирани индустрии, open-source ентусиасти и разработчици с планиран API бюджет — определено си заслужава.
За frontier-level coding продуктивност изберете Claude Opus 4.7 (по-добър SWE-Bench, 4× по-скъп). За най-евтин open-weight frontier — DeepSeek V4 Pro (по-висок SWE-Bench, по-голям контекст, по-евтино, но китайска юрисдикция). За най-голям контекст и frontier reasoning — GPT-5.5 (1.05M tokens, но затворен и по-скъп).
Конкретен следващ ход: За production интеграция започнете с API ($1.50/$7.50) преди да инвестирате в self-host. След 2-4 седмици с реален traffic, ако обемът надвишава €5 000 месечно, оценете преминаването към self-host чрез официалното vLLM ръководство. Break-even точката е около €8-12K месечен usage — над тази стойност self-host става по-евтино от API.
Започнете с Mistral Medium 3.5 → console.mistral.ai или Le Chat за индивидуална употреба.
Допълнителни ресурси
Основател на CyberNinjas.ai и Кибер Хора. Пише за AI инструменти, новини и практически ръководства.
Още статии
AI Инструменти16 мин.DeepSeek V4 преглед: benchmarks vs Claude и GPT-5.5 [2026]
DeepSeek V4 Pro излезе на 24.04.2026 — open-source MoE с 1.6T параметри и 1M контекст. Преглед: benchmarks срещу Claude Opus 4.7, GPT-5.5 и Gemini в 2026.
AI Инструменти14 мин.Gemini генериране на файлове: Word, Excel, PDF [2026]
Gemini генериране на файлове работи директно в чат — Word, Excel, PDF, ZIP и Google Docs/Sheets/Slides. Безплатна функция, налична за всеки потребител [2026]
AI Инструменти16 мин.Cursor SDK: TypeScript за програмни AI агенти [2026]
Cursor SDK е TypeScript SDK за build-ване на собствени AI агенти със същия cloud runtime като Cursor IDE. Пълно ревю, цени и сравнение с Claude [2026]
