Nasadíme vám vlastní velký jazykový model přímo na vašem serveru — bez cloudu, bez rizika úniku dat, s plnou GDPR shodou. Fine-tuning na vašich datech, lokální RAG, hybridní architektura.
PRIVACY-FIRST · VAŠE DATA ZŮSTANOU VAŠE · GDPR COMPLIANT
Každý den posílá stovky firem svá nejcitlivější data — klientské smlouvy, zdravotní záznamy, finanční dokumenty, know-how — do cloudových AI služeb třetích stran. Vaše data trénují cizí modely. Vaše obchodní tajemství žijí na serverech v USA nebo Irsku. Vaše GDPR odpovědnost roste s každým dotazem.
Existuje jiná cesta. Nasadíme vám vlastní velký jazykový model — Llama 3, Mistral, Mixtral nebo Phi-3 — přímo na vaší infrastruktuře. Nebo dotrénujeme model na vašich oborových datech tak, aby znal vaši terminologii, procesy a kontext lépe než jakýkoliv generický cloudový model.
Výsledkem je AI asistent, který ví vše, co víte vy — a nikdy to nikomu neřekne. Pracuje offline. Nedá se vypnout změnou podmínek poskytovatele. A každý měsíc vás stojí zlomek toho, co platíte za API volání.
Důvod č. 1
Zdravotnictví, právo, pojišťovnictví, státní správa a finančnictví pracují s daty, která nesmí přes cloud. GDPR, zákon o utajovaných informacích nebo interní bezpečnostní politika to neumožňují. ChatGPT zde prostě nelze legálně použít.
Naše řešení: LLM běží na vašem hardwaru — data nikdy neopustí vaši síť.
Důvod č. 2
Firma s 200 zaměstnanci, kteří posílají 50 dotazů denně, generuje přes 10 milionů tokenů měsíčně. Při ceně GPT-4o je to 60 000–150 000 Kč měsíčně — jen za API. Vlastní model tyto náklady snižuje o 70–90 % po 6–12 měsících.
Naše řešení: jednorázová investice, pak neomezené dotazy za cenu elektřiny.
Důvod č. 3
GPT-4 zná svět obecně — nezná vaše interní procesy, oborový slang, proprietární terminologii ani historii vašich projektů. Fine-tuned model trénovaný na vašich datech dosahuje v oborových úkolech o 30–60 % vyšší přesnosti než generický cloudový model.
Naše řešení: dotrénujeme model na vaší dokumentaci, datech a know-how.
Reálné projekty, kde vlastní LLM přinesl měřitelné výsledky a vyřešil problémy, které cloud nedokázal.
Lékaři trávili průměrně 40 minut denně čtením historické dokumentace před každou konzultací. Nasadit cloudové AI bylo z důvodu GDPR vyloučeno. Nasadili jsme Llama 3 70B na privátním serveru nemocnice — žádná data neopustí nemocniční síť. Model sumarizuje dokumentaci a zvýrazňuje klíčové informace.
−35 min
příprava na konzultaci
0
data odeslaná mimo síť
100 %
GDPR compliance
Referenti likvidace pojistných událostí potřebovali AI asistenta pro interpretaci smluv a rozhodování o nárocích. GPT-4 dělal chyby v oborové terminologii a neznal interní scoring metodiku. Fine-tunovali jsme Mistral 7B na 14 000 anonymizovaných smluv a 8 let škodních hlášení.
+34 %
přesnost vs. GPT-4
−60 %
náklady vs. API
2,4×
rychlost zpracování hlášení
Úřad zpracovával ročně přes 3 000 legislativních dokumentů z EU a potřeboval AI nástroj pro překlady a shrnutí. Použití komerčních cloudových služeb bylo odmítnuto bezpečnostním odborem. Nasadili jsme Microsoft Phi-3 Medium na dedikovaném serveru v datovém centru úřadu.
−82 %
čas na zpracování dokumentu
Air-gap
bez přístupu k internetu
Schváleno
bezpečnostním odborem
Každé řešení je navrženo na míru vašim bezpečnostním, výkonnostním a finančním požadavkům. Kombinujeme přístupy podle toho, co přinese nejvyšší hodnotu.
Nejrychlejší start · Týden 1–3
Nasazení otevřeného modelu (Llama 3, Mistral, Mixtral, Phi-3, Gemma) přímo na váš server nebo workstation. Model běží lokálně, bez připojení k internetu. Vhodné pro okamžitý start bez nutnosti tréninku.
Požadavky: GPU server (min. RTX 3090 / A100), 24–80 GB VRAM dle modelu. Nabídneme i hardware doporučení.
Nejvyšší přesnost · 4–8 týdnů
Dotrénování open-source modelu na vašich dokumentech, procesech a oborové terminologii. Výsledný model zná váš svět lépe než jakýkoliv generický model — a výrazně překonává GPT-4 v oborově specifických úkolech.
Technologie: Hugging Face Transformers, LoRA, QLoRA, Axolotl, DeepSpeed, PEFT
Privátní znalostní báze · 3–6 týdnů
Kombinace lokálního LLM s privátní vektorovou databází vašich dokumentů. Chatbot, který zná obsah vašich smluv, manuálů a databází — a každý byte zůstane na vašem serveru.
Technologie: Ollama, LangChain, Qdrant, lokální embeddingy, Python FastAPI, Docker
Rovnováha cena / bezpečnost · 4–8 týdnů
Chytrý routing: citlivé dotazy obsahující firemní data jdou do lokálního modelu, obecné dotazy (veřejné informace, překlady, formátování) jdou do cloudu za zlomek ceny. Automaticky, transparentně, bez zásahu uživatele.
Technologie: LangChain router, PII detection (presidio), Ollama + OpenAI API, centrální gateway
Od první schůzky k funkčnímu privátnímu AI asistentovi. Každá fáze má jasný výstup a předáváme vám průběžně funkční systém — ne PowerPoint.
Týden 1–2 · Zdarma nebo pevná cena
Výstup: doporučení modelu, hardware plán, ROI projekce a přesná nabídka.
Týden 3–8 · Iterativně
Po každé iteraci otestujete na reálných dotazech a dáte zpětnou vazbu.
Týden 9–12 · Předání + podpora
Předáváme dokumentaci, runbook pro IT a plán budoucích upgradů modelů.
| Kritérium | Vlastní LLM | OpenAI API | Azure OpenAI | Copilot / ChatGPT |
|---|---|---|---|---|
| Data zůstanou ve firmě | ✓ 100 % | ✗ Posílají se do US | ⚡ EU region | ✗ Microsoft cloudu |
| Náklady / měsíc (200 uživatelů) | ∼5 000 Kč (elektřina) | 60 000–150 000 Kč | 50 000–130 000 Kč | 25 000–50 000 Kč |
| GDPR & data suverenita | ✓ Plná | ✗ Problematická | ⚡ Podmíněná | ✗ Problematická |
| Přizpůsobení oboru (fine-tuning) | ✓ Plné | ⚡ Drahé fine-tuning API | ⚡ Omezené | ✗ Žádné |
| Offline / air-gap provoz | ✓ Ano | ✗ Vyžaduje internet | ✗ Vyžaduje internet | ✗ Vyžaduje internet |
| Závislost na poskytovateli | ✓ Nulová | ✗ Vendor lock-in | ✗ Microsoft lock-in | ✗ Microsoft lock-in |
* Náklady jsou orientační a závisí na objemu dotazů, zvoleném modelu a velikosti hardware.
Hugging Face, Ollama, vLLM, LangChain, LoRA trénink, quantizace — to je náš každodenní svět. Neučíme se na vašem projektu. Máme za sebou desítky nasazení v různých odvětvích a přesně víme, co funguje a co ne.
Nemáte GPU server? Pomůžeme vám vybrat správný hardware (od jednoho RTX 4090 po multi-GPU cluster), nakonfigurovat ho a zprovoznit. Máte vlastní servery? Nasadíme přímo k vám bez nutnosti nic kupovat.
Nebudeme vám prodávat nejdražší řešení. Před každým projektem benchmarkujeme 3–5 modelů přímo na vašich vzorových datech a use casech. Doporučíme model, který má nejlepší poměr výkon / cena pro váš konkrétní případ — ne obecně nejlepší model na papíře.
Každé nasazení zahrnuje dokumentaci a školení pro vašeho správce. Váš IT tým bude vědět jak model upgradovat, jak přidat nová data, jak sledovat výkon a jak systém obnovit po výpadku. Nevytváříme závislost na sobě — vytváříme kompetenci ve vaší firmě.
Veškerý kód, konfiguraci, fine-tuned váhy modelu a dokumentaci dostanete do vlastnictví. Nejste závislí na naší infrastruktuře ani API. Pokud se rozhodnete přejít na jinou firmu nebo interní správu, máte vše připravené. Žádné poplatky za „export dat".
V obecných schopnostech je Llama 3 70B nebo Mixtral 8x22B na úrovni GPT-3.5 a v mnoha benchmarcích se blíží GPT-4. Pro oborově specifické úkoly po fine-tuningu na vašich datech vlastní model GPT-4 běžně překonává — zvláště v přesnosti terminologie, dodržování interních postupů a oborovém kontextu.
Záleží na modelu a počtu souběžných uživatelů. Pro menší modely (7B parametrů) stačí server s jednou RTX 3090 za cca 50 000 Kč. Pro větší modely (70B) potřebujete 2–4× A100/H100. Na první schůzce uděláme výpočet a doporučíme konkrétní konfiguraci s cenami od reálných dodavatelů.
Záleží na cíli. Pro základní přizpůsobení stylu a terminologie stačí 500–1 000 příkladů. Pro robustní oborový fine-tuning doporučujeme 5 000–20 000 příkladů. Pomůžeme vám s přípravou a čištěním dat — není nutné mít data předem strukturovaná, pracujeme s PDF, Wordem, databázemi i emailovými archivy.
Nemusíte. Nabízíme i nasazení na dedikovaných GPU serverech v českém datovém centru — data fyzicky zůstanou v ČR, ale nemusíte kupovat hardware. Po 12–18 měsících pronájmu se obvykle vyplatí vlastní server. Pomůžeme vám s rozhodnutím na základě vašich čísel.
Ano — po naší implementaci a předávacím školení zvládne správu modelu standardní Linux admin bez ML znalostí. Systém je postaven tak, aby byl co nejjednodušší na provoz. Aktualizace modelů zvládnete jedním příkazem. Pro pokročilejší operace (re-training) jsme k dispozici jako externa podpora.
BEZPLATNÁ KONZULTACE · 60 MINUT · BEZ ZÁVAZKŮ
Na první schůzce projdeme vaše use casy, bezpečnostní požadavky a objem dotazů. Spočítáme ROI — kdy se vlastní model zaplatí vs. API. Dostanete konkrétní doporučení bez závazku objednávky.