LIBRISTO
LIBROAMANTO
kötelező
Legyen része a világ minden tájáról összegyűlt könyvbarátok közösségének és élvezze a rengeteg előnyt. Ingyenes regisztráció
0
Ingyenes szállítás a FoxPost futárszolgálattal, 19 990 Ft feletti vásárlás esetén
DPD futárszolgálat 1 190 Ft Posta 1 795 Ft PostaPont / Csomagautomata 1 690 Ft Postán 1 690 Ft GLS pont 1 390 Ft FoxPost 1 190 Ft Packeta 1 190 Ft DPD gyűjtőpont 990 Ft GLS futár 1 790 Ft

Ingyenes szállítás 19 990 Ft feletti rendelés esetén – Packeta, Fox Post Box és DPD csomagpont átvétellel

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Nyelv AngolAngol
Könyv Puha kötésű
Könyv AI Inference Optimization Engineering ChatVariety Team
Libristo kód: 52770465
Kiadó Independently published, június 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Teljes leírás
? points 28 b Hamarosan Hamarosan Új Új
4 038 Ft
Várható készletfeltöltés Küldés 07. 06. 2026

30 nap a termék visszaküldésére

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Színésznő & Poliglott
EWA KASP részére
A videó lejátszása
Ewa Kasp
A Libristo rendelkezik az idegennyelvű könyvek legnagyobb kínálatával. Ezért vásárolom a könyveket itt.

Információ a könyvről

Teljes megnevezés AI Inference Optimization Engineering
Nyelv Angol
Kötés Könyv - Puha kötésű
Kiadás éve 2026
Oldalszám 96
EAN 9798199720021
Libristo kód 52770465
Súly 142
Méretek 152 x 229 x 5
Ajándékozza oda ezt a könyvet még ma
Nagyon egyszerű
1 Tegye a kosárba könyvet, és válassza ki a kiszállítás ajándékként opciót 2 Rögtön küldjük Önnek az utalványt 3 A könyv megérkezik a megajándékozott címére

Belépés

Bejelentkezés a saját fiókba. Még nincs Libristo fiókja? Hozza létre most!

 
kötelező
kötelező

Nincs fiókja? Szerezze meg a Libristo fiók kedvezményeit!

A Libristo fióknak köszönhetően mindent a felügyelete alatt tarthat.

Libristo fiók létrehozása