LIBRISTO
LIBROAMANTO
kötelező
Legyen része a világ minden tájáról összegyűlt könyvbarátok közösségének és élvezze a rengeteg előnyt. Ingyenes regisztráció
0
Ingyenes szállítás a FoxPost futárszolgálattal, 19 990 Ft feletti vásárlás esetén
DPD futárszolgálat 1 190 Ft Magyar Posta 1 795 Ft PostaPont / Csomagautomata 1 690 Ft Magyar Posta 1 690 Ft FoxPost 1 190 Ft Packeta 1 190 Ft DPD gyűjtőpont 990 Ft GLS futár 1 690 Ft GLS pont 1 190 Ft

Ingyenes szállítás 19 990 Ft feletti rendelés esetén – Packeta, Fox Post Box és DPD csomagpont átvétellel

LLM Inference Engineering

Quantization, KV-Cache Optimization, and High-Throughput Serving: A Production Engineer's Guide to INT4/INT8 Quantization, vLLM, TGI, Speculative Decoding, and Cost Optimization

Nyelv AngolAngol
Könyv Puha kötésű
Könyv LLM Inference Engineering ChatVariety Team
Libristo kód: 52843158
Kiadó Independently published, június 2026
Master the Art of Low-Latency, High-Throughput LLM ServingIn 2026, the defining challenge of product... Teljes leírás
? points 27 b Új Új
3 989 Ft
Várható készletfeltöltés Küldés 15. 06. 2026

Akár 30 napos visszaküldési lehetőség

Master the Art of Low-Latency, High-Throughput LLM Serving

In 2026, the defining challenge of production AI is no longer training-it is cost-effective inference. LLM Inference Engineering is the definitive production guide for software engineers, ML developers, and DevOps professionals tasked with deploying large language models at scale without breaking the bank.

This hands-on manual strips away the theoretical academic jargon and delivers practical, production-ready strategies to cut your GPU and cloud serving costs by 50% to 70% while maintaining absolute response quality.

What You Will Master:
  • Advanced Quantization: Hands-on implementation of INT4/INT8 quantization using AWQ, GPTQ, and GGUF algorithms without destroying model accuracy.
  • High-Throughput Architectures: Deep dives into PagedAttention, continuous batching, and GPU memory management to maximize hardware utilization.
  • Serving Frameworks: Configuration recipes and production tuning guidelines for vLLM, TGI (Text Generation Inference), and llama.cpp.
  • Speed Optimization: Implement speculative decoding to achieve 2x to 4x latency reduction with mathematically guaranteed quality.
  • Scaling to 70B+ Models: Configure multi-GPU setups using tensor parallelism to distribute memory footprints efficiently.
  • Rigorous Benchmarking: Establish robust metrics for latency, cost-per-token, and throughput to justify infrastructure decisions.

Written specifically for practicing engineers, this guide assumes familiarity with Python and basic PyTorch. Inside, you will find real-world deployment examples, benchmarking code, and architectural breakdowns that bridge the gap between model training and highly scalable production deployments. Equip yourself with the skills to architect the next generation of AI infrastructure. Stop wasting expensive GPU cycles-optimize your inference pipeline today.

Színésznő & Poliglott
EWA KASP részére
A videó lejátszása
Ewa Kasp
A Libristo rendelkezik az idegennyelvű könyvek legnagyobb kínálatával. Ezért vásárolom a könyveket itt.

Információ a könyvről

Teljes megnevezés LLM Inference Engineering
Nyelv Angol
Kötés Könyv - Puha kötésű
Kiadás éve 2026
Oldalszám 84
EAN 9798180985187
Libristo kód 52843158
Súly 126
Méretek 152 x 229 x 4
Ajándékozza oda ezt a könyvet még ma
Nagyon egyszerű
1 Tegye a kosárba könyvet, és válassza ki a kiszállítás ajándékként opciót 2 Rögtön küldjük Önnek az utalványt 3 A könyv megérkezik a megajándékozott címére

Belépés

Bejelentkezés a saját fiókba. Még nincs Libristo fiókja? Hozza létre most!

 
kötelező
kötelező

Nincs fiókja? Szerezze meg a Libristo fiók kedvezményeit!

A Libristo fióknak köszönhetően mindent a felügyelete alatt tarthat.

Libristo fiók létrehozása
Libroamiko könyvtanácsadó
Szia, Libroamiko vagyok, segíthetek?