NicoConstant - Hacker News

HN

Articles by NicoConstant

69

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request (kog.ai)

4 hours ago NicoConstant kog.ai

7

Kog AI – Building a Real-Time Inference Stack on AMD Instinct GPUs [video] (youtube.com)

2 weeks ago NicoConstant youtube.com