Nvidijina nova tehnika smanjuje troškove LLM zaključivanja za 8x bez gubitka točnosti
Istraživači u Nvidiji razvili su tehniku koja može smanjiti troškove memorije za rasuđivanje velikog jezičnog modela do osam puta. Njihova tehnika, tzv dinamičko škripanje memorije (DMS), komprimira predmemoriju vrijednosti ključa…