Stack Cut pregled dokumenata Trunk Toolsa sa 60 dana na 10 odbacivanjem modela opće namjene

Većina vertikala nisu čiste, dobro podmazane SaaS baze podataka; stvarnost su ružni dokumenti, vlasničke sheme, implicitni tijek rada i dugotrajni zadaci s kojima se većina modela opće namjene bori.

To je potaknulo tvrtku za upravljanje građevinskim projektima Trunk Tools da izgradi specijaliziranu, troslojnu arhitekturu — percepcija, semantika, agenti — temeljenu na vrlo detaljnim podacima za podršku visokoprecizne, vrlo relevantne industrijske automatizacije.

Njihov namjenski napravljen skup smanjio je cikluse pregleda s mjeseci na dane, spriječio skupe pogreške na terenu i dao autonomnim agentima mogućnost razmišljanja o milijunima stranica dokumentacije, kaže Trunk.

“Stvarno smo namjeravali uzeti podatke iz disperziranih sustava, prethodno ih obraditi, strukturirati, proći kroz našu ontologiju u grafikon znanja, a zatim trenirati AI modele”, rekla je Sarah Buchner, osnivačica i izvršna direktorica Trunka i bivša stolarica.

Graditeljima u drugim vertikalama, Trunkov pristup mogao bi poslužiti kao nacrt za pretvaranje kaosa podataka u tijekove rada specifične za industriju spremne za agente.

Sadržaj objave

1 Gdje se LLM opće namjene raščlanjuju na podatke o industriji
2 Percepcija, semantika, agenti: unutar Trunkovog troslojnog stoga
3 Problem podataka o veličini konstrukcije
4 Od 60 dana do 10: mjerljiva isplata
5 Učenje za druge industrije

Gdje se LLM opće namjene raščlanjuju na podatke o industriji

Foundation LLMs, iako moćni, optimizirani su za širinu, ne uvijek za dubinu.

“LLM-ovi opće namjene obučeni su da budu dobri u svemu, tako da su slabi u bilo čemu”, rekla je Kriti Faujdar, viša voditeljica proizvoda koja radi na AI infrastrukturi, agentskoj AI, sigurnosti i LLM platformama. Na primjer: rijetki izrazi, obrazloženje specifično za domenu, neizgovoreni kontekst koji svaki praktičar “jednostavno zna”.

Razvojni programer weba, aplikacija i softvera Sébastien De Bollivier složio se da je najveće usko grlo pouzdanost podataka koji su “prepuni žargona, brojni su kratica i specifični su za format.”

“Model klase GPT-4 može razumjeti francuski pravni ugovor, ali će poremetiti reference na određene članke koje praktičari trebaju citirati”, rekao je.

Osim toga, najvrjedniji podaci poduzeća ionako nikada nisu dospjeli u predobuku, istaknuo je Faujdar. Nalazi se u internim sustavima i vlasničkim formatima. “RAG malo pomaže”, rekla je. “Ali to je samo davanje boljih činjenica modelu koji još uvijek ne može ispravno razmišljati u domeni.”

Prethodna obuka o podacima domene je kritična; poduzeća bi se tada trebala fino prilagoditi dobrim primjerima zadataka i izgraditi vlastite procjene. “Nekoliko tisuća primjera od pravih praktičara pobjeđuje milijune ostruganih, bučnih," rekao je Faujdar.

Mješavina stručnjaka (MoE) može pružiti specijalizaciju bez povećanja troškova zaključivanja. Uparivanje RAG-a s finim podešavanjem također dobro funkcionira; RAG obrađuje činjenični dugi trag dok fino podešavanje popravlja vokabular i rezoniranje.

De Bollivier je ukazao na prednost hibridnih nizova: model opće namjene za razmišljanje i orkestraciju, manji fino podešeni model (ili gusto dohvaćanje preko odabranog korpusa) za ekstrakciju specifičnu za domenu. Savjetovao je: “Nemojte fino podešavati kako biste model učinili ‘pametnijim’ u vezi s domenom, fino ga podešavajte kako biste ga učinili pouzdanijim na specifičnom izlaznom formatu koji vaš tijek rada zahtijeva.”

Obrtništvo i građevinarstvo svakako su industrije koje se privlače ovim tehnikama, kao i pravna i zdravstvena skrb, rekao je De Bollivier. Ove vertikale imaju “visoke uloge za pogreške plus standardizirane formate dokumenata, što je jednako jasnom ROI-u za obuku domene.”

Jedno iskreno upozorenje vrijedno spomena, rekao je Faujdar: Specijalizirani modeli često se mogu raspasti izvan svoje domene, tako da često nisu korisni izvan svoje stručnosti (osim ako se ponovno obuče).

Percepcija, semantika, agenti: unutar Trunkovog troslojnog stoga

U visoko specijaliziranim domenama kao što je građevinarstvo, “odlaganje podataka” u velike jezične modele (LLM) nije dovoljno, rekao je Trunkov tehnički direktor Amrish Kapoor. To je zato što su većina transformatora probabilistički modeli: kada im se da slika, javljaju da je to “vjerojatno” stablo ili “vjerojatno” dijete koje se igra pokraj stabla.

To ih čini nedostatnima za visokoprecizno simboličko tumačenje. Na primjer, u građevinskoj dokumentaciji simbol širine 2 milimetra ima znatno različito značenje ovisno o tome gdje je postavljen.

Nadalje, ograničeni ograničenjima konteksta, probabilistički modeli bore se s dugoročnim projektnim pamćenjem. “Ne mislim na kontekstni prozor od nekoliko tokena”, rekao je Kapoor. “Govorim o dugoročnom pamćenju koje se proteže kroz mjesece i godine, jer ovoliko traju neki od ovih projekata.”

Umjesto toga, Trunkov troslojni sustav rastavlja tijek rada na:

Percepcija (čitanje i izdvajanje podataka iz neurednih dokumenata poput PDF-ova, crteža ili skenova)
Semantički/grafički sloj (davanje smisla tim podacima i razumijevanje njihovih odnosa).
LLM i agenti na vrhu.

Građevinski crteži obično su simbolični, rekao je Buchner. Vrata nisu uvijek označena kao “vrata”. Ponekad je to jednostavno luk na zidu koji izvježbano oko nauči čitati na temelju godina prakse.

“Sloj percepcije je ono što umjetnu inteligenciju uči čitati taj jezik”, rekla je. Semantički sloj tada toj informaciji daje značenje; na primjer, povezivanje vrata s crtežom koji ih prikazuje, specifikacijom koja ih regulira i obrtom koji ih postavlja. Ovo pomaže odgovoriti na kritična pitanja projektnih inženjera: Ne "ima li vrata ovdje?" ali "stvaraju li ova vrata problem?"

Osobito u građevinarstvu, taj je pomak važan jer se trošak problema povećava s vremenom. “Rješavanje sukoba uhvaćenog u dizajnu relativno je jeftino”, rekao je Buchner, “dok bi isti problem uhvaćen na terenu mogao koštati desetke tisuća dolara.”

Na visokoj razini, sustav identificira vrstu dokumenta i počinje izdvajanje informacija na temelju sadržaja (crteža, rasporeda, teksta odlomka). Ti se podaci zatim “transformiraju i povećavaju” u platformi, što pokreće agentske tijekove rada kao što su odnosi grafikona znanja i tijekovi rada krajnjeg korisnika.

Na primjer, agent može pregledati arhitektonski bilten i proizvesti vizualni sloj koji uspoređuje stariju verziju i noviju verziju (označavanje dodataka i uklanjanja), a zatim generirati pisane priče koje opisuju promjene jednostavnim riječima. Ovo pomaže korisnicima da razumiju što se promijenilo i koordiniraju s trgovinskim partnerima ažurirane cijene i promjene narudžbi.

Problem podataka o veličini konstrukcije

Radni tijekovi konstrukcije “sazreli su s implicitnim pretpostavkama i vezama između podataka u mnoštvu izvora”, rekao je Buchner. A količinu nestrukturiranih podataka “ljudski je nemoguće” obraditi ili im dati smisla.

Buchner je procijenio da prosječna visoka zgrada generira oko 3,6 milijuna stranica odgovarajuće dokumentacije. “Ako to ispišete u hrpu papira, bio bi visok kao sama zgrada.”

Sva tri sloja Trunkovog skupa – percepcija, semantika, LLM – treniraju se na “vrlo specifičnim skupovima podataka” od korisnika s “eksplicitnim dopuštenjima” i automatskim označavanjem/IP-om, objasnio je Kapoor. Korisnici koji ne žele Trunk obuku na svojim podacima mogu se isključiti.

Podaci se deidentificiraju i agregiraju, a Trunk također prikuplja “tone više” označenih podataka putem drugih cjevovoda kao što je 3D modeliranje informacija o zgradama (BIM).

Trunk kaže da šalje samo agente koji postižu oko 95% točnosti. Tim održava stalne kanale za evaluaciju na temelju istinitih podataka kupaca i stručnjaka. Također koriste model LLM-a kao suca.

“Ovaj pojam LLM-a kao suca je ocjenjivanje koliko dobro radite, kako subjektivno tako i objektivno”, rekao je Kapoor. Objektivnost može biti jednostavno ‘ispravna’ ili ‘neispravna’, ali subjektivnost zahtijeva više nijansi.

Na primjer, prilikom izrade e-pošte ili naracije ili objašnjenja, LLM kao okvir za prosuđivanje može stvoriti kompozitni rezultat ili numeričku vrijednost koja agregira različite metrike i testira izvedbu ili rizik modela.

Ipak, može biti izazova, osobito s kašnjenjem, primijetio je Buchner; svaki put kad se kapacitet rasuđivanja temeljnih modela poveća, rizik od kašnjenja također raste. Trunk održava skup kriterija procjene za objektivno mjerenje latencije kad god se naprave promjene u osnovnoj infrastrukturi, agentima i API pozivima.

Zatim, “prije nego što ga objavimo korisnicima, osiguravamo da su marginalne promjene u iskustvu krajnjeg korisnika vrijedne poboljšanja performansi”, rekao je Buchner.

Od 60 dana do 10: mjerljiva isplata

Trunkova platforma pokreće sedam AI agenata namjenski izgrađenih za konstrukciju, kao što je analiza odgovora na zahtjev za informacijama (RFI), pregled ponuda ili pregled crteža i podnesaka.

Agent za podnošenje, na primjer, označava nedostajuće, proturječne ili nesukladne informacije u specifikacijama proizvoda i RFI-ovima. Iako je to bitan korak u procesu izgradnje, “to je super dosadan tijek rada”, rekao je Buchner, jer ljudski recenzenti moraju uspoređivati dokumente “s hrpom drugih dijelova dokumenata”.

Ali agent to može učiniti u nekoliko sekundi, a Trunk kaže da je smanjio cikluse podnošenja s 50 do 60 dana na 10, “što ima ogroman raspored i financijske implikacije.”

Trunk je sada na mjestu gdje ti agenti komuniciraju izravno jedni s drugima, što je “prilično uzbudljivo”, rekao je Buchner. Tako će, na primjer, jedan agent pregledati točnost arhitektonskog crteža, zatim ga samostalno predati agentima koji obrađuju RFI-ove i postavljaju dodatna pitanja.

“Ako crteži imaju problema, RFI agent preuzima posao i aktivno traži pojašnjenja”, objasnio je Buchner.

Trunk kaže da njegovi korisnici prijavljuju uštedu od 20 do 40 minuta po polju pitanja. Buchner je rekao da korisnici na terenu znaju bolje od ikoga koliko je “vrijeme bezveze” ići naprijed-nazad iz uredskih prikolica, kopati po projektnim dokumentima u raštrkanim sustavima ili ispisanim PDF-ovima, usklađivati nedosljednosti i vraćati se na koordinaciju s trgovinskim partnerima.

Trunk kaže da njegovi kupci prijavljuju ove dodatne ishode:

Prosječna ušteda od 8 minuta za pronalaženje jednog dokumenta (provjere statusa, traženje lokacije, upiti o količini).
Prosječna ušteda vremena od 20 minuta za standardno referenciranje (unakrsno referenciranje 2 do 3 odjeljka specifikacija za formiranje odgovora.
Prosječna ušteda od 40 minuta vremena za istraživanje više dokumenata (ispisivanje i filtriranje upita, mapiranje odnosa, analiza RFI-ova i podnošenje 4 do 6 dokumenata).
Prosječna ušteda vremena od 75 minuta za složene zadatke (stvaranje RFI-ja i drugih komunikacijskih materijala, duboko unakrsno referenciranje dokumenata, praćenje promjena).

U jednom slučaju, Trunkov agent za pregled crteža označio je da je konstrukcijska greda pomaknuta prema gore 8,5 inča. Međutim, to arhitekt nije dokumentirao. Da promjena nije uočena, voditelj projekta bi vjerojatno morao skinuti i ponovno postaviti gredu prave veličine, rekao je Buchner. Ova prerada bi proračunu dodala 10.000 dolara ili više i “sigurno bi bilo implikacija na raspored.”

Buchner je također ukazao na druge primjere: agent je označio 60.000 dolara pretjerane cijene bez ikakvog opravdanja od podizvođača krajobraza; identificirali kamin koji je trebalo zatvoriti prije postavljanja suhozida, čime se uštedjelo oko 100.000 USD u radu, materijalima i kašnjenjima; i rekao da električna vrata zahtijevaju ploču koja nije uključena u električne nacrte.

Učenje za druge industrije

Trunkov pristup izgradnji agenata primjenjiv je na bilo koju vertikalu koja radi s velikom količinom nestrukturiranih podataka specifičnih za industriju. Graditelji koji rade u određenim vertikalama moraju razumjeti specifične izazove industrije s podacima s kojima se suočavaju njihovi krajnji korisnici i izgraditi tehničku infrastrukturu koja može transformirati nestrukturirane podatke u nešto što “LLM može proći i razumjeti”, rekao je Buchner. “Tek tada možete izgraditi veze između podatkovnih točaka koje u konačnici hrane agentske tijekove rada.” Puno se novca ulaže u temeljne modele, pa bi poduzeća trebala graditi modularne sustave koji mogu iskoristiti prednosti različitih modela dok se oni nastavljaju poboljšavati, savjetuje Buchner. Zatim, “izgradite svoju tehničku prednost tamo gdje generički modeli ne ulažu i nemaju dobre rezultate”, rekla je.

Web izvor

Stack Cut pregled dokumenata Trunk Toolsa sa 60 dana na 10 odbacivanjem modela opće namjene

ByTomšić Damjan

Gdje se LLM opće namjene raščlanjuju na podatke o industriji

Percepcija, semantika, agenti: unutar Trunkovog troslojnog stoga

Problem podataka o veličini konstrukcije

Od 60 dana do 10: mjerljiva isplata

Učenje za druge industrije

By Tomšić Damjan

3 nuklearna startupa postigla su veliku prekretnicu. Zašto je važno—i zašto nije

Ovaj GoPro Hero13 Black Action paket snižen je 100 USD (i savršen je za dokumentiranje ljetnih avantura)

Najbolja ponuda za Galaxy Watch 8 Classic

You missed

Stack Cut pregled dokumenata Trunk Toolsa sa 60 dana na 10 odbacivanjem modela opće namjene

3 nuklearna startupa postigla su veliku prekretnicu. Zašto je važno—i zašto nije

Ovaj GoPro Hero13 Black Action paket snižen je 100 USD (i savršen je za dokumentiranje ljetnih avantura)

Najbolja ponuda za Galaxy Watch 8 Classic

Stack Cut pregled dokumenata Trunk Toolsa sa 60 dana na 10 odbacivanjem modela opće namjene

ByTomšić Damjan

Gdje se LLM opće namjene raščlanjuju na podatke o industriji

Percepcija, semantika, agenti: unutar Trunkovog troslojnog stoga

Problem podataka o veličini konstrukcije

Od 60 dana do 10: mjerljiva isplata

Učenje za druge industrije

By Tomšić Damjan

Related Post

3 nuklearna startupa postigla su veliku prekretnicu. Zašto je važno—i zašto nije

Ovaj GoPro Hero13 Black Action paket snižen je 100 USD (i savršen je za dokumentiranje ljetnih avantura)

Najbolja ponuda za Galaxy Watch 8 Classic

You missed

Stack Cut pregled dokumenata Trunk Toolsa sa 60 dana na 10 odbacivanjem modela opće namjene

3 nuklearna startupa postigla su veliku prekretnicu. Zašto je važno—i zašto nije

Ovaj GoPro Hero13 Black Action paket snižen je 100 USD (i savršen je za dokumentiranje ljetnih avantura)

Najbolja ponuda za Galaxy Watch 8 Classic