0Kč

Žádné produkty v košíku.

0Kč

Žádné produkty v košíku.

Algoritmus může zvýšit spolehlivost odpovědí AI s nižší výpočetní režií

ChatGPT a podobně nás často ohromují přesností svých odpovědí, ale bohužel nám také opakovaně dávají důvod k pochybnostem. Hlavním problémem výkonných AI odezvových motorů (umělá inteligence) je to, že nám poskytují dokonalé odpovědi a zjevné nesmysly se stejnou lehkostí. Jedna z hlavních výzev spočívá v tom, jak se velké jazykové modely (LLM), které jsou základem umělé inteligence, vypořádávají s nejistotou.

Až dosud bylo velmi obtížné posoudit, zda LLM určené pro zpracování a generování textu zakládají své odpovědi na pevných základech dat, nebo zda fungují na nejistém základě. Vědci z Institutu pro strojové učení na katedře informatiky na ETH Zurich nyní vyvinuli metodu, kterou lze konkrétně snížit nejistotu AI. Práce je publikována na předtiskovém serveru arXiv .

„Náš algoritmus může obohatit obecný jazykový model umělé inteligence o další data z příslušné předmětové oblasti otázky. V kombinaci s konkrétní otázkou pak můžeme z hloubek modelu a z dat obohacení extrahovat přesně ta spojení, která s největší pravděpodobností vygenerují správnou odpověď,“ vysvětluje Jonas Hübotter z Learning & Adaptive Systems Group, který novou metodu vyvinul v rámci svého Ph.D. studie.


Obohacení AI o konkrétní data

„Metoda je vhodná zejména pro firmy, vědce nebo jiné uživatele, kteří chtějí používat obecnou umělou inteligenci ve specializované oblasti, kterou tréninková data AI pokrývají pouze částečně nebo vůbec,“ dodává Andreas Krause, vedoucí výzkumné skupiny a ředitel ETH AI Center.

Uživatelé mohou například vkládat svá lokálně uložená data do velkého jazykového modelu (LLM), jako je Llama. Takzvaný algoritmus SIFT (Selecting Informative data for Fine-Tuning), který vyvinuli počítačoví vědci ETH, pak může využít poskytnutá dodatečná data k výběru konkrétních informací, které nejblíže souvisí s otázkou.

Zdroj: Pexels

Vztahové vektory ve vícerozměrném prostoru

Algoritmus používá strukturu, podle které jsou jazykové informace organizovány ve velkém jazykovém modelu AI (LLM), aby našel související informace. Modely rozdělují jazykové informace ve svých trénovacích datech do slovních částí. Sémantické a syntaktické vztahy mezi částmi slova jsou pak uspořádány jako spojovací šipky – v oboru známé jako vektory – ve vícerozměrném prostoru. Rozměry prostoru, které mohou být v tisících, vyplývají z parametrů vztahu, které LLM nezávisle identifikuje během tréninku pomocí obecných dat.


Úhel mezi šipkami jako míra korelace

Relační šipky ukazující stejným směrem v tomto vektorovém prostoru ukazují silnou korelaci. Čím větší je úhel mezi dvěma vektory, tím méně se k sobě dvě jednotky informace vztahují. Algoritmus SIFT vyvinutý výzkumníky ETH nyní využívá směr vektoru vztahu vstupního dotazu (výzvy) k identifikaci těch informačních vztahů, které úzce souvisejí s otázkou, ale zároveň se obsahově doplňují.

„Úhel mezi vektory odpovídá relevanci obsahu a pomocí úhlů můžeme vybrat konkrétní data, která sníží nejistotu,“ vysvětluje Hübotter.


Menší překrývání z nadbytečných informací

Naproti tomu nejběžnější metoda dosud používaná pro výběr informací vhodných pro odpověď, známá jako metoda nejbližšího souseda, má tendenci shromažďovat nadbytečné informace, které jsou široce dostupné. Rozdíl mezi těmito dvěma metodami bude zřejmý, když se podíváte na příklad výzvy k dotazu, která se skládá z několika částí informací.

Odpověď na dvoudílnou otázku „Jak starý je Roger Federer a kolik má dětí?“ metoda nejbližšího souseda považuje podobné informace jako „Roger Federer má 43 let“„Roger Federer má narozeniny 8. srpna 1981“ za stejně relevantní.

Zdroj: Pexels

Někdy chybí informace o jeho dětech, které jsou relevantní pro druhou část otázky. Jsou překryty informacemi o datu narození, které se mnohem častěji vyskytují v trénovacích datech AI . Algoritmus SIFT však bere v úvahu, do jaké míry se obsažené informace doplňují, tj. zda informační vektory směřují různými směry. To umožňuje identifikovat relevantní informace pro oba aspekty otázky.


Spolehlivější odpovědi s mnohem menšími modely

Cílený výběr informací však nezlepšuje pouze kvalitu odpovědí. Lze jej také použít ke snížení stále rostoucího výpočetního výkonu vyžadovaného aplikacemi AI. Nepřímým měřením nejistoty se model může sám rozhodnout, kolik dalších dat je potřeba k poskytnutí dostatečně spolehlivé odpovědi. V důsledku toho lze výpočetní režii vyžadovanou LLM systematicky přizpůsobovat složitosti otázky a dostupnosti relevantních informací. Vzhledem k tomu, že SIFT průběžně přizpůsobuje váhu směrů šipek svým výpočtům během získávání dat, stává se obohacený model tím spolehlivějším, čím více je používán. Toto je známé jako školení v průběhu testu a lze jej použít k dosažení stejného výstupního výkonu u menších modelů.

„V testech se standardními datovými sadami jsme použili ladění SIFT, abychom překonali i ty nejlepší současné modely AI s modely až 40krát menšími,“ zdůrazňuje Hübotter.


Identifikace přidané hodnoty relevantních dat

Z hlediska vyhodnocování dat se otevírají další aplikace pro algoritmus SIFT. Jak vysvětluje Krause: „Můžeme sledovat, která data o obohacení SIFT vybírá. Úzce souvisejí s danou otázkou, a proto jsou zvláště relevantní pro tuto předmětnou oblast. To by mohlo být použito v medicíně například ke zkoumání, které laboratorní rozbory nebo hodnoty měření jsou pro konkrétní diagnózu významné a které méně.“

Hübotter svůj přístup prezentuje na International Conference on Learning Representations (ICLR) v Singapuru. V prosinci získali vědci ETH za svou metodu cenu za nejlepší vědecký článek na výroční konferenci NeurIPS o systémech zpracování nervových informací (NeurIPS) v rámci workshopu „Finetuning in Modern Machine Learning“.

Zdroj: překlad zprávy ETH Zurich

Přihlašte se k odběru a už Vám nic neunikne!

  • Každý týden přinášíme nejzásadnější zprávy z průmyslu, které by neměli uniknout váší pozornosti.

Nepřehlédněte

Více článků