12.07.2024 Views

ComputerTrends - KKV-Trends magazin 2024.07.10.

A ComputerTrends magazin 2024. július 10-én megjelent lapszáma, KKV-Trends melléklettel.

A ComputerTrends magazin 2024. július 10-én megjelent lapszáma, KKV-Trends melléklettel.

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

TECH/AI<br />

tekintve sok mindenben hasonló, de<br />

részben eltérő – formátum a Delta<br />

Lake (UniForm) és az Apache Iceberg.<br />

Az újabbnak számító Delta Lake a<br />

Databricks és a Microsoft valamivel<br />

nagyobb támogatását élvezi, a kiforrottabb<br />

Iceberg mögött a szállítók szélesebb<br />

köre sorakozott fel. A formátumok<br />

azonban átjárhatók – mindkettő Parquet<br />

adatfájlokat és metaadat réteget<br />

tartalmaz –, az Iceberg kliensével<br />

például olvashatók a Delta Lake táblák.<br />

A két formátum a továbbiakban<br />

még közelebb kerülhet egymáshoz,<br />

június elején, a Budapest Data + ML<br />

Fórummal egy időben a Databricks<br />

ugyanis bejelentette, hogy felvásárolta<br />

a Tabulart – az adatmenedzsmenttel<br />

foglalkozó céget, amelyet az Iceberg<br />

eredeti fejlesztői alapítottak. Táblák<br />

közötti zökkenőmentes együttműködést<br />

ígér a metaadat-fordító Apache X Table<br />

is, amelyet a fejlesztők kipróbálhatnak<br />

a GitHubon. Így végső soron az adott<br />

követelményeken, használati eseten<br />

és a meglévő technológiai környezeten<br />

múlik majd, hogy a vállalatoknak<br />

melyik táblaformátumot érdemes<br />

választaniuk.<br />

Arató Bence az adataréna új csillagai<br />

között említette a DuckDB OLAP<br />

adatbázist, amellyel az adatkutatók<br />

és analitikusok nagy adatkészleteket<br />

elemezhetnek gyorsan és hatékonyan.<br />

A Polars egy nagy teljesítményű Data-<br />

Frame könyvtár, ugyancsak hatékony<br />

adatmanipulációhoz. A dlt pedig egy nyílt<br />

forráskódú könyvtár, amely a Python<br />

scriptekhez adva különféle – gyakran<br />

kevéssé rendezett – forrásokból is<br />

betölti az adatokat a jól strukturált, élő<br />

adatkészletekbe.<br />

Mindezen trendekből leszűrhető,<br />

hogy a sokat emlegetett és még mindig<br />

kialakulóban levő modern data stack<br />

fejlődése mindinkább az együttműködő<br />

elemekből igény szerint összerakható<br />

(composable) adatstack kialakulása felé<br />

mutat.<br />

Modellek érája<br />

A McKinsey legfrissebb felmérése<br />

(Global Survey on AI) szerint a vállalatok<br />

65 százaléka már rendszeresen használja<br />

a generatív mesterséges intelligenciát,<br />

ami a mindössze tíz hónappal<br />

korábban mért arány közel kétszerese.<br />

A generatív AI iránti érdeklődés a<br />

mesterséges intelligencia más képességeit<br />

is a figyelem középpontjába állította.<br />

Míg az elmúlt hat évben változatlanul<br />

a szervezetek fele számolt be AI bevezetésről,<br />

addig a mostani felmérésben<br />

arányuk 72 százalékra szökött fel.<br />

A begyűjtött válaszok alapján a generatív<br />

AI azokon a vállalati területeken terjed<br />

a leggyorsabban, amelyek a legnagyobb<br />

üzleti értéket termetheti: a szervezetek<br />

34 százaléka a marketing és az értékesítés,<br />

23 százaléka a termék- és szolgáltatásfejlesztés,<br />

17 százaléka pedig az<br />

IT-felügyelet és üzemeltetés támogatására<br />

vezette be.<br />

Sorra jelennek meg a minden eddiginél<br />

nagyobb teljesítményű és fejlettebb<br />

képességekkel rendelkező nagy nyelvi<br />

modellek (LLM-ek), mint például az idén<br />

tavasszal debütáló, újgenerációs Meta<br />

Llama 3, vagy az OpenAI multimodális<br />

GPT-4o modellje. Mellettük azonban<br />

mind nagyobb érdeklődés övezi az olyan<br />

modellek porondra lépését is, mint<br />

a Microsoft Phi-3 kis nyelvi modellje,<br />

az Apple és a Lenovo okostelefonon<br />

futtatható modelljei, vagy például a<br />

Databricks DBRX és a Snowflake Arctic<br />

alapmodellje.<br />

A mesterséges intelligencia további<br />

térhódításának ütemét a modellek nagy<br />

teljesítményű futtatásához szükséges,<br />

speciális processzorok piaci elérhetősége<br />

is befolyásolja – a szállítók, mint<br />

az NVIDIA jelenleg ugyanis küzdenek<br />

a hirtelen felívelő, óriási kereslet<br />

kiszolgálásával.<br />

A legnagyobb piaci szereplők tíz- és<br />

százezres darabszámban vásárolják,<br />

egyszerűen elkapkodják a legyártott<br />

készleteket. Az NVIDIA H100-as<br />

processzorainak legnagyobb felhasználói<br />

a Microsoft, a Meta, az AWS, a<br />

Google és az Oracle. A kisebb vásárlóerővel<br />

rendelkező szervezetek emiatt<br />

hátrányba kerülnek, ezért a nyílt forráskódú<br />

alapmodelleket kínáló Hugging<br />

Face ZeroGPU néven új programot<br />

indított, amelyen keresztül az akadémiai<br />

szektorban dolgozó és más független AI<br />

fejlesztőknek 10 millió dollár értékű GPU<br />

erőforráshoz ad ingyenes hozzáférést.<br />

Miközben a vállalatok a generatív<br />

AI egyre több előnyét tapasztalják, a<br />

technológiát kísérő, újfajta kockázatokkal<br />

is szembesülnek, mutatott rá<br />

elemzésében a McKinsey. A kockázatok<br />

az adatkezeléstől kezdve a magánélet<br />

és a szellemi tulajdon védelmén át a<br />

modellek felügyeletéig, a pontatlanságig,<br />

az elfogultságig és a megmagyarázhatóság<br />

hiányáig ívelnek, és komoly<br />

biztonsági kockázatot jelent a technológia<br />

szabálytalan használata is.<br />

Az üzlet számára kulcsfontosságú<br />

kérdés, hogy megbízhat-e a nyelvi<br />

modellben, amelynek alapján például<br />

ügyfélszolgálati chatbotja válaszol a<br />

kérdésekre – szakmailag pontosak<br />

ezek a válaszok, a vállalat értékrendjét<br />

tükrözik, vagy éppen ellenkezőleg, a cég<br />

megítélését rontják?<br />

Kutatók egy csoportja SaySelf néven új<br />

megközelítést és keretrendszert dolgozott<br />

ki, amelyekkel az LLM-ek működése<br />

átláthatóbbá és megbízhatóbbá tehető.<br />

Lényege, hogy a nagy nyelvi modellnek<br />

válaszaival együtt azt is meg kell adnia,<br />

mennyire biztos azok pontosságában.<br />

Az LLM-eket ennek alapján jobban<br />

lehetne kalibrálni, így magabiztosságuk<br />

és tényleges pontosságuk jobban közelítene<br />

egymáshoz, és megbízhatóbbá<br />

válnának a gyakorlati alkalmazásokban<br />

is. A SaySelf keretrendszer kódját a<br />

kutatók a GitHubon tették közzé.<br />

2024. július | <strong>Computer<strong>Trends</strong></strong> | 21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!