ComputerTrends - KKV-Trends magazin 2024.07.10.
A ComputerTrends magazin 2024. július 10-én megjelent lapszáma, KKV-Trends melléklettel.
A ComputerTrends magazin 2024. július 10-én megjelent lapszáma, KKV-Trends melléklettel.
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
TECH/AI<br />
tekintve sok mindenben hasonló, de<br />
részben eltérő – formátum a Delta<br />
Lake (UniForm) és az Apache Iceberg.<br />
Az újabbnak számító Delta Lake a<br />
Databricks és a Microsoft valamivel<br />
nagyobb támogatását élvezi, a kiforrottabb<br />
Iceberg mögött a szállítók szélesebb<br />
köre sorakozott fel. A formátumok<br />
azonban átjárhatók – mindkettő Parquet<br />
adatfájlokat és metaadat réteget<br />
tartalmaz –, az Iceberg kliensével<br />
például olvashatók a Delta Lake táblák.<br />
A két formátum a továbbiakban<br />
még közelebb kerülhet egymáshoz,<br />
június elején, a Budapest Data + ML<br />
Fórummal egy időben a Databricks<br />
ugyanis bejelentette, hogy felvásárolta<br />
a Tabulart – az adatmenedzsmenttel<br />
foglalkozó céget, amelyet az Iceberg<br />
eredeti fejlesztői alapítottak. Táblák<br />
közötti zökkenőmentes együttműködést<br />
ígér a metaadat-fordító Apache X Table<br />
is, amelyet a fejlesztők kipróbálhatnak<br />
a GitHubon. Így végső soron az adott<br />
követelményeken, használati eseten<br />
és a meglévő technológiai környezeten<br />
múlik majd, hogy a vállalatoknak<br />
melyik táblaformátumot érdemes<br />
választaniuk.<br />
Arató Bence az adataréna új csillagai<br />
között említette a DuckDB OLAP<br />
adatbázist, amellyel az adatkutatók<br />
és analitikusok nagy adatkészleteket<br />
elemezhetnek gyorsan és hatékonyan.<br />
A Polars egy nagy teljesítményű Data-<br />
Frame könyvtár, ugyancsak hatékony<br />
adatmanipulációhoz. A dlt pedig egy nyílt<br />
forráskódú könyvtár, amely a Python<br />
scriptekhez adva különféle – gyakran<br />
kevéssé rendezett – forrásokból is<br />
betölti az adatokat a jól strukturált, élő<br />
adatkészletekbe.<br />
Mindezen trendekből leszűrhető,<br />
hogy a sokat emlegetett és még mindig<br />
kialakulóban levő modern data stack<br />
fejlődése mindinkább az együttműködő<br />
elemekből igény szerint összerakható<br />
(composable) adatstack kialakulása felé<br />
mutat.<br />
Modellek érája<br />
A McKinsey legfrissebb felmérése<br />
(Global Survey on AI) szerint a vállalatok<br />
65 százaléka már rendszeresen használja<br />
a generatív mesterséges intelligenciát,<br />
ami a mindössze tíz hónappal<br />
korábban mért arány közel kétszerese.<br />
A generatív AI iránti érdeklődés a<br />
mesterséges intelligencia más képességeit<br />
is a figyelem középpontjába állította.<br />
Míg az elmúlt hat évben változatlanul<br />
a szervezetek fele számolt be AI bevezetésről,<br />
addig a mostani felmérésben<br />
arányuk 72 százalékra szökött fel.<br />
A begyűjtött válaszok alapján a generatív<br />
AI azokon a vállalati területeken terjed<br />
a leggyorsabban, amelyek a legnagyobb<br />
üzleti értéket termetheti: a szervezetek<br />
34 százaléka a marketing és az értékesítés,<br />
23 százaléka a termék- és szolgáltatásfejlesztés,<br />
17 százaléka pedig az<br />
IT-felügyelet és üzemeltetés támogatására<br />
vezette be.<br />
Sorra jelennek meg a minden eddiginél<br />
nagyobb teljesítményű és fejlettebb<br />
képességekkel rendelkező nagy nyelvi<br />
modellek (LLM-ek), mint például az idén<br />
tavasszal debütáló, újgenerációs Meta<br />
Llama 3, vagy az OpenAI multimodális<br />
GPT-4o modellje. Mellettük azonban<br />
mind nagyobb érdeklődés övezi az olyan<br />
modellek porondra lépését is, mint<br />
a Microsoft Phi-3 kis nyelvi modellje,<br />
az Apple és a Lenovo okostelefonon<br />
futtatható modelljei, vagy például a<br />
Databricks DBRX és a Snowflake Arctic<br />
alapmodellje.<br />
A mesterséges intelligencia további<br />
térhódításának ütemét a modellek nagy<br />
teljesítményű futtatásához szükséges,<br />
speciális processzorok piaci elérhetősége<br />
is befolyásolja – a szállítók, mint<br />
az NVIDIA jelenleg ugyanis küzdenek<br />
a hirtelen felívelő, óriási kereslet<br />
kiszolgálásával.<br />
A legnagyobb piaci szereplők tíz- és<br />
százezres darabszámban vásárolják,<br />
egyszerűen elkapkodják a legyártott<br />
készleteket. Az NVIDIA H100-as<br />
processzorainak legnagyobb felhasználói<br />
a Microsoft, a Meta, az AWS, a<br />
Google és az Oracle. A kisebb vásárlóerővel<br />
rendelkező szervezetek emiatt<br />
hátrányba kerülnek, ezért a nyílt forráskódú<br />
alapmodelleket kínáló Hugging<br />
Face ZeroGPU néven új programot<br />
indított, amelyen keresztül az akadémiai<br />
szektorban dolgozó és más független AI<br />
fejlesztőknek 10 millió dollár értékű GPU<br />
erőforráshoz ad ingyenes hozzáférést.<br />
Miközben a vállalatok a generatív<br />
AI egyre több előnyét tapasztalják, a<br />
technológiát kísérő, újfajta kockázatokkal<br />
is szembesülnek, mutatott rá<br />
elemzésében a McKinsey. A kockázatok<br />
az adatkezeléstől kezdve a magánélet<br />
és a szellemi tulajdon védelmén át a<br />
modellek felügyeletéig, a pontatlanságig,<br />
az elfogultságig és a megmagyarázhatóság<br />
hiányáig ívelnek, és komoly<br />
biztonsági kockázatot jelent a technológia<br />
szabálytalan használata is.<br />
Az üzlet számára kulcsfontosságú<br />
kérdés, hogy megbízhat-e a nyelvi<br />
modellben, amelynek alapján például<br />
ügyfélszolgálati chatbotja válaszol a<br />
kérdésekre – szakmailag pontosak<br />
ezek a válaszok, a vállalat értékrendjét<br />
tükrözik, vagy éppen ellenkezőleg, a cég<br />
megítélését rontják?<br />
Kutatók egy csoportja SaySelf néven új<br />
megközelítést és keretrendszert dolgozott<br />
ki, amelyekkel az LLM-ek működése<br />
átláthatóbbá és megbízhatóbbá tehető.<br />
Lényege, hogy a nagy nyelvi modellnek<br />
válaszaival együtt azt is meg kell adnia,<br />
mennyire biztos azok pontosságában.<br />
Az LLM-eket ennek alapján jobban<br />
lehetne kalibrálni, így magabiztosságuk<br />
és tényleges pontosságuk jobban közelítene<br />
egymáshoz, és megbízhatóbbá<br />
válnának a gyakorlati alkalmazásokban<br />
is. A SaySelf keretrendszer kódját a<br />
kutatók a GitHubon tették közzé.<br />
2024. július | <strong>Computer<strong>Trends</strong></strong> | 21