Spracovanie veľkého množstva dát – data mining alias čo to v praxi znamená?

Žijeme v dobe dátovej. Denne sú produkované milióny dát. Máme svoje online profily, sociálne siete, online nákupy, ktorých výsledkom je nespočetné množstvo informácií. Bez detailnejšej práce s nimi sa však tieto informácie strácajú do zabudnutia. Prečo je potrebné dáta spracovávať a analyzovať, ako s nimi narábať a čo je vlastne tak často skloňovaný data mining?

 

Anglický pojem data mining je možné voľne preložiť ako získavanie dát. Ide o náročný proces, ktorý sa využíva v rôznych oblastiach. Môžeme sa s ním stretnúť vo finančníctve, marketingu, bankovníctve, telekomunikáciách, vo farmaceutickom priemysle, v oblasti bezpečnostných technológií, ba dokonca aj v zdravotníctve. Ide najmä o odvetvia, v ktorých je potrebné efektívne získavať, spracovávať a analyzovať jednotlivé dáta pre správne a optimálne rozhodovanie. Spracovanie dát je činnosť, ktorú môže vykonávať počítač alebo človek s cieľom ich transformácie v rámci zadanej úlohy. Vzhľadom k tomu, že technologický pokrok  napreduje veľmi rýchlo a vzniká nespočetné množstvo dát, ktoré je pre človeka už veľmi náročné na spracovanie a analýzu, je nevyhnutné vytvárať softvérové nástroje, ktoré dokážu za zlomok sekundy vygenerovať z tohto kvanta informácií, relevantné výsledky. Tie potom môžu zrýchliť a optimalizovať rozhodovacie procesy.

 

História data miningu

Samotný pojem data mining je pomerne mladý. Zavedený bol iba v roku 1990, ale jeho evolúcia ako vednej disciplíny siaha do hlbšej minulosti – do čias, kedy sa vyvíjala klasická štatistika, umelá inteligencia a tzv. machine learning. Spomínané odbory mali vplyv na data mining, pričom si začiatkom 90. rokov 20. storočia data mining získaval popularitu hlavne v marketingovej a bankovej sfére. Neskôr sa techniky zdokonaľoval, čo viedlo k rozširovaniu jeho uplatnenia. Okrem vyššie uvedených oblastí, je dnes data mining neoddeliteľnou súčasťou Business Intelligence a patrí medzi najrýchlejšie rastúci a vyvíjajúci sa segment.

 

 „Data mining je proces analýzy dát z rôznych perspektív a ich premena na užitočné informácie. Z matematického a štatistického hľadiska ide o hľadanie korelácií, teda vzájomných vzťahov alebo vzorov v dátach“. Inak povedané, ide o hľadanie a odkrývanie informácií z existujúcich zdrojov pre podporu rozhodovania sa. V praxi sa často vyskytuje veľké množstvo dát, pri ktorých je potrebné zamerať sa len na určité informácie. Práve tieto informácie sa snaží data mining identifikovať. „Vyťažené“ informácie sa následne používajú pri rozhodovaní, ktorého výsledkom by malo byť dosiahnutie merateľného ekonomického efektu. Data mining môže taktiež pomôcť pri identifikácii problému a existujúcich alebo pravdepodobných vzájomných vzťahov medzi jednotlivými prvkami.

 

Proces data miningu

Celkový proces začína získavaním a zberom dát. Môže ísť o dáta získané pozorovaním, vyhľadávaním, meraním a tak podobne. Tieto informácie sú často „neočistené“ – napr. sú v textovej podobe rozdelené do viacerých množín. Spravidla sa označujú ako surové dáta (raw data, preto je potrebné usporiadať ich do prehľadnej formy. Základným príkladom takejto formy môže byť tabuľka. Po tomto úkone možno dáta označiť ako „čisté“ dáta (processed data). Spracovaním informácií do tabuľkovej podoby sa proces „ťažby“ dát posúva do fázy pomocných zobrazení nadobudnutých informácií (draft grafy a obrázky vytvorené počas analýzy), ktoré slúžia na vlastné pochopenie dát. Tieto pomocné zobrazenia pritom nemusia byť vôbec „pekné“ a väčšinou nebývajú súčasťou záverečnej správy. Až finálne grafy vykresľujúce výsledky analýzy, ktoré sú súčasťou výsledného reportu, sú tým k čomu proces data miningu smeruje.

 

Data mining a projekt Efektívne regióny

A akú má vlastne data mining spojitosť s projektom, ktorý sleduje efektivitu VÚC v oblasti využívania financií na realizáciu svojich aktivít? Vlastne veľmi významnú, pretože bez data miningu by nebolo možné zhodnotiť informácie, ktoré VÚC zverejňujú a ktoré sú základom pre zanalyzovanie efektivity ich práce. Predstavte si už len to množstvo dát, ktoré VÚC poskytuje na svojich stránkach k finančnému uzavretiu kalendárneho roka – za každý rok sú to stovky stránok a tisíce údajov, ktoré je nevyhnutné spracovať, aby sme získali obraz o činnosti VÚC za jeden jediný rok. A čo potom obdobie viacerých rokov u viacerých VÚC? Nejde však iba o samotné dáta. Nemenej dôležité sú vzťahy medzi nimi, ktoré nám poskytujú konkrétnejší obraz zahŕňajúci aj vzájomné súvislosti medzi zvolenými ukazovateľmi efektivity. A takto by sme mohli pokračovať ďalej a ďalej.

 

Takže áno, data mining je nevyhnutný nielen vo vyslovene špecifických oblastiach zdravotníctva, či bankovníctva, ale stáva sa veľmi dôležitým aj pre fungovanie štátu a vlastne (čoskoro) aj pre náš bežný život.