Množični podatki

Iz Wikipedije, proste enciklopedije
Jump to navigation Jump to search

O množičnih podatkih[uredi | uredi kodo]

Termin množični podatki (ang. Big data) se nanaša na velike količine različnih tipov podatkov, ki jih pridobimo iz različnih virov, kot so ljudje, stroji ali senzorji in je kot tak prisoten že od 90. let prejšnjega stoletja. Lahko gre za informacije o podnebju, satelitske posnetke, digitalne fotografije in videoposnetke, evidence o transakcijah ali signale GPS. Množični podatki lahko vključujejo osebne podatke: to so kakršnikoli podatki, ki se nanašajo na posameznika, kot so imena, fotografije, e-naslovi, bančni podatki, objave na spletnih družbenih omrežjih, zdravstveni podatki ali računalniški naslovi IP.[1]

Zgodovina[uredi | uredi kodo]

Izraz množični podatki se uporablja od začetka devetdesetih let prejšnjega stoletja. Kljub dejstvu, da ni točno znano, kdo je prvi uporabil ta izraz, večina zasluge za nadaljnjo priljubljenost izraza, pripisuje Johnu R. Masheyu, takratnemu zaposlenemu podjetja Silicon Graphics.

Koncept zbiranja podatkov, kot tak, ni nekaj povsem novega. Skozi stoletja so ljudje uporabljali tehnike analize z namenom produktivnejšega sprejemanja odločitev. Stari Egipčani so okoli leta 300 pred našim štetjem že poskušali zbrati vse takrat obstoječe podatke v Aleksandriji. Tudi v  Rimskem cesarstvu so skrbno analizirali statistiko svoje vojske, z namenom optimalne porazdelitve le te.

Razlog, da lahko govorimo o množičnem pridobivanju podatkov v zadnjih dveh desetletjih je v obsegu in hitrosti pridobivanja le teh. Skupna količina podatkov na svetu je v letu 2013 znašala 4,4 zettabajtov, le ti pa naj bi se do leta 2020 povzpeli do 44 zettabajtov, kar pomeni da takšnega nabora podatkov več ni mogoče obdelovati s tradicionalnimi metodami obdelave.

Razvoj množičnih podatkov skozi čas, lahko razdelimo v tri faze, vsaka od faz pa ima svoje značilnosti in zmogljivosti.  

  • Faza 1.0 (1970 – 2000)

Upravljanje podatkovnih zbirk in shranjevanje podatkov veljata za temeljne sestavine faze 1.0, ki je temelj sodobne analize podatkov. Temelji na uporabi priznanih tehnik, kot so poizvedbe po bazah podatkov, spletna analitična obdelava in standardna orodja za poročanje.

  • Faza 2.0 (2000 – 2010)

Internet in splet sta po letu 2000 začela ponujati edinstvene zbirke podatkov in možnosti analize podatkov. S širitvijo spletnega prometa in spletnih trgovin so podjetja, kot so Yahoo, Amazon in eBay, začela analizirati vedenje strank z analizo števila klikov, lokacijskih podatkov in dnevnikov iskanja. Organizacije so bile tako primorane najti nove pristope in rešitve za shranjevanje vseh pridobljenih podatkov, z namenom uspešnega spopadanja z novimi tipi podatkov in njihovo učinkovito analizo.

  • Faza 3.0 (2000 – zdaj)

Mobilne naprave so postale novi način za pridobivanje novih podatkov. Mobilne naprave ne omogočajo samo analiziranja vedenjskih podatkov (kot so kliki in iskalne poizvedbe), temveč omogočajo tudi shranjevanje in analiziranje podatkov o lokaciji (GPS-podatki). Z napredkom mobilnih naprav je mogoče slediti gibanju, analizirati fizično vedenje ter celo podatke, povezane z zdravjem (število korakov na dan). [2]

Koncept[uredi | uredi kodo]

Koncept množičnih podatkov se je razvil in vključuje ne samo velikost nabora podatkov, temveč tudi procese, ki so vključeni v koriščenje podatkov. Množični podatki so postali sinonim za druge poslovne koncepte, kot so poslovna inteligenca (angl. Business Inteligence – BI), analitika in podatkovno rudarjenje (angl. Data mining).[3]

Namen[uredi | uredi kodo]

Ideja množičnih podatkov je zbiranje digitalnih sledi, ki jih je nato moč analizirati.[4] V McKinsley inštitutu[4] navajajo, da so digitalni podatki povsod – v vsakem sektorju, ekonomiji, vsaki organizaciji in pri uporabnikih digitalne tehnologije. Organizacije izkoriščajo ogromne količine podatkov za natančnejše prilagoditve sistemov, podporo k odločanju in za razvoj proizvodov. Z analizo množičnih podatkov, ki so jih pridobili s spremljanjem potencialnih strank in njihovih nakupovalnih navad, želijo podjetja optimizirati ali povečati prodajo.[5]

Značilnosti množičnih podatkov[uredi | uredi kodo]

Množični podatki imajo naslednje značilnosti:

  • znatno velikost: gre za ogromno količino podatkov, ki se ustvarjajo v času;
  • raznolikost: gre za podatke v različnih oblikah zapisa, v strukturirani ali nestrukturirani obliki (npr. besedilo, senzorni podatki, dnevniki aktivnosti, tokovi klikov, koordinate ipd.);
  • hitrost: gre za podatke, ki se ustvarjajo z veliko hitrostjo, so hitro na voljo in se tudi hitro spreminjajo.[6]
  • verodostojnost: nanaša se na kakovost in vrednost množičnih podatkov, saj kakovost množičnih podatkov vpliva na natančno analizo. [7]

Problematika zbiranja masovnih podatkov[uredi | uredi kodo]

Organizacije pogosto nimajo standardnega načina zbiranja podatkov, kar preprečuje, da bi vse podatke lahko izkoristili v celoti. Veliko krat množični podatki niso izkoriščeni v celoti, saj je obdelava takšnih podatkov težka, zamudna in draga ter so zato, za številna podjetja nedosegljiv koncept.[8]

Varstvo osebnih podatkov[uredi | uredi kodo]

Ko govorimo o masovnih podatkih se moramo zavedati, da je varnost osebnih podatkov potrošnikov na prvem mestu. Na tej povezavi si lahko preberete reformo varstva podatkov v EU in masovnih podatkih - http://ec.europa.eu/newsroom/just/document.cfm?doc_id=41715.

Viri[uredi | uredi kodo]

  1. Publications Office of the EU (2020). Reforma varstva podatkov v EU in masovni podatki. Pridobljeno 27. 4. 2020 iz https://op.europa.eu/en/publication-detail/-/publication/51fc3ba6-e601-11e7-9749-01aa75ed71a1/language-sl/format-PDF.
  2. Entrerprise big data framework (26. 3. 2019). A short history of Big Data. Pridobljeno 27. 4. 2020 iz https://www.bigdataframework.org/short-history-of-big-data/b.
  3. Ohlhorst, F.J. (2013) Big Data Analytics: Turning Big Data into Big Money. 1st Edition, John Wiley & Sons, Inc., Indianapolis.
  4. Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C. in Byers Hung, A. (maj 2011). Big data: The next frontier for innovation, competition, and productivity. McKinsley&Company. Pridobljeno 27. 4. 2020 iz https://bigdatawg.nist.gov/pdf/MGI_big_data_full_report.pdf.
  5. Marr, B. (2015) Big Data: Using SMART Big Data, Analytics and Metrics To Make Better Decisions and Improve Performance. John Wiley & Sons, Inc.,
  6. Zupan, G. (11. 5. 2020). Svetovni dan telekomunikacij in informacijske družbe. Republika Slovenija statistični urad. Pridobljeno 27. 4. 2020 iz https://www.stat.si/StatWeb/News/Index/6667.
  7. Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. https://www.emerald.com/insight/content/doi/10.1108/JFRC-06-2017-0054/full/html
  8. Peterlin, L. (27. 6. 2018). Masovni podatki so as v rokavu. Svet kapitala. Pridobljeno 27. 4. 2020 iz https://svetkapitala.delo.si/mnenja/lovro-peterlin-masovni-podatki-so-as-v-rokavu-131236.