Big data ja pilvipalvelut -kurssi

Moi!

Big data ja pilvipalvelut kurssi alkoi muutama viikko sitten, ja kurssilla on tarkoitus myös kirjoitella blogia. Ryhmämme blogikirjoitukset eivät ole alkaneet ihan heti ensimmäisen lähipäivien jälkeen, mutta ehkä se ei hirveästi asiaan vaikuta. Uutta asiaa on opittu ja sisäistetty jo tähän mennessä melko paljon, myös uusia ohjelmia ja työkaluja käyttöä on opittu, mutta niistä ei ole vielä ennen tätä postausta blogiin kirjoiteltu. Korjataan siis kyseistä puutetta tästä postauksesta eteenpäin.

Big data ja pilvipalvelut järjestetään tietääkseni ensimmäistä kertaa yliopistollamme ja se on myös mielestäni ensimmäinen tietojenkäsittelytieteen laitoksen kurssi, jossa käsitellään isoa ja mystistä ”Big data” käsitettä. Kun kuulin kurssista ensimmäisen kerran, tiesin heti että haluan osallistua tälle kurssille. Big data ja siihen liittyvät asiat ovat kiinnostanut itseäni jo jonkun aikaa ja ennen kurssia luin muutaman kirjan, jotka käsittelivät aihetta. On kuitenkin hyödyllistä päästä opiskelemaan asiaa sekä siihen liittyviä työkaluja ja ohjelmistoja yliopistolla järjestettävällä kurssilla. Käsittelen tässä postauksessa hieman big dataa ja joitakin siihen liittyviä asioita.

Big datalle on olemassa erilaisia määritelmiä. Alla muutamia niistä:

Big data on erittäin suurten, järjetelemättöminen, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen. (https://fi.wikipedia.org/wiki/Big_data)

Big data on laaja käsite suurille ja monimutkaisille tietojoukoille, joille ei voida soveltaa perinteisiä tietojenkäsittelyn prosessointimenetelmiä ja -sovelluksia. (suom. https://en.wikipedia.org/wiki/Big_data)

”Big data is being generated by everything around us at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Big data is arriving from multiple sources at an alarming velocity, volume and variety. To extract meaningful value from big data, you need optimal processing power, analytics capabilities and skills.” (http://www.ibm.com/big-data/us/en/)

”Big data is an evolving term that describes any voluminous amount of structured, semi-structured and unstructured data that has the potential to be mined for information.” (http://searchcloudcomputing.techtarget.com/definition/big-data-Big-Data)

Määrittelyissä painotetaan yleensä sitä, että big dataan ei voida hyödyntää, ainakaan tehokkaasti, käyttämällä perinteisiä tietokanta-, ohjelmisto- ja prosessointimenetelmiä. Osa määrittelyistä painottaa hieman enemmän tiedonlouhintaa ja sen etsimistä, osa varsinaista tiedon alalysointia ja sitä kuinka analysoitua tietoa pystytään tehokkaasti hyödyntämään. Olennaista määrittelyissä on, että big data kuvaa suuria määriä rakenteellista, osittain rakenteellista ja rakenteetonta dataa, josta voidaan sopivien menetelmien ja työkalujen avulla louhia merkityksellistä informaatiota.  Big data nähdään nykyisin myös muotisanana, jota yritykset ja muut tahot viljelevät melko ahkerasti.

Big data on keksitty kuvaamaan juuri näitä suuria tietomassoja ja niiden hyödyntämisessä käytettäviä keinoja. Big dataa käytetään nykyisin, enemmän kuin aikaisemmin, koska nykyaikana erilaista dataa tuotetaan todella suuria määriä koko ajan kiihtyvällä tahdilla. Parissa vuodessa dataa saattaa syntyä enemmän kuin koko ihmiskunnan historian aikana yhteensä. Tätä dataa tuottavat mm. verkkoon kytketyt älypuhelimet, televisiot, autot, tietokoneet ja monet muut laitteet. Edellä mainittulla asialla voidaan viitata etenkin  esineiden internet -käsitteeseen. Koska tietoa tuotetaan suuria määriä, olisi tyhmää jättää olemaan hyödyntämättä tuotettua tietoa, ja siksi eri alojen yritykset ympäri maailmaa ovat heränneet big datan aikaan. Kukin yritys, joka hyödyntää tätä tietoa, pyrkii louhimaan, eri tiedonlouhintamenetelmillä, datasta itselleen merkityksellistä tietoa. Tiedoista pyritään saamaan informaatiota, joka auttaa yrityksiä parantamaan omaa yritystoimintaansa esim. kohdentamalla tuotteitaan tarkemmin ja paremmin eri asiakassegmenteille.

Big datan kanssa työskentelemään tarvitaan datatieteilijöitä ja sellaisia henkilöitä, ketkä osaavat hyödyntää louhittavissa olevaa dataa. Datatieteilijällä tarkoitetaan henkilöä, jolla on osaamista eri tieteenaloilta. Datatieteilijällä on vakaa perusta tietojenkäsittelytieteestä ja sovelluksista, mallinnuksesta, tilastotieteistä, analytiikasta ja matematiikasta. Datatieteilijällä voi olla myös osaamista tiedonlouhinnasta ja koneoppimisesta. Datatieteilijällä on myös ymmärrystä liiketoiminnasta ja hän osaa kommunikoida havaitsemistaan tuloksista liiketoiminnan ja IT- osastojen johdolle. Datatieteilijällä on vaikutusvaltaa yrityksessä, jossa työskentelee. Hänellä on myös hyvät ongelmanratkaisutaidot sekä tarinankerrontakykyjä. Datatieteilijöiden löytämät tiedot ovat tukena ja apuna eri yritysten päätöksenteossa.

Alla muutamia linkkivinkkejä aiheeseen:

https://www.youtube.com/watch?v=7D1CQ_LOizA (video, jossa selitetään big dataa)

https://www.youtube.com/watch?v=ELVByA6YtXo (myös video, jossa selitetään big dataa)

http://www.lynda.com/Big-Data-training-tutorials/2061-0.html (verkkosivusto, jossa on erilaisia tutoriaaleja aiheeseen. Mahdollisuus ilmaiseen kokeiluun, mutta muuten maksavat ilmeisesti. Itse en ole kokeillut, mutta vaikuttivat mielenkiintoisilta.)

https://www.oracle.com/big-data/index.html (Hyviä ja mielenkiintoisia artikkeleita ja videoita aiheeseen)

– Niko

Advertisements

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s