Jalkapallo dataa ja vedonlyönti analyysia.

Moro

http://www.football-data.co.uk/englandm.php

Löysin jo kurssin alkupuolella tällaisen huikean sivuston, josta löytyy eurooppalaista jalkapallo dataa. Data on laaja ja se sisältää kaikki ottelut eurooppalaisista pääsarjoista 93-94 kaudesta alkaen. Jokaisesta ottelusta on kerrottu mm. maali määrät, laukaukset, ottelussa jaetut varoitukset, puoliaika tulokset, melkein kaikki mikä tilastoidaan. Koska kyseessä on vedonlyöntisivusto, mukana on myös usean vedonlyönti yhtiön kertoimet peleille. Tuloksia ja kertoimia vertaillessa voi löytää mielenkiintoisia yhtenäisyyksiä, kunten että joku vedonlyönti firma aliarvioi joukkuetta systemaattisesti. Varmasti hyödyllistä, jos tekisi vedonlyönti tosissaa isoilla rahoilla.

  • Harri

Mietteitä kurssista ja sen aiheista

Moi!

Kurssin alussa ja sen aikana on sanottu, että blogin ei ole tarkoitus olla oppimispäiväkirja tai vastaava. En pyrikään siihen, mutta ajattelin, että olisi hyvä kertoa hieman ajatuksia kurssiin liittyen ja pohtia asioita, joita on oppinut.

Ensimmäiseen lähipäivään itselläni ei ollut hirveästi odotuksia tai en edes oikein tiennyt mitä odottaa lähipäivältä tai kurssilta. Päivän aikana kävimme läpi hieman perusteita big datasta ja siihen liittyvistä asioista ja teimme käytännön harjoituksia Excel -ohjelmiston ja sen työkalujen avulla. Yllätyin lähipäivän aikana ominaisuuksista, joita en tiennyt Excelissä edes olevan. Päivän aikana käytettiin etenkin ohjelmiston Power työkaluja. En tiennyt kyseisistä työkaluista ennen lähipäivää enkä olisi luultavasti osannut edes hyödyntää niitä vaikka olisin tiennyt. Työkalujen avulla pystyi mm. louhimaan tietoa omista Facebook päivityksistään ja mielestäni se oli mielenkiintoista.

Lähipäivän jälkeen tehtäväksi saadut käytäntö ja teoria tehtävät olivat mielestäni suhteellisen työläitä ja vaativat kohtuullisesti aikaa. Vaikeusaste oli helppo/kohtuullinen, mutta aikaa tehtäviin kului, ainakin itseltäni, ihan mukavasti vaikkakin samalla oppi kaikenlaista uutta.

Toiseen lähipäivään valmistautuessa tiesi jo, mitä päivältä tai opetukselta voi odottaa. Opetus oli mielenkiintoista, hauskaa ja päivän aikana opittiin jälleen uusia asioita. Päivän aikana käytettiin jonkun verran Putty tai Secure Shell -komentorivi ohjelmia ja niiden käyttäminen vaati aluksi hieman kertausta, koska opinnoissa ei tule normaalisti kovinkaan paljoa käytettyä komentorivi ohjelmia. Komentoriviä olisi kuitenkin hyvä osata ainakin perustasolla käyttää. Graafitietokanta oli varsin mielenkiintoinen ja uusi kokemus. Päivän ja harjoitusten jälkeen olen kuitenkin miettinyt, että kuinka hyödyllinen ohjelmointi/tietokantakieli Neo4j:ssä käytetty Cypher kyselykieli on työelämää ajatellen. Asia selvinnee viimeistään silloin jos joutuu työskentelemään erilaisten tietokantojen parissa.

Toisen lähipäivän jälkeiset tehtävät olivat mielestäni helpompia kuin ensimmäisen päivän jälkeen. Neo4j:n kyselykieli tuli tutummaksi harjoitusten yhteydessä ja oli hauskaa tehdä Neo4j:hin, oma pienimuotoinen, tietokanta.

Kurssin ennakkotehtävät ovat olleet mielestäni hyödyllisiä. Tehtävistä on ollut etua siinä mielestä, että kuhunkin lähipäivään mentäessä asioista on ollut hieman tietämystä jo valmiiksi, ennen kuin niitä on alettu varsinaisesti opiskelemaan.

Kurssin toteutustapa on, ainakin itselleni, varsin mieluisa. Perinteisesti yliopistokurssit suoritetaan tavallisesti luentojen ja tenttien avulla. Itse en ole kovinkaan aktiivinen luennoillakävijä, koska en tunne saavani luennoilla istumisesta ja luennoitsijoiden hiljaa kuuntelemisesta kovin paljoa irti. Itsenäisesti tehtävät verkkokurssit ovat itselleni mieluisimpia. Tästä kyseisestä big data kurssista tekee mieluisan se, että opetus on vuorovaikutteista, käytännönläheistä(opitaan uusia työkaluja ja menetelmiä) sekä kurssista ei ole tenttiä. On mukavaa vaihtelua, että kurssi arvioidaan tehdyn työmäärän (harjoitustehtävät, harjoitustyö jne.) perusteella eikä pänttäämällä tenttiin viimeisillä viikoilla. Mielestäni on kannustavampaa tehdä harjoituksia ja tehtäviä tasaisesti koko kurssin ajan ja että arvosana määräytyy kunkin oman työpanoksen mukaan, kuin antaa arvosana pelkästään tentin perusteella. Sellaiset kurssit, jotka suoritetaan pelkästään tenttimällä, eivät jää yleensä niin hyvin mieleen kuin sellaiset, joissa tehtäviä tehdään ja harjoitellaan asioita käytännössä.

Loppuun mielestäni hyvä video liittyen toisen lähipäivän Neo4j graafitietokantaan:

-Niko

Flunssan ennustaminen Twitteristä

Twitteristä voidaan ennustaa flunssan eteneminen.
Hashtageilla(aihetunniste) on helppo koota samaan aiheeseen liittyvät kommentit yhteen, jotka sitten muodostavat tietokannan. Suositusta aiheesta saattaa tulla päivässä kymmeniä miljoonia twiittejä, joten tietokannoista tulee myös laajoja.
Samaa tietokantaa keksittiin hyödyntää myös flunssa leviämisen seurantaan. Tutkijat seurasivat flunssaan liittyvien aihetunnisteiden takaa twiittejä, ja huomasivat, että pystyvät arvioimaan flunssan etenemistä. Alla olevassa linkissä myös kerrotaan, että tutkijat loivat algoritmin, joka kertoi heille missä flunssaoireista valittavat tartuttajat liikkuivat ja miten monta viruksen kantajaa terveet kohtasivat. Tästä pystyttiin 90 prosentin varmuudella ennustamaan etukäteen, ketkä sairastuivat – ja ennustus pystyttiin parhaimmillaan antamaan jopa kahdeksan päivää ennen taudin puhkeamista.
Tässä Youtube-linkissä on visualisoituna taudin leviäminen New York Cityssä.

Alla linkki Ylen sivuille uutiseen, jossa kerrottiin tautien ennustamisesta Twitterin avulla.
http://yle.fi/aihe/artikkeli/2014/02/25/milloin-saat-flunssan-twitterin-perusteella-sen-voi-ennustaa

– Henri

Big data ja pilvipalvelut -kurssi

Moi!

Big data ja pilvipalvelut kurssi alkoi muutama viikko sitten, ja kurssilla on tarkoitus myös kirjoitella blogia. Ryhmämme blogikirjoitukset eivät ole alkaneet ihan heti ensimmäisen lähipäivien jälkeen, mutta ehkä se ei hirveästi asiaan vaikuta. Uutta asiaa on opittu ja sisäistetty jo tähän mennessä melko paljon, myös uusia ohjelmia ja työkaluja käyttöä on opittu, mutta niistä ei ole vielä ennen tätä postausta blogiin kirjoiteltu. Korjataan siis kyseistä puutetta tästä postauksesta eteenpäin.

Big data ja pilvipalvelut järjestetään tietääkseni ensimmäistä kertaa yliopistollamme ja se on myös mielestäni ensimmäinen tietojenkäsittelytieteen laitoksen kurssi, jossa käsitellään isoa ja mystistä ”Big data” käsitettä. Kun kuulin kurssista ensimmäisen kerran, tiesin heti että haluan osallistua tälle kurssille. Big data ja siihen liittyvät asiat ovat kiinnostanut itseäni jo jonkun aikaa ja ennen kurssia luin muutaman kirjan, jotka käsittelivät aihetta. On kuitenkin hyödyllistä päästä opiskelemaan asiaa sekä siihen liittyviä työkaluja ja ohjelmistoja yliopistolla järjestettävällä kurssilla. Käsittelen tässä postauksessa hieman big dataa ja joitakin siihen liittyviä asioita.

Big datalle on olemassa erilaisia määritelmiä. Alla muutamia niistä:

Big data on erittäin suurten, järjetelemättöminen, jatkuvasti lisääntyvien tietomassojen keräämistä, säilyttämistä, jakamista, etsimistä, analysointia sekä esittämistä tilastotiedettä ja tietotekniikkaa hyödyntäen. (https://fi.wikipedia.org/wiki/Big_data)

Big data on laaja käsite suurille ja monimutkaisille tietojoukoille, joille ei voida soveltaa perinteisiä tietojenkäsittelyn prosessointimenetelmiä ja -sovelluksia. (suom. https://en.wikipedia.org/wiki/Big_data)

”Big data is being generated by everything around us at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Big data is arriving from multiple sources at an alarming velocity, volume and variety. To extract meaningful value from big data, you need optimal processing power, analytics capabilities and skills.” (http://www.ibm.com/big-data/us/en/)

”Big data is an evolving term that describes any voluminous amount of structured, semi-structured and unstructured data that has the potential to be mined for information.” (http://searchcloudcomputing.techtarget.com/definition/big-data-Big-Data)

Määrittelyissä painotetaan yleensä sitä, että big dataan ei voida hyödyntää, ainakaan tehokkaasti, käyttämällä perinteisiä tietokanta-, ohjelmisto- ja prosessointimenetelmiä. Osa määrittelyistä painottaa hieman enemmän tiedonlouhintaa ja sen etsimistä, osa varsinaista tiedon alalysointia ja sitä kuinka analysoitua tietoa pystytään tehokkaasti hyödyntämään. Olennaista määrittelyissä on, että big data kuvaa suuria määriä rakenteellista, osittain rakenteellista ja rakenteetonta dataa, josta voidaan sopivien menetelmien ja työkalujen avulla louhia merkityksellistä informaatiota.  Big data nähdään nykyisin myös muotisanana, jota yritykset ja muut tahot viljelevät melko ahkerasti.

Big data on keksitty kuvaamaan juuri näitä suuria tietomassoja ja niiden hyödyntämisessä käytettäviä keinoja. Big dataa käytetään nykyisin, enemmän kuin aikaisemmin, koska nykyaikana erilaista dataa tuotetaan todella suuria määriä koko ajan kiihtyvällä tahdilla. Parissa vuodessa dataa saattaa syntyä enemmän kuin koko ihmiskunnan historian aikana yhteensä. Tätä dataa tuottavat mm. verkkoon kytketyt älypuhelimet, televisiot, autot, tietokoneet ja monet muut laitteet. Edellä mainittulla asialla voidaan viitata etenkin  esineiden internet -käsitteeseen. Koska tietoa tuotetaan suuria määriä, olisi tyhmää jättää olemaan hyödyntämättä tuotettua tietoa, ja siksi eri alojen yritykset ympäri maailmaa ovat heränneet big datan aikaan. Kukin yritys, joka hyödyntää tätä tietoa, pyrkii louhimaan, eri tiedonlouhintamenetelmillä, datasta itselleen merkityksellistä tietoa. Tiedoista pyritään saamaan informaatiota, joka auttaa yrityksiä parantamaan omaa yritystoimintaansa esim. kohdentamalla tuotteitaan tarkemmin ja paremmin eri asiakassegmenteille.

Big datan kanssa työskentelemään tarvitaan datatieteilijöitä ja sellaisia henkilöitä, ketkä osaavat hyödyntää louhittavissa olevaa dataa. Datatieteilijällä tarkoitetaan henkilöä, jolla on osaamista eri tieteenaloilta. Datatieteilijällä on vakaa perusta tietojenkäsittelytieteestä ja sovelluksista, mallinnuksesta, tilastotieteistä, analytiikasta ja matematiikasta. Datatieteilijällä voi olla myös osaamista tiedonlouhinnasta ja koneoppimisesta. Datatieteilijällä on myös ymmärrystä liiketoiminnasta ja hän osaa kommunikoida havaitsemistaan tuloksista liiketoiminnan ja IT- osastojen johdolle. Datatieteilijällä on vaikutusvaltaa yrityksessä, jossa työskentelee. Hänellä on myös hyvät ongelmanratkaisutaidot sekä tarinankerrontakykyjä. Datatieteilijöiden löytämät tiedot ovat tukena ja apuna eri yritysten päätöksenteossa.

Alla muutamia linkkivinkkejä aiheeseen:

https://www.youtube.com/watch?v=7D1CQ_LOizA (video, jossa selitetään big dataa)

https://www.youtube.com/watch?v=ELVByA6YtXo (myös video, jossa selitetään big dataa)

http://www.lynda.com/Big-Data-training-tutorials/2061-0.html (verkkosivusto, jossa on erilaisia tutoriaaleja aiheeseen. Mahdollisuus ilmaiseen kokeiluun, mutta muuten maksavat ilmeisesti. Itse en ole kokeillut, mutta vaikuttivat mielenkiintoisilta.)

https://www.oracle.com/big-data/index.html (Hyviä ja mielenkiintoisia artikkeleita ja videoita aiheeseen)

– Niko