Mielenkiintoinen artikkeli autojen tulevaisuudesta

Moro

https://channels.theinnovationenterprise.com/articles/the-internet-of-things-and-the-connected-car

Löysin tällaisen mielenkiintoisen artikkelin autojen tulevaisuudesta. Artikkelissa esiteltiin mm. että kaikissa tänä vuonna Euroopassa myydyissä autoissa pitää olla sensorit, jotka tunnistavat kolarin ja lähettävät siitä viestin pelastus viranomaisille.

Esille nousi myös koko auto teollisuuden muuttava mahdollisuus, jossa autonvalmistajat alkavat kerätä autoista dataa kaikista osista. Auto alkaa itse kertomaan valmistajalle, milloin joku tietty osa on hajoamassa ja valmistaja alkavat valmistamaan varaosiakin sen datan perusteella mitä autoilta saadaan.

– Harri

Mietteitä kurssista vol 2.

Moro!

 
Lähipäivä 3.

Kolmannessa lähipäivässä tutustuttiin Microsoftin Azure -palveluun ja sitä myös esitteli etäyhteyden avulla eräs Microsoftin työtekijä. Työntekijän pitämä esittely/opetus toi mukavaa vaihtelua opetukseen ja opetusta oli mukavaa seurata.

Alla hieman ajatuksia harjoitustyöstä:

Kurssin lopuksi jokainen opiskelija teki harjoitustyön, jossa harjoiteltiin kurssilla opittuja asioita ja menetelmiä. Itselläni harjoitustyön tekemiseen meni melko kauan aikaa ja joitakin tehtäviä joutui pureskelemaan ihan kiitettävästi. Azure tehtävien tekeminen oli varsin suoraviivaista ja helppoa kun seurasi Azuresta ja netistä löytyneitä
tutoriaaleja. Pakollisten tehtävien jälkeen Azure tilin saldo oli vielä huomattavan verran plussalla, joten jäänee nähtäväksi tulisiko kyseinen saldo vielä hyödynnettyä loppuun testailemalla ja kokeilemalla ennen kuin ilmaisen kokeilun käyttöjakso umpeutuu.

Hive harjoitukset olivat mielestäni kaikista mielenkiintoisimpia harjoitustyössä, koska hiveä ei käsitelty lähipäivissä. Hiveen ja sen käyttämiseen pääsi mielestäni varsin helposti sisälle katsomalla opettaja tekemät opetusvideot huolella ja ajatuksen kanssa. Hiven kanssa kävi muutaman kerran hieman hassusti kun ei muistanut kuinka paljon taulussa on tietoa ja päätti tulostaa joka ikisen rivin * komennon avulla.

 
Excel -harjoituksessa oli aluksi hieman vaikeaa päättää seikka/asia, jota annetusta datasta alkoi tutkimaan tarkemmin. Lopulta itse päätin tutkia eri polttoaineiden hiilidioksidipäästöjä eri maanosissa. Kaavioiden tekeminen oli yksinkertaista ja nopeaa kun aiheen oli päättänyt, mutta järkevien päätelmien keksiminen datasta vaati aikaa. Kurssilla opittujen asioiden perusteella voisi luulla, että datatieteilijät joutuvat käyttämään juuri kyseiseen edellämainittuun asiaan työssään varsin paljon aikaa eikä löyhiä päätelmiä kannata tehdä ihan helpoin perustein.

Henkilökohtaisesti itse olen varsin tyytyväinen kurssin sisältöön ja opetukseen ja olen ehdottomasti sitä mieltä, että kurssille kannatti osallistua. Kurssi oli varsin työläs, kuten opettaja kurssin alussa mainitsi, mutta tehtävien tekeminen oli kuitenkin hauskaa, koska niitä tekemällä oppi paljon uutta tietoa ja joitakin uusia menetelmiä ja työkaluja. Lähipäiviä oli mielestäni sopivan verran ja niissä aika kului todella nopeasti. Täytynee toivoa, että kurssia varten tehdyt työt ja siihen käytetty työmäärä korreloivat hyvän arvosanan ja lopputuloksen puolesta.

– Niko

Muutamia use caseja

Moro!

Tipp24 AG on alusta, jonka avulla tehdään ennustuksia Eurooppalaisia
lottoja varteb ja asetetaan niihin panoksia. Yritys käyttää KXEN ohjelmistoa analysoimaan
miljardeja liiketoimintoja ja asiakkaiden attribuutteja ja tuottaa niistä
ennustavia malleja, jotka muokkaavat asiakkaille kohdistettuja markkinointi
viestejä lennosta.

http://www.tipp24.com/

 
Nippu eri dioija, joissa on esitettynä kahdeksan erilaista big datan use casea.Use caset ovat: Ostokäyttäytymisen optimointi, käyttäytymisen analysointi, asiakas segmentointi, ennustavat mallit, ostoskori analyysi ja hinnoittelun optimointi, tietoturvauhkien ennustaminen, huijausten tunnistaminen ja teollisuuden spesifiointi.

– Niko

Erilaisia datan lähteitä

Moro!

Tässä postauksessa luetellaan joitakin maksuttomia ja avoimia datalähteitä. Verkossa on tuhansia ja tuhansia erilaisia datan lähteitä, mutta tässä on tietysti vain lueteltu ja esitelty muutamia niistä.

UCI koneoppimisen tallennusvarasto, joka sisältää tietokanta kokoelmia, domain teorioita ja data generaattoreita. Datoja käytetään esim. koneoppimis yhteisöissä koneoppimis algoritmien empiirisessa analysoinnissa.  Sivustoa ylläpitää University of California, Irvine. Data on maksuttomasti saatavilla.

https://archive.ics.uci.edu/ml/index.html

Tilastokeskus on suomalainen viranomainen, joka on perustettu tilastointia varten. Tilastokeskus tuottaa valtaosan Suomen virallisista tilastoista ja on myös merkittävä toimija tilastotieteiden kansainvälisellä alalla. Tilastokeskuksen sivuilla on suuria määriä eri kategorioihin luokiteltua dataa ja se on ilmaista.

http://www.tilastokeskus.fi/

Avoindata.fi palvelu Valtion tieto- ja viestintätekniikkakeskus Valtorin ylläpitämä sivusto, jonka tarkoituksena on luoda edellytyksiä julkisen hallinnon organisaatioiden tietoaineistojen avaamiseen ja tehostamaan avointen tietoaineistojen käyttöä. Sivuston tavoitteena on tarjota julkisen hallinnon keskeisimmät tietovarannot avoimesti ja maksuttomasti kaikkien saataville.

https://www.avoindata.fi/fi

War-on-ice on sivusto, jossa tarjotaan tilastotietoja jääkiekosta ja siihen liittyvistä asioista. Sivustolta löytyy mm. dataa jääkiekkoilijoiden suorituksista ja eri pelien tilastotiedoista. Data on maksuttomasti saatavilla.

http://war-on-ice.com/

Euroopan unionin avoin data portaali on yhteyspiste, jonka kautta on pääsy Euroopan unionin toimielinten ja muiden elinten tuottamaan dataan. Portaalin tarkoituksena on tarjota helppo ja vapaa pääsy dataan ja siten edistää tietojen innovatiivista käyttöä ja taloudellisen potentiaalin hyödyntämistä. Datat ovat ilmaisesti käytettävissä ja niitä voi hyödyntää kaupallisiin ja ei-kaupallisiin tarkoituksiin. Portaalia hallinnoi Euroopan unionin julkaistutoimisto.

http://open-data.europa.eu/en/data/

Gapminder on voittoa tavoittelematon hanke, joka jakaa ilmaista dataa maailman eri ilmiöistä ja pyrkii lisäämään ihmisten ymmärrystä asioista laajojen ja monipuolisten tilastojen avulla. Data on ilmaista.

http://www.gapminder.org/data/

CIA:n ylläpitämä ”faktakirja”, joka sisältää tietoa mm. 267 maan historiasta, väestöstä, taloudesta, hallinnosta, infastruktuurista ja armeijasta.

https://www.cia.gov/library/publications/the-world-factbook/

Trafin ylläpitämä sivusto, jossa on saatavilla tietoaineistoja maksutta julkiseen käyttöön. Sivustolla on avointa dataa ajoneuvoista- ja vesikulkuneuvoista. Tietojen julkisen saatavuuden tarkoituksena lisätä rekisteritietojen saatavuutta ja hyödynnettävyyttä yhteiskunnassa.

http://www.trafi.fi/tietopalvelut/avoin_data

Ilmatieteen laitoksen ylläpitämä sivusto, jossa on saatavilla maksutonta dataa julkiseen käyttöön. Data on pääsääntöisesti säätietoihin liittyvää dataa.

https://ilmatieteenlaitos.fi/avoin-data

– Niko

 

 

 

 

 

Koneoppimisen avulla kieli kääntyy lennossa.

Keskusteltaessa muiden ihmisten kanssa, joko kasvokkain tai puhelimessa, on yleensä vaadittu yhteinen kieli. Keskustelulla on vaarana jäädä hyvinkin pintapuoliseksi, mikäli käytössä on ainoastaan käsillä tehtävät liikkeet.

Koneoppimisen avulla asiaan on löydetty ratkaisu. Soitettaessa Skype-puhelu toiselle henkilölle, joka ei puhu samaa kieltä, kieli käännetään reaaliajassa. Innovaation avulla kieli ei enää aseta rajoja kommunikaatiolle. Toivottavasti tulevaisuudessa tätä voidaan käyttää myös kasvokkain käytävissä keskusteluissa.

 

Linkki videoon, jossa lyhyt demo Translatorin käytöstä.

-Henri

Mielenkiintoisia linkkejä Big dataan ja sen aiheisiin liittyen

Moro

Alla hieman esitelty ja lueteltu joitakin linkkejä erilaisiin aiheeseen liittyviin aineistoihin ja asioihin:

– Hieman asiaa siitä kuinka pienet yritykset voivat hyödyntää big dataa

https://www.americanexpress.com/us/small-business/openforum/articles/how-small-businesses-can-use-big-data/

– Pitkä ja mielenkiintoinen artikkeli, siitä kuinka farmarit hyödyntävät big dataa ja siten auttavat työpanoksellaan ruuan tuotannossa ihmisiä, koko ajan väkimäärältään kasvassa maailmassa

http://www.techrepublic.com/article/how-big-data-is-going-to-help-feed-9-billion-people-by-2050/

– Artikkeli siitä kuinka big dataa voitaisiin hyödyntää tuottamaan lisätuloja lentoyhtiöissä

http://www.tnooz.com/article/big-data-how-airlines-should-use-it-more-effectively-to-boost-ancillary-revenue/

– Asiaa siitä kuinka big dataa hyödynnetään Kiinassa

http://knowledge.ckgsb.edu.cn/2015/07/28/technology/the-power-of-big-data-in-china/

– Artikkeli siitä kuinka big dataa voidaan hyödyntää taistetussa ebolaa vastaan

http://www.brookings.edu/blogs/techtank/posts/2014/11/11-metadata-ebola

– Niko

 

NoSQL ja Relaatiotietokannat

Hellurei

Kuten olemme kurssin aikana oppineet, on olemassa perinteisiä relaatiotietokantoja ja NoSQL tietokantoja. Sana NoSQL ei tarkoita, että SQL periaatteista olisi täysin luovuttu vaan sanojen tulkinta voisi olla Not only SQL. Sen tehtävä on laajentaa tietokanta malleja nykypäivän monirakenteisen ja monimutkaisen datan vaatimuksiin.

Relaatiotietokannat perustuvat tauluihin ja niiden välisiin loogisiin yhteyksiin. Loogiseen yhdistämiseen käytetään Primary – ja Foreing key tunnuksia. NoSQL tietokannat taas voivat olla hyvinkin monimutkaisia ja ne perustuvat yleensä useisiin solmuihin ja niidenvälisiin suhteisiin.

Suurin ero relaatiotietkantojen ja NoSQL tietokantojen välillä onkin asioiden suhteiden ja suhteiden ominaisuuksien käsittelyssä ja käyttämisessä. NoSQL se on helppo relaatiotietokannalla ei. Relaatiotietokantaa kannattaa kuitenkin käyttää edelleen monissa tapauksissa alle on listattu erilaisia syitä miksi jompaakumpaa kannattaa käyttää.

Relaatiotietokantaa kannattaa käyttää, jos:

Olet luomassa pienen käyttäjämäärän ei kovin monimutkaista ohjelmaa, joka muokkautuu ajan kanssa. (tätä varten koko relaatiotietokannata on luotu)

Datan duplikaattien määrä on suuri ilman, että teet suurta määrää datan normalisointia. (Kun dataa pitää normalisoida tarvitaan join operaatioita ja, kun tarvitaan joineja, niin relaatiotiekanta on paras ratkaisu)

Kun et näe rahallista hyötyä siirtyä pois hyväksi todetusta teknologiasta.

On olemassa jokin valmis ohjelma, joka jo puhuu SQL kieltä.

Relaatiotietokantaa ei kannata käyttää jos:

Datan uudelleen käyttö on epätodennäköistä, kun ohjelmat ovat hyvin itsenäisiä ja koko ajan muuttuvia.

Datan normalisointi ei ole tarpeen.

http://www.dbms2.com/2011/05/29/when-to-use-relational-database-management-system/

NoSQL kannattaa käyttää jos:

Jos relaatiomallinen tietokanta ei pysty hallitsemaan käyttäjä liikennettä yhtä tehokkaasti kuin NoSQL tietokanta.

Jos data tulee pieninä erinä pitkän ajan kuluessa, ja taulujen määrä jota tarvitaan pitämään tieto normaalimuotoisena kasvaa suhteessa koko datan kokoon.

NoSQL mahdollistaa järjestelmän horisontaalisen kasvatuksen helpommin kuin relaationmallinen tietokanta.

Sinulla on paljon tiedon vaihtoa (esim. tuotteista tykkäämistä), jonka ei tarvitse säilyä pitkään.

http://blogs.shephertz.com/2013/06/20/a-developers-dilemma-when-to-use-nosql/

-Harri