#pinnalla
Rakas verkossa asustava päiväkirjamuotoinen blogi,
tänään voisin antaa sisäisen taiteilijani kukkia, ja lausua haikun uudehkosta piinallisen pinnallisesta #pinnalla -palvelusta.
Twiittiä pukkaa
Botti visertääkin jo
Mikset jo seuraa
Pyppe hei, sä oot herkkä mies
… saattaisi paatuneempikin linnakundi virkkoa em. runon luettuaan. Ja linnakundithan eivät väärässä ole! Kaikessa herkkyydessäni olen viime vuoden loppupuolella skipiduveinau-skoodaillut #pinnalla -palvelun, joka analysoi Suomen Twitter-liikennettä pyrkien muodostamaan siitä helppolukuisia vertailuja ja analyysejä.
Olennainen osa palvelua on @PinnallaFI -botti, joka laukoo päivittäin tiukkaa (ja paikoitellen löysää) statistiikkaa suomalaisten twiittauksista:
Tiesitkö koko Suomi-Twitterin pyörivän @IsacElliot'ia fanittavien nuorten neitojen varassa? http://t.co/R2zSZIaB49 pic.twitter.com/EoTvv3t86V
— Pinnalla (@PinnallaFI) November 2, 2014
Eilen kansa huusi nimiä: @MTVKingi @RobinVirallinen @jukkadudeson @makinenantti @titmeister http://t.co/bKffc4gxbb pic.twitter.com/T5jB0sjoKX
— Pinnalla (@PinnallaFI) January 11, 2015
Eilisen piikki oli 144 twiittiä/min: klo 17:07 (#haistakaavittu1dmanagementterveisiäsuomesta 11%) pic.twitter.com/KrsAI8gsMo
— Pinnalla (@PinnallaFI) January 13, 2015
Mitä silmäni näkevätkään! Nyt #pinnalla: #tulevaisuusvaalit http://t.co/1sbwDucxLD pic.twitter.com/FSESIpCOgI
— Pinnalla (@PinnallaFI) January 24, 2015
Viime viikolla pankin räjäyttivät: @YhtioMedia @titmeister @TuomasEnbuske @MTVPosse @alexstubb http://t.co/xs7bXmbfd3 pic.twitter.com/3dTcvgECi7
— Pinnalla (@PinnallaFI) December 22, 2014
Tänään klo 13-14 #Suomi twiittasi tasa-arvoisesta avioliittolaista enemmän kuin kaikesta muusta yhteensä #tahdon2013 pic.twitter.com/z80xEARcN8
— Pinnalla (@PinnallaFI) November 28, 2014
Huuda mulle sun ATK!
Palvelu pyörii Internetsissä ja toimii ATK:lla. Tarkemmin sanottuna taustapalvelin pyörii Play frameworkin päällä, twiitit kerätään Akka-kirjaston ja Twitter Streaming API:n kautta, analysoidut twiitit tallennetaan Elasticsearch-indeksiin, ja UI on toteutettu AngularJS:llä.
- Palvelu on ollut pystyssä noin 3 kuukautta (verkkosivu pystytettiin 20.10.2014, ja ensimmäinen twiitti lähetettiin 29.10.2014)
- @PinnallaFI on kerännyt tähän mennessä noin 800 seuraajaa ja lähettänyt noin 500 twiittiä
- Tammikuussa 2015 verkkosivustolla oli 1150 uniikkia kävijää ja 6100 sivulatausta
- Palvelu on kolmessa kuukaudessa analysoinut noin 15 miljoonaa twiittiä, joista noin 7,5 miljoonaa on tulkittu suomalaisiksi (yhteensä noin 190 tuhannelta uniikilta käyttäjältä) ja tallennettu tietokantaindeksiin
- Tietokantaindeksi vie levytilaa 12 GB
- Palvelun prosessit vievät aktiivitilassa muistia noin 2 GB (ja pyörivät jaetulla virtuaalipalvelimella, jossa on yhteensä muistia 4 GB)
Boring! Mitä seuraavaksi??
Jos ja kun jaksan palvelua jatkokehittää, olisi seuraavaksi tehtävälistalla:
- Indeksin pilkkominen useammaksi (esim. jokainen kuukausi omaan indeksiinsä)
- Avainkenttien vaihtaminen doc values -tyyppisiksi muistinkäytön pienentämiseksi (tai ainakin tämän protoilu). Nykyisellä datamassalla kyseilyissä käytettävät kentät eivät mahdu muistiin, minkä takia vapaat kyselyt ovat muuttuneet pikkuhiljaa hyvinkin hitaiksi
- Vaihtoehtoisesti vanhojen twiittien poistaminen kokonaan palvelun nopeuttamiseksi ja tilan vapauttamiseksi
- Lisää rautaa: Sekä RAM-muisti (noin 2 GB on #pinnalla-prosessien käytössä) että levytila rupeavat käymään pieniksi
Jos Teikäläisellä polttelee raha taskussa, ja haluat välttämättä teoriassa käytännössä sponsoroida palvelua, laita toki viestiä.
Vähemmän nörtti-läppää, kiitos!
// TODO: Implementation