Making Sense of Microposts

Yleiset infot:

Tänään raportointia workshopista jonka aiheena Making Sense of Microposts.

Twitterissä hashtag #msm2012

Omat sivut:http://socsem.open.ac.uk/msm2012/

Aloitus:

Aloitimme n. klo 09.10. Päivän aikana tullaan käymään läpi useita esseitä aiheesta, jonka jälkeen esseistä keskustellaan. Kaksi kahvitaukoa, ensimmäinen 10.30 ja toinen 15.30. Lounastauko sopivassa välissä. Aikataulu löytyy myös tuolta workshopin omalta sivulta.

Mikropostaukset (Facebookin tykkäykset, twiitit, foursquaren loggaukset jne) räjähtäneet täysin. Tarjolla on siis uskomaton määrä dataa, ja workshopin ideana on hahmottaa, kuinka tätä dataa voi hyödyntää ja käsitellä.

Keynote puhuja Greg ver Steeg luo pohjaa keskustelulle puhumalla aiheesta informaatioteorian pohjalta (http://en.wikipedia.org/wiki/Entropy_%28information_theory%29). Kieltämättä hieman spesifiä informaatiota neurotieteistä ja informaatioteoriasta, josta ei ilman kattavaa pohjatietoa saa hirveästi irti.

Asioita käsitellään lähinnä Twitterin näkökulmasta. Spammiboteilla ja ihmisillä on selkeästi erilaiset mutta omalla tavallaan ennustettavat postauskäyttäytymiset. Botit postaavat tietyille käyttäjille tietyin säännöllisin väliajoin, mutta eivät esimerkiksi retwiittaa lainkaan. Ihmisten postaukset riippuvat muiden postauksista ja niiden kiinnostavuudesta. Ihmisten käyttäytymistä on siis selkeästi hankalampaa ennakoida. Kausaliteettia esimerkiksi käyttäjien välisestä toiminnasta (kun X postaa niin kuinka se vaikuttaa Y:n toimintaan) ei voida todentaa tiukan määritelmän mukaan (ei voida toistaa tapahtumia samoissa olosuhteissa), joten täytyy luottaa vähemmän tarkkaan dataan.

Käsittelyssä oli siis lähinnä kuinka ennakoida tulevia tapahtumia aiemmin käyttäytymisen perusteella. Tähän liittyi runsaasti informaatioteorian kaavoja, jotka eivät teoriaa syvemmin tuntevalle juurikaan avautuneet. Avainkäsitteinä pyörivät entropia ja viestinnän siirto.

Small Talk in the Digital Age: Making Sense of Phatic Posts

Phatic post = Keskustelunavaus, jolla käytännössä varmistetaan, että viestintälinja on avoin ja toimiva. Esimerkkinä twiittaus aamulla "Hyvää huomenta, mitäs teille kuuluu?". Luodaan sekä viestinnällinen että sosiaalinen yhteys vastaanottajaan.

Analysoidaan siis ns. turhaa viestintää. Esimerkkitwiittinä "Watching Titanic. Bored" on semanttisesti kuitenkin kiinnostava jos sitä analysoi enemmän (ihminen katsoo leffaa, hakee muiden mielipiteitä, mahdollinen keskustelunavaus). Turhan viestinnän päätarkoitus on tuntea jatkuvasti olevansa yhteydessä muuhun maailmaan. Twiittaamalla turhuuksia jaat joka hetki omaa elämääsi ja tekemisiäsi ja haet muilta kommenttia. Saat tunteen siitä, että olet jatkuvasti lähellä muita ihmisiä.

Sosiaalisen median palvelut osallistuvat tähän viestintään antamalla työkalut käyttäjille. Facebookista löytyy (omasta mielestäni käytännössä hylätty) tökkäys ja tykkäykset, Twitterissä retweet ja favorite. Puhujan mielestä tökkäys Facebookissa on omalla tavallaan jopa fyysisen kosketuksen korvike. Ajatuksena että joku ajattelee sinua ja haluaa olla yhteyksissä. Itse en ole koskaan toimintaa käyttänyt sen suuremmin enkä kokenut sitä omakseni, ilmeisesti se on kuitenkin muualla aktiivisessa käytössä.

Twitter on luonteeltaan ja rakenteeltaan omiaan phatic postaukseen. Postaukset ovat lyhyitä ja kynnys vastata ihmisille on hyvin matala.

Lisätietoa:

Twitter @danicar

danica@danicar.org

http://www.danicar.org

Alleviating Data Sparsity for Twitter Sentiment Analysis

Twitterin haasteet merkitysten ja mielipiteiden kartoituksen kannalta liittyvät viestin lyhyyteen ja osittain aiemmin mainittuun phatic postaukseen, eli sisältö ei ole välttämättä erityisen koherenttia, mietittyä tai järjesteltyä. Tutkija on lähtenyt ratkomaan ongelmaa ryhmittämällä karkeahkosti sanoja erilaisiin asiayhteyksiin (esim. jumppa, Champions League, treenit jne. kaikki liittyvät urheiluun). Tämän lisäksi pyritään arvioimaan twiitin mieliala lukemalla esimerkiksi hymiöitä ja adjektiiveja, eli päätetään onko twiitti kyseisestä asiasta positiivinen vai negatiivinen. Näin saadaan selville, että esimerkiksi Apple ja tarkemmin vielä iPhone tuntuu olevan hyvin vahvasti positiviinen tuote käyttäjien mielestä.

Twiittejä voi annotoida osoitteessa http://tweenator.com/ joka edesauttaa kyseistä tutkimusta.

Exploiting Twitter’s Collective Knowledge for Music Recommendations

Tarkoituksena, otsikon mukaisesti, kartoittaa Twitterin mahdollisuuksia musiikkisuositusten jakamiseksi. Tutkittiin hakemalla Twitteristä tiettyjä avainsanoja (#nowplaying, #listeningto jne). Ongelmana saada jokaisesta twiitistä esittäjä ja kappaleen nimi eriteltyä, sillä ihmisillä luonnollisesti paljon erilaisia tapoja jakaa kuuntelemaansa musiikkia. Referenssitietokantana on käytetty FreeDB:tä ja MusicBrainzia). Ilmeisesti suoran URLin sisältävät twiitit on jätetty pois, sillä niitä on hyvin vaikea työstää järkeviksi tuloksiksi.

Kun käyttäjien suositukset oli saatu järkevään muotoon, ajettiin jokaisen käyttäjän feedi last.fm:n vertailun läpi. Näin saadaan teoriassa käyttäjälle personoitu streami musiikkia. Ongelmana on kuitenkin datan puute ja datan hajanaisuus (data sparsity). Twitterissä ei ole toistaiseksi tarpeeksi käyttäjiä joilta tulee riittävästi dataa halutun kaltaisen streamin luomiseksi eikä last.fm siten luomaan tarpeeksi hyvin käyttäjän tarpeita vastaavaa sisältöä.

Omasta mielestäni aivan huikea idea! Osa Twitterin viehätyksestä on kylläkin palvelun yksinkertaisuus ja ettei hirveästi ylimääräisiä ominaisuuksia ole, mutta näkisin tämän parhaiten toimivan osana Twitterin perustoimintoja.