Yleiset infot:
Tänään raportointia workshopista jonka aiheena Making Sense of Microposts.
Twitterissä hashtag #msm2012
Omat sivut:http://socsem.open.ac.uk/msm2012/
Aloitus:
Aloitimme n. klo 09.10. Päivän aikana tullaan käymään läpi useita esseitä aiheesta, jonka jälkeen esseistä keskustellaan. Kaksi kahvitaukoa, ensimmäinen 10.30 ja toinen 15.30. Lounastauko sopivassa välissä. Aikataulu löytyy myös tuolta workshopin omalta sivulta.
Mikropostaukset (Facebookin tykkäykset, twiitit, foursquaren loggaukset jne) räjähtäneet täysin. Tarjolla on siis uskomaton määrä dataa, ja workshopin ideana on hahmottaa, kuinka tätä dataa voi hyödyntää ja käsitellä.
Keynote puhuja Greg ver Steeg luo pohjaa keskustelulle puhumalla aiheesta informaatioteorian pohjalta (http://en.wikipedia.org/wiki/Entropy_%28information_theory%29). Kieltämättä hieman spesifiä informaatiota neurotieteistä ja informaatioteoriasta, josta ei ilman kattavaa pohjatietoa saa hirveästi irti.
Asioita käsitellään lähinnä Twitterin näkökulmasta. Spammiboteilla ja ihmisillä on selkeästi erilaiset mutta omalla tavallaan ennustettavat postauskäyttäytymiset. Botit postaavat tietyille käyttäjille tietyin säännöllisin väliajoin, mutta eivät esimerkiksi retwiittaa lainkaan. Ihmisten postaukset riippuvat muiden postauksista ja niiden kiinnostavuudesta. Ihmisten käyttäytymistä on siis selkeästi hankalampaa ennakoida. Kausaliteettia esimerkiksi käyttäjien välisestä toiminnasta (kun X postaa niin kuinka se vaikuttaa Y:n toimintaan) ei voida todentaa tiukan määritelmän mukaan (ei voida toistaa tapahtumia samoissa olosuhteissa), joten täytyy luottaa vähemmän tarkkaan dataan.
Käsittelyssä oli siis lähinnä kuinka ennakoida tulevia tapahtumia aiemmin käyttäytymisen perusteella. Tähän liittyi runsaasti informaatioteorian kaavoja, jotka eivät teoriaa syvemmin tuntevalle juurikaan avautuneet. Avainkäsitteinä pyörivät entropia ja viestinnän siirto.
Small Talk in the Digital Age: Making Sense of Phatic Posts
Phatic post = Keskustelunavaus, jolla käytännössä varmistetaan, että viestintälinja on avoin ja toimiva. Esimerkkinä twiittaus aamulla "Hyvää huomenta, mitäs teille kuuluu?". Luodaan sekä viestinnällinen että sosiaalinen yhteys vastaanottajaan.
Analysoidaan siis ns. turhaa viestintää. Esimerkkitwiittinä "Watching Titanic. Bored" on semanttisesti kuitenkin kiinnostava jos sitä analysoi enemmän (ihminen katsoo leffaa, hakee muiden mielipiteitä, mahdollinen keskustelunavaus). Turhan viestinnän päätarkoitus on tuntea jatkuvasti olevansa yhteydessä muuhun maailmaan. Twiittaamalla turhuuksia jaat joka hetki omaa elämääsi ja tekemisiäsi ja haet muilta kommenttia. Saat tunteen siitä, että olet jatkuvasti lähellä muita ihmisiä.
Sosiaalisen median palvelut osallistuvat tähän viestintään antamalla työkalut käyttäjille. Facebookista löytyy (omasta mielestäni käytännössä hylätty) tökkäys ja tykkäykset, Twitterissä retweet ja favorite. Puhujan mielestä tökkäys Facebookissa on omalla tavallaan jopa fyysisen kosketuksen korvike. Ajatuksena että joku ajattelee sinua ja haluaa olla yhteyksissä. Itse en ole koskaan toimintaa käyttänyt sen suuremmin enkä kokenut sitä omakseni, ilmeisesti se on kuitenkin muualla aktiivisessa käytössä.
Twitter on luonteeltaan ja rakenteeltaan omiaan phatic postaukseen. Postaukset ovat lyhyitä ja kynnys vastata ihmisille on hyvin matala.
Lisätietoa:
Twitter @danicar
danica@danicar.org
Alleviating Data Sparsity for Twitter Sentiment Analysis
Twitterin haasteet merkitysten ja mielipiteiden kartoituksen kannalta liittyvät viestin lyhyyteen ja osittain aiemmin mainittuun phatic postaukseen, eli sisältö ei ole välttämättä erityisen koherenttia, mietittyä tai järjesteltyä. Tutkija on lähtenyt ratkomaan ongelmaa ryhmittämällä karkeahkosti sanoja erilaisiin asiayhteyksiin (esim. jumppa, Champions League, treenit jne. kaikki liittyvät urheiluun). Tämän lisäksi pyritään arvioimaan twiitin mieliala lukemalla esimerkiksi hymiöitä ja adjektiiveja, eli päätetään onko twiitti kyseisestä asiasta positiivinen vai negatiivinen. Näin saadaan selville, että esimerkiksi Apple ja tarkemmin vielä iPhone tuntuu olevan hyvin vahvasti positiviinen tuote käyttäjien mielestä.
Twiittejä voi annotoida osoitteessa http://tweenator.com/ joka edesauttaa kyseistä tutkimusta.
Exploiting Twitter’s Collective Knowledge for Music Recommendations
Tarkoituksena, otsikon mukaisesti, kartoittaa Twitterin mahdollisuuksia musiikkisuositusten jakamiseksi. Tutkittiin hakemalla Twitteristä tiettyjä avainsanoja (#nowplaying, #listeningto jne). Ongelmana saada jokaisesta twiitistä esittäjä ja kappaleen nimi eriteltyä, sillä ihmisillä luonnollisesti paljon erilaisia tapoja jakaa kuuntelemaansa musiikkia. Referenssitietokantana on käytetty FreeDB:tä ja MusicBrainzia). Ilmeisesti suoran URLin sisältävät twiitit on jätetty pois, sillä niitä on hyvin vaikea työstää järkeviksi tuloksiksi.
Kun käyttäjien suositukset oli saatu järkevään muotoon, ajettiin jokaisen käyttäjän feedi last.fm:n vertailun läpi. Näin saadaan teoriassa käyttäjälle personoitu streami musiikkia. Ongelmana on kuitenkin datan puute ja datan hajanaisuus (data sparsity). Twitterissä ei ole toistaiseksi tarpeeksi käyttäjiä joilta tulee riittävästi dataa halutun kaltaisen streamin luomiseksi eikä last.fm siten luomaan tarpeeksi hyvin käyttäjän tarpeita vastaavaa sisältöä.
Omasta mielestäni aivan huikea idea! Osa Twitterin viehätyksestä on kylläkin palvelun yksinkertaisuus ja ettei hirveästi ylimääräisiä ominaisuuksia ole, mutta näkisin tämän parhaiten toimivan osana Twitterin perustoimintoja.
Demo: Making Sense of Microposts at Scientific Conferences
http://stellar.know-center.tugraz.at/vis/
Linkin takaa löytyy pari työkalua jolla voi visualisoida Twitterissä tapahtuvia asioita. Koska minulle ei omaa kokemusta tämänlaisista konferensseista aiemmin ole, ehkä täysi hyöty tulee avautumaan vasta tämän viikon aikana. Kaikenlaisen datan visualisointi on toki aina kiinnostavaa ja selittää yleensä paljon asioita.
Extracting Unambiguous Keywords from Microposts Using Web and Query Logs Data
Nykytilanteessa hakukoneet eivät anna kovinkaan hyvin vastauksia suoriin kysymyksiin. Hakukoneiden luonnollisesti halutaan maagisesti antavan vastauksen kysymykseen kuin kysymykseen. Tutkimuksen tavoitteena on löytää puhekielestä termejä ja merkityksiä jotka ovat täysin yksiselittäisiä ilman minkäänlaista kontekstia ja hyödyntää niitä hakumenetelmissä. Kuten puhuja itsekin myönsi, aika kunnianhimoinen tavoite. Kun vertaillaan 16 satunnaista verkkodokumenttia jonkin asiasanan osalta, jos niissä asiasana tai termi koetaan yksiselitteiseksi voidaan 90% todennäköisyydellä sanoa, että asiasana tai termi on 80% yksiselitteinen koko verkossa. Puhuja esitteli paljon erilaisia metriikoita joilla mitata yksiselitteisyyttä hakukoneen näkökulmasta.
Visualizing Contextual and Dynamic Features of Microposts
http://www.ecoresearch.net/climate/
Sivusto visualisoi ilmastonmuutoksen liittyvän uutisoinnin ja sosiaalisen median postaukset monilla eri tavoilla ja annotoi kaiken sisääntulevan datan esimerkiksi lokaation ja aiheen mukaan. Sivusto tarjoaa myös runsaasti vaihtoehtoja filteröidä sisältöä haluamallaan tavalla. Kuten puhujakin myönsi, ensisilmäyksellä etusivulla on hyvin runsaasti informaatiota, mutta kunhan siihen tottuu, on lukeminen suhteellisen kätevää. Sisällöstä n. 50% tulee uutispalveluista, noin 30% sosiaalisesta mediasta ja loput erilaisista tieteellisistä julkaisuista.