...
Phatic post = Keskustelunavaus, jolla käytännössä varmistetaan, että viestintälinja on avoin ja toimiva. Esimerkkinä twiittaus aamulla "Hyvää huomenta, mitäs teille kuuluu?". Luodaan sekä viestinnällinen että sosiaalinen yhteys vastaanottajaan.
Analysoidaan siis ns. turhaa viestintää. Esimerkkitwiittinä "Watching Titanic. Bored" on semanttisesti kuitenkin kiinnostava jos sitä analysoi enemmän (ihminen katsoo leffaa, hakee muiden mielipiteitä, mahdollinen keskustelunavaus). Turhan viestinnän päätarkoitus on tuntea jatkuvasti olevansa yhteydessä muuhun maailmaan. Twiittaamalla turhuuksia jaat joka hetki omaa elämääsi ja tekemisiäsi ja haet muilta kommenttia. Saat tunteen siitä, että olet jatkuvasti lähellä muita ihmisiä.
Sosiaalisen median palvelut osallistuvat tähän viestintään antamalla työkalut käyttäjille. Facebookista löytyy (omasta mielestäni käytännössä hylätty) tökkäys ja tykkäykset, Twitterissä retweet ja favorite. Puhujan mielestä tökkäys Facebookissa on omalla tavallaan jopa fyysisen kosketuksen korvike. Ajatuksena että joku ajattelee sinua ja haluaa olla yhteyksissä. Itse en ole koskaan toimintaa käyttänyt sen suuremmin enkä kokenut sitä omakseni, ilmeisesti se on kuitenkin muualla aktiivisessa käytössä.
Twitter on luonteeltaan ja rakenteeltaan omiaan phatic postaukseen. Postaukset ovat lyhyitä ja kynnys vastata ihmisille on hyvin matala.
Lisätietoa:
Twitter @danicar
danica@danicar.org
Alleviating Data Sparsity for Twitter Sentiment Analysis
Twitterin haasteet merkitysten ja mielipiteiden kartoituksen kannalta liittyvät viestin lyhyyteen ja osittain aiemmin mainittuun phatic postaukseen, eli sisältö ei ole välttämättä erityisen koherenttia, mietittyä tai järjesteltyä. Tutkija on lähtenyt ratkomaan ongelmaa ryhmittämällä karkeahkosti sanoja erilaisiin asiayhteyksiin (esim. jumppa, Champions League, treenit jne. kaikki liittyvät urheiluun). Tämän lisäksi pyritään arvioimaan twiitin mieliala lukemalla esimerkiksi hymiöitä ja adjektiiveja, eli päätetään onko twiitti kyseisestä asiasta positiivinen vai negatiivinen. Näin saadaan selville, että esimerkiksi Apple ja tarkemmin vielä iPhone tuntuu olevan hyvin vahvasti positiviinen tuote käyttäjien mielestä.
Twiittejä voi annotoida osoitteessa http://tweenator.com/ joka edesauttaa kyseistä tutkimusta.
Exploiting Twitter’s Collective Knowledge for Music Recommendations
Tarkoituksena, otsikon mukaisesti, kartoittaa Twitterin mahdollisuuksia musiikkisuositusten jakamiseksi. Tutkittiin hakemalla Twitteristä tiettyjä avainsanoja (#nowplaying, #listeningto jne). Ongelmana saada jokaisesta twiitistä esittäjä ja kappaleen nimi eriteltyä, sillä ihmisillä luonnollisesti paljon erilaisia tapoja jakaa kuuntelemaansa musiikkia. Referenssitietokantana on käytetty FreeDB:tä ja MusicBrainzia). Ilmeisesti suoran URLin sisältävät twiitit on jätetty pois, sillä niitä on hyvin vaikea työstää järkeviksi tuloksiksi.
Kun käyttäjien suositukset oli saatu järkevään muotoon, ajettiin jokaisen käyttäjän feedi last.fm:n vertailun läpi. Näin saadaan teoriassa käyttäjälle personoitu streami musiikkia. Ongelmana on kuitenkin datan puute ja datan hajanaisuus (data sparsity). Twitterissä ei ole toistaiseksi tarpeeksi käyttäjiä joilta tulee riittävästi dataa halutun kaltaisen streamin luomiseksi eikä last.fm siten luomaan tarpeeksi hyvin käyttäjän tarpeita vastaavaa sisältöä.
Omasta mielestäni aivan huikea idea! Osa Twitterin viehätyksestä on kylläkin palvelun yksinkertaisuus ja ettei hirveästi ylimääräisiä ominaisuuksia ole, mutta näkisin tämän parhaiten toimivan osana Twitterin perustoimintoja.
Demo: Making Sense of Microposts at Scientific Conferences
http://stellar.know-center.tugraz.at/vis/
Linkin takaa löytyy pari työkalua jolla voi visualisoida Twitterissä tapahtuvia asioita. Koska minulle ei omaa kokemusta tämänlaisista konferensseista aiemmin ole, ehkä täysi hyöty tulee avautumaan vasta tämän viikon aikana. Kaikenlaisen datan visualisointi on toki aina kiinnostavaa ja selittää yleensä paljon asioita.
Extracting Unambiguous Keywords from Microposts Using Web and Query Logs Data
Nykytilanteessa hakukoneet eivät anna kovinkaan hyvin vastauksia suoriin kysymyksiin. Hakukoneiden luonnollisesti halutaan maagisesti antavan vastauksen kysymykseen kuin kysymykseen. Tutkimuksen tavoitteena on löytää puhekielestä termejä ja merkityksiä jotka ovat täysin yksiselittäisiä ilman minkäänlaista kontekstia ja hyödyntää niitä hakumenetelmissä. Kuten puhuja itsekin myönsi, aika kunnianhimoinen tavoite. Kun vertaillaan 16 satunnaista verkkodokumenttia jonkin asiasanan osalta, jos niissä asiasana tai termi koetaan yksiselitteiseksi voidaan 90% todennäköisyydellä sanoa, että asiasana tai termi on 80% yksiselitteinen koko verkossa. Puhuja esitteli paljon erilaisia metriikoita joilla mitata yksiselitteisyyttä hakukoneen näkökulmasta.
Visualizing Contextual and Dynamic Features of Microposts
http://www.ecoresearch.net/climate/
Sivusto visualisoi ilmastonmuutoksen liittyvän uutisoinnin ja sosiaalisen median postaukset monilla eri tavoilla ja annotoi kaiken sisääntulevan datan esimerkiksi lokaation ja aiheen mukaan. Sivusto tarjoaa myös runsaasti vaihtoehtoja filteröidä sisältöä haluamallaan tavalla. Kuten puhujakin myönsi, ensisilmäyksellä etusivulla on hyvin runsaasti informaatiota, mutta kunhan siihen tottuu, on lukeminen suhteellisen kätevää. Sisällöstä n. 50% tulee uutispalveluista, noin 30% sosiaalisesta mediasta ja loput erilaisista tieteellisistä julkaisuista.
Sisällöllinen informaatiomaisema (Dynamic Topography Information Landscapes), joka löytyy etusivun oikeasta laidasta, jäsentää artikkeleita sisällön mukaan. Samantyyppiset artikkelit kasaantuvat muodostaen "sisältökukkulan". Tästä kukkulasta eroavat artikkelit ovat myös kartalla kauempana. News Flow Diagram näyttää, kuinka usein tietty aihe esiintyy ilmastonmuutokseen liittyvissä kohteissa. Toiminto osaa myös linkittää aiheita keskenään.
When social bots attack: Modeling susceptibility of users in online social networks
Social bots = botteja, jotka pyrkivät sosiaalisessa mediassa matkimaan oikean ihmisen käytöstä. Vaarana mm. väärän informaation levitys ja virusten leviäminen.
Kuinka estää bottien toimintaa ja leviämistä? Botit täytyy tunnistaa ja täytyy arvioida käyttäjien todennäköisyyttä joutua bottien kohteeksi ja kuinka todennäköisesti kohde alistaa itsensä bottien haittavaikutuksille.
Social Bot Challenge -projektilla (*http://tinyurl.com/4q6whz5\* (http://tinyurl.com/4q6whz5*)) pyrittiin selvittämään, kuinka todennäköisesti ja millaiset ihmiset ovat alttiita social bottien hyökkäyksille.
Alttiimpia käyttäjiä ovat aktiivisia, avoimia ja tunteellisia sekä "meformereita" (postaavat enemmän itsestään kuin ympärillä tapahtuvista asioista, vrt. informer). Todennäköisimmin bottien kanssa tekemisiin joutuvat käyttävät myös paljon negatiivisia sanoja (no, not, never).
On melko luontevaa, että aktiiviset ja paljon palveluita käyttävät käyttäjät ovat alttiiimpia hyökkäyksille, mutta toisaalta tutkijat olettivat, että nämä käyttäjät olisivat kehittäneet jonkinlaisen puolustuskyvyn. Suomessahan jokin aika sitten uutisoitiin ns. nettisukupolven luultua heikommasta medialukutaidosta. Ilmeisesti kyseessä on samanlainen harha. Oletetaan, että paljon käyttämällä tiettyjä palveluita kehität automaattisesti jonkunlaisen puolustuskyvyn.
What Makes a Tweet Relevant for a Topic
Twitter puhujan mukaan siirtymässä enemmänkin uutispalveluksi, tai sitä voi pitää myös uutispalveluna. Kuinka sitten hakea relevanttia sisältö Twitteristä? Twitterin hakua käytetään hieman eri tavalla kuin normaalia hakua. Twitterissä hakusanat ovat lyhyempiä (1,6 sanaa, kun Googlella n. 3 sanaa per haku) ja hieman erilaisia sisällöltään (yli viisi kertaa useammin haetaan julkkisten nimiä).
Mielenkiintoisimmat hypoteesit+:+
Twiitit jotka sisältävät #hashtagin tai hashURLin ovat todennäköisesti relevantimpia tietyn topicin kannalta. Lisäksi jos twiittaajalla on paljon aiempia twiittejä ja/tai seuraajia, on twiitti todennäköisemmin relevantti.
Twiitit jotka ovat vastauksia toisiin twiitteihin (alkavat @käyttäjänimellä) ovat todennäköisemmin vähemmän olennaisia suuremman topicin kannalta.
Yleisöstä tuli hyvin mielenkiintoinen kysymys liittyen Kreikan kriisin analysointiin. Yleisön jäsen on yrittänyt tutkia kriisiin liittyvää keskustelua Twitterissä. Isoksi ongelmaksi on kuitenkin muodostunut kreikkalaisten tapa käyttää Twitteriä - hashtageja ei käytä käytännössä lainkaan. Kuinka siis analysoida keskustelua, jossa keskusteleva yleisö vaihtuu jatkuvasti eikä hashtageja ole käytettävissä?
Understanding co-evolution of social and content network of Twitter
Tavoitteena tutkimuksella oli pohtia sosiaalisten ja sisällöllisten ominaisuuksien suhdetta kaksisuuntaisesti. Esimerkiksi: Jos käyttäjä saa päivän aikana runsaasti lisää seuraajia, onko todennäköistä, että käyttäjä twiittaa tämän seurauksena enemmän?
Esimerkkejä löydetyistä yhteyksistä:
- Jos saat lisää seuraajia -> twiittaat lisää itse/retweettaat itse lisää/postaat linkkejä ja myöskin saat lisää seuraajia.
- Jos seuraat useampia käyttäjiä, hashtagien käyttösi lisääntyy
- Mitä enemmän seuraat käyttäjiä, sitä vähemmän twiittaat itse (havainnut myöskin omalla kohdallani)
Tässäkin tutkimuksessa oli hyvin pieni dataset, joten tuloksista ei hirveän laajalti voi johtopäätöksiä vetää. Tulokset tuntuvat myöskin melko itsestäänselvyyksiltä, joskin aiheesta yllättäviäkin tuloksia olisi voinut nousta.
Tässäpä tämän päivän virallinen osuus. Melko vahvasti koko päivän kävi ilmi, että puhujat ovat taustaltaan data miningin asiantuntijoita, joten ihan omaa osaamista lähellä ei näkökulma ollut. Mielenkiintoista asiaa kuitenkin!