Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Migrated to Confluence 4.0

...

Nykytilanteessa hakukoneet eivät anna kovinkaan hyvin vastauksia suoriin kysymyksiin. Hakukoneiden luonnollisesti halutaan maagisesti antavan vastauksen kysymykseen kuin kysymykseen. Tutkimuksen tavoitteena on löytää puhekielestä termejä ja merkityksiä jotka ovat täysin yksiselittäisiä ilman minkäänlaista kontekstia ja hyödyntää niitä hakumenetelmissä. Kuten puhuja itsekin myönsi, aika kunnianhimoinen tavoite. Kun vertaillaan 16 satunnaista verkkodokumenttia jonkin asiasanan osalta, jos niissä asiasana tai termi koetaan yksiselitteiseksi voidaan 90% todennäköisyydellä sanoa, että asiasana tai termi on 80% yksiselitteinen koko verkossa. Puhuja esitteli paljon erilaisia metriikoita joilla mitata yksiselitteisyyttä hakukoneen näkökulmasta.

Visualizing Contextual and Dynamic Features of Microposts

http://www.ecoresearch.net/climate/

Sivusto visualisoi ilmastonmuutoksen liittyvän uutisoinnin ja sosiaalisen median postaukset monilla eri tavoilla ja annotoi kaiken sisääntulevan datan esimerkiksi lokaation ja aiheen mukaan. Sivusto tarjoaa myös runsaasti vaihtoehtoja filteröidä sisältöä haluamallaan tavalla. Kuten puhujakin myönsi, ensisilmäyksellä etusivulla on hyvin runsaasti informaatiota, mutta kunhan siihen tottuu, on lukeminen suhteellisen kätevää. Sisällöstä n. 50% tulee uutispalveluista, noin 30% sosiaalisesta mediasta ja loput erilaisista tieteellisistä julkaisuista.

Sisällöllinen informaatiomaisema (Dynamic Topography Information Landscapes), joka löytyy etusivun oikeasta laidasta, jäsentää artikkeleita sisällön mukaan. Samantyyppiset artikkelit kasaantuvat muodostaen "sisältökukkulan". Tästä kukkulasta eroavat artikkelit ovat myös kartalla kauempana. News Flow Diagram näyttää, kuinka usein tietty aihe esiintyy ilmastonmuutokseen liittyvissä kohteissa. Toiminto osaa myös linkittää aiheita keskenään.

When social bots attack: Modeling susceptibility of users in online social networks

Social bots = botteja, jotka pyrkivät sosiaalisessa mediassa matkimaan oikean ihmisen käytöstä. Vaarana mm. väärän informaation levitys ja virusten leviäminen.

Kuinka estää bottien toimintaa ja leviämistä? Botit täytyy tunnistaa ja täytyy arvioida käyttäjien todennäköisyyttä joutua bottien kohteeksi ja kuinka todennäköisesti kohde alistaa itsensä bottien haittavaikutuksille.

Social Bot Challenge -projektilla (*http://tinyurl.com/4q6whz5\* (http://tinyurl.com/4q6whz5*)) pyrittiin selvittämään, kuinka todennäköisesti ja millaiset ihmiset ovat alttiita social bottien hyökkäyksille.

Alttiimpia käyttäjiä ovat aktiivisia, avoimia ja tunteellisia sekä "meformereita" (postaavat enemmän itsestään kuin ympärillä tapahtuvista asioista, vrt. informer). Todennäköisimmin bottien kanssa tekemisiin joutuvat käyttävät myös paljon negatiivisia sanoja (no, not, never).

On melko luontevaa, että aktiiviset ja paljon palveluita käyttävät käyttäjät ovat alttiiimpia hyökkäyksille, mutta toisaalta tutkijat olettivat, että nämä käyttäjät olisivat kehittäneet jonkinlaisen puolustuskyvyn. Suomessahan jokin aika sitten uutisoitiin ns. nettisukupolven luultua heikommasta medialukutaidosta. Ilmeisesti kyseessä on samanlainen harha. Oletetaan, että paljon käyttämällä tiettyjä palveluita kehität automaattisesti jonkunlaisen puolustuskyvyn.

What Makes a Tweet Relevant for a Topic

Twitter puhujan mukaan siirtymässä enemmänkin uutispalveluksi, tai sitä voi pitää myös uutispalveluna. Kuinka sitten hakea relevanttia sisältö Twitteristä? Twitterin hakua käytetään hieman eri tavalla kuin normaalia hakua. Twitterissä hakusanat ovat lyhyempiä (1,6 sanaa, kun Googlella n. 3 sanaa per haku) ja hieman erilaisia sisällöltään (yli viisi kertaa useammin haetaan julkkisten nimiä).

Mielenkiintoisimmat hypoteesit+:+

Twiitit jotka sisältävät #hashtagin tai hashURLin ovat todennäköisesti relevantimpia tietyn topicin kannalta. Lisäksi jos twiittaajalla on paljon aiempia twiittejä ja/tai seuraajia, on twiitti todennäköisemmin relevantti.

Twiitit jotka ovat vastauksia toisiin twiitteihin (alkavat @käyttäjänimellä) ovat todennäköisemmin vähemmän olennaisia suuremman topicin kannalta.

Yleisöstä tuli hyvin mielenkiintoinen kysymys liittyen Kreikan kriisin analysointiin. Yleisön jäsen on yrittänyt tutkia kriisiin liittyvää keskustelua Twitterissä. Isoksi ongelmaksi on kuitenkin muodostunut kreikkalaisten tapa käyttää Twitteriä - hashtageja ei käytä käytännössä lainkaan. Kuinka siis analysoida keskustelua, jossa keskusteleva yleisö vaihtuu jatkuvasti eikä hashtageja ole käytettävissä?

Understanding co-evolution of social and content network of Twitter

Tavoitteena tutkimuksella oli pohtia sosiaalisten ja sisällöllisten ominaisuuksien  suhdetta kaksisuuntaisesti. Esimerkiksi: Jos käyttäjä saa päivän aikana runsaasti lisää seuraajia, onko todennäköistä, että käyttäjä twiittaa tämän seurauksena enemmän?

Esimerkkejä löydetyistä yhteyksistä:

- Jos saat lisää seuraajia -> twiittaat lisää itse/retweettaat itse lisää/postaat linkkejä ja myöskin saat lisää seuraajia.
- Jos seuraat useampia käyttäjiä, hashtagien käyttösi lisääntyy
- Mitä enemmän seuraat käyttäjiä, sitä vähemmän twiittaat itse (havainnut myöskin omalla kohdallani)

Tässäkin tutkimuksessa oli hyvin pieni dataset, joten tuloksista ei hirveän laajalti voi johtopäätöksiä vetää. Tulokset tuntuvat myöskin melko itsestäänselvyyksiltä, joskin aiheesta yllättäviäkin tuloksia olisi voinut nousta.

Tässäpä tämän päivän virallinen osuus. Melko vahvasti koko päivän kävi ilmi, että puhujat ovat taustaltaan data miningin asiantuntijoita, joten ihan omaa osaamista lähellä ei näkökulma ollut. Mielenkiintoista asiaa kuitenkin!