Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Migrated to Confluence 4.0

Yleiset infot

Ohjelma ja infoa workshopista löytyy osoitteesta http://crowdsearch.como.polimi.it/program


Social-Textual Search and Ranking (Ali Khodaei and Cyrus Shahabi)

Nykyisellään hakukoneet hakevat ainoastaan sanoja, eivätkä osaa ottaa sosiaalista kontekstia huomioon käytännössä lainkaan. Google ja Bing yrittävät kyllä tuoda tätä ominaisuutta koko ajan (esim. Googlen +1), mutta kehitys on vielä kesken. Tässä tutkimuksessa tavoitteena oli luokitella käyttäjät sen mukaan, kuinka relevantteja he ovat haun ja haun tekijän kannalta. Lisäksi luokitellaan erilaiset tapahtumat sosiaalisessa mediassa ja otetaan niiden vaikutus huomioon hakukoneissa. Esimerkiksi Facebookin toiminnat on painotettu seuraavalla tavalla: publishing 1, like 0,8, share 0,6, comment 0,4.

Tutkimuksessa käytiin läpi last.fm:n käyttäjiä ja heidän yhteyksiä ja toimintoja palvelussa. Tuloksista huomattiin, että social-textual on paras lähestymistapa. Lisäksi ei-binäärinen mittaustapa on parempi kuin binäärinen. Ja hyvin luontevasti myös mitä enemmän kontakteja ihmisillä löytyy, sitä enemmän sosiaalisilla yhteyksillä on tarjottavaa tuloksille. Yleisöstä nousi hyvä pointti esille, joka on itseänikin mietityttänyt muissa yhteyksissä: jos hakutuloksissa näkyy vain ystäviesi suosimia tuloksia, kutistuuko ja fragmentoituuko internet käyttäjän osalta?

Human Computation Must Be Reproducible

Automaattiset toiminnot eivät pysty vielä ainakaan hahmottamaan kovinkaan hyvin eri kokonaisuuksia, joilla on täsmälleen sama nimi (esim. kahdeksan kaupunkia, joiden nimi on täsmälleen San Fransisco). Tämä voi johtaa suureen määrään väärää dataa tai väärin yhdistettyä dataa. Tästä syystä tarvitaan ihmisiä yhdistämään oikeat kokonaisuudet toisiinsa ja erottamaan väärät omikseen.

Human computing = ulkoistetaan tietokoneelle hankala tehtävä joukolle ihmisiä.

Erittäin hauskaa, että nykyään ulkoistetaan tehtäviä ihmisille...

Ongelmaksi crowdsourcingissa, kuten lähes kaikessa viestinnässä, muodostuu noise. Julkisella kyselyllä spammaajat voivat antaa väärää dataa (osa hyvinkin hienostuneesti, koska voivat oppia oikeankaltaisia vastauspatterneja. Toisaalta, voidaanko ajautua tilanteeseen, jossa koneet keskustelevat keskenään ja "spammaaja" tarjoaakin lopulta oikeaa tietoa?). Myöskin crowdille annetut tehtävät voivat olla huonoja. Kolmas potentiaalinen ongelma on vastaajien kokemattomuus kysytystä aiheesta.

Mechanical Cheat: Spamming Schemes and Adversarial Techniques on Crowdsourcing Platforms

A Model-Driven Approach for Crowdsourcing Search

PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content

A Framework for Crowdsourced Multimedia Processing and Querying

An Evaluation of Search Strategies for User-Generated Video Content

...

Hyvä vertaus haasteellisuudesta: Yritä arvostella koe, johon ei ole valmista vastauspohjaa, jonka aiheesta ei ole kattavaa tietoa eikä aiheesta ole julkaista välttämättä mitään virallista tietoa. Kuulostaa melko hankalalta, eikö?