...
Web Quality Session klo 8.45-10.35
- "On Measuring the Lexical Quality of the Web"
- "Measuring the Quality of Web Content using Factual Information"
- "A Breakdown of Quality Flaws in Wikipedia"
- "A Deformation Analysis Method for Artificial Maps Based on Geographical Accuracy and Its Applications"
"A Breakdown of Quality Flaws in Wikipedia"
Wikipedia
Mitä ongelmia on Wikipedian artikkeleissa, onko laadukkaita?
Wikipediassa on clean-up tag, jonka avulla voi laadukkuus-ongelmia ratkaista. Englanninkielisessä Wikipediassa on 320 000 artikkelia, joissa on laadukkuusongelmia.
On tehty tutkimus tehty siitä, että missä Wikipedian sivuilla on ongelmia. Wikipediassa on 23 milj. sivua, joista 5 % on laadukkuusongelmia, joka neljännessa artikkelissa on teknisiä ongelmia
Wikipediassa on mahdollisuus tagata sivua, jos siinä on jotain luotettavuusongelmia.
Missä aiheissa eniten käyttäjien taggauksia, eli ongelmia
- Tietokoneet (50 % kaikista)
- Uskomukset, uskonto
- Kronologisuus
- Luonnontieteet, matematiikka
- Maantiede
70 % tagged koskee todennettavuutta, eli artikkelin lähde ei ole luotettava tai sitä ei löydy. Joka neljäs artikkeli englanninkielisessä Wikipediassa on epäluotettava.
"On Measuring the Lexical Quality of the Web"
Reunahavainnot: Tämän rapotointi on ihan mahdotonta, koska puhuja hyppii aiheesta toiseen, ja kesti hetken kun ymmärsin, mitä sana lexical tarkoitti..Istutaan jossain talon huipulla ja ulkona tuulee niin paljon, että ikkunat helisee. Täällä on kylmä ja sormet jäätyy, käyn tauolla hakemassa huivin ja rannelämmittimet. Näyttää myös siltä, että kukaan muu täällä luennolla ei kuuntele tai ymmärrä. En ole siis ainut.
Ongelmana: Guality of the web pages is one of the key problems on web searching engines
Sanastollinen laadukkuus ja miten mitata sitä:
- Tärkeintä sisällössä on tekstintuottaminen ja se, että ymmärtääkö lukija tekstiä
- Jos tekstissä on kirjoitusvirheitä, tekstiä lukee hitaammin ja se tekee sivusta epälaadukkaan, puhuja esitteli myös hienon kaavan, jonka avulla voidaan laskea
- Tutkimuksen perusteella on laadittu luettelo englanninkielisistä ja espanjankielisistä sanoista, jotka useiten menee väärin. Esim. Album - Albun.
Tutkimuksessa käytiin kaikki maat, joissa englanninkieli on käytössä laajasti. Intiassa, Nigeriassa ja USAssa on sanastollisesti laadukkaimmat sivustot, kun taas Uudessa-Seelannissa huonoimmat. Kuitenkin maissa, joissa on enemmän internet-yhteyksiä ja käyttäjiä, joten on myös enemmän ongelmia.
Ongelmia tulee yhä enemmän, mitä enemmän ihmisiä muokkaa nettivisuja, esim. wikien kautta. Tässä tutkimuksessa tutkittiin vai sanoja, eikä sanajärjestystä eikä muita kirjoitusvirheitä.
"Measuring the Quality of Web Content using Factual Information"
Ihmiset tekevät yhä useammat päätökset netistä löytävänsä informaation perusteella. Mutta kuitenkaan kaikki tieto ei ole luotettavaa.
Kolme lähestysmistapaa:
- Yksinkertaisella statistiikalla
- Relational information contained in facts
- use semantic relationships like meronymy and hypernymy
1. Yksinkertainen statistiikka, Fact count, factual density
Tutkimuksessa käytettiin word countia
TAUKO 10.30-11.00
Game-theoretic Models of Web Credibility Tutkimus löytyy täältä
Tämä on taas sellainen, että ymmärrän asian sieltä, toisen täältä. Päätin googlettaa tutkimuksen ja vähän sen avulla seurata luentoa.
Luennoitsija esittelee uutta näkökulmaa / mallia, miten tutkia internetin uskottavuutta, missä käytetään tutkimushenkilöinä nettipelaajia.
Tutkimuksessa käytettiin pelaajia, jotka ovat pelanneet enemmän (expert-users) ja vähän pelanneita (non-expert-users). Expertit kiinnittävät enemmän huomiota pelien uskottavuuteen ja ovat kuluttajina vaativampia. Non-expertit ovat naiiveja, eivätkä kyseenalaista yhtä helposti ja luottavat helpommin.
Konkluusio on se, että huonoa sisältöä voidaan myydä paremmassa ulkokuoressa, ja kuluttajaa huijataan usein.
Tutustun tutkimukseen hieman tarkemmin ja kirjoitan paremman rapotoinnin. Kuuntelijan kyseenalaistus sai minut ymmärtämään aihetta vähän paremmin, mutta ilmeisesti tutkimus ei ole ihan aukoton.
"An Information Theoretic Approach to Sentimental Polarity Classification" Linkki tutkimukseen
Tutkimuksen tekijät eivät päässeet paikalle, ja tutkimuksen esittelee joku toinen.
Tutkimuksessa on mitattu termien sentimentaalista taipumusta, esim. sanat voi olla positiivisia ja negatiivisia. Sanoja tutkittiin Amazon.com'sta ja niissä missä oli enemmän negatiivisia sanoja oli arvioitu 1-2 tähdellä, ne missä oli positiivisia sanoja, oli usein arvosteltu 4-5 tähdellä, eli sanoilla on merkitystä arvosteltaessa tuotteita ja ostaessa niitä.
Reunahavainnot: Luennoitsija ei tiennyt aiheesta, mistä puhui, joten esitys kesti noin 5 min, eikä ollut kovin kattava, tutkin asiaa lisää luentojen jälkeen.
Content-Based Trust and Bias Classification via Biclustering
Tutkmus: Netin luotettavuus ja laadukkuus
Tutkimuksen tarkoituksena oli antaa välineitä tunnistamaan webin luotettavuutta ja laadukkuutta. Lähteeseen luottaminen on yleistä, jos sivuston ylläpitäjä on valtio tai jokin muu luotettavaksi ymmärretty organisaatio.
Genrejen jaottelu auttaa tutkimaan neutrauliuta ja luottoa
Tässä käytettiinkin esityksen välineinä vain kaavoja, joista en sitten ymmärtänyt mitään.
LOUNAS!
Vaihdan lounaan jälkeen toiseen luentoon, ilmoitan pian mikä se!