...
Web Quality Session klo 8.45-10.35
- "On Measuring the Lexical Quality of the Web"
- "Measuring the Quality of Web Content using Factual Information"
- "A Deformation Analysis Method for Artificial Maps Based on Geographical Accuracy and Its Applications"
...
70 % tagged koskee todennettavuutta, eli artikkelin lähde ei ole luotettava tai sitä ei löydy. Joka neljäs artikkeli englanninkielisessä Wikipediassa on epäluotettava.
"On Measuring the Lexical Quality of the Web"
Reunahavainnot: Tämän rapotointi on ihan mahdotonta, koska puhuja hyppii aiheesta toiseen, ja kesti hetken kun ymmärsin, mitä sana lexical tarkoitti..Istutaan jossain talon huipulla ja ulkona tuulee niin paljon, että ikkunat helisee. Täällä on kylmä ja sormet jäätyy, käyn tauolla hakemassa huivin ja rannelämmittimet. Näyttää myös siltä, että kukaan muu täällä luennolla ei kuuntele tai ymmärrä. En ole siis ainut.
Ongelmana: Guality of the web pages is one of the key problems on web searching engines
Sanastollinen laadukkuus ja miten mitata sitä:
- Tärkeintä sisällössä on tekstintuottaminen ja se, että ymmärtääkö lukija tekstiä
- Jos tekstissä on kirjoitusvirheitä, tekstiä lukee hitaammin ja se tekee sivusta epälaadukkaan, puhuja esitteli myös hienon kaavan, jonka avulla voidaan laskea
- Tutkimuksen perusteella on laadittu luettelo englanninkielisistä ja espanjankielisistä sanoista, jotka useiten menee väärin. Esim. Album - Albun.
Tutkimuksessa käytiin kaikki maat, joissa englanninkieli on käytössä laajasti. Intiassa, Nigeriassa ja USAssa on sanastollisesti laadukkaimmat sivustot, kun taas Uudessa-Seelannissa huonoimmat. Kuitenkin maissa, joissa on enemmän internet-yhteyksiä ja käyttäjiä, joten on myös enemmän ongelmia.
Ongelmia tulee yhä enemmän, mitä enemmän ihmisiä muokkaa nettivisuja, esim. wikien kautta. Tässä tutkimuksessa tutkittiin vai sanoja, eikä sanajärjestystä eikä muita kirjoitusvirheitä.
"Measuring the Quality of Web Content using Factual Information"
Ihmiset tekevät yhä useammat päätökset netistä löytävänsä informaation perusteella. Mutta kuitenkaan kaikki tieto ei ole luotettavaa.
Kolme lähestysmistapaa:
- Yksinkertaisella statistiikalla
- Relational information contained in facts
- use semantic relationships like meronymy and hypernymy
1. Yksinkertainen statistiikka, Fact count, factual density
Tutkimuksessa käytettiin word countia