Page History

...

Web Quality Session klo 8.45-10.35

"On Measuring the Lexical Quality of the Web"
"Measuring the Quality of Web Content using Factual Information"
"A Breakdown of Quality Flaws in Wikipedia"
"A Deformation Analysis Method for Artificial Maps Based on Geographical Accuracy and Its Applications"

"A Breakdown of Quality Flaws in Wikipedia"

Wikipedia

Mitä ongelmia on Wikipedian artikkeleissa, onko laadukkaita?

Wikipediassa on clean-up tag, jonka avulla voi laadukkuus-ongelmia ratkaista. Englanninkielisessä Wikipediassa on 320 000 artikkelia, joissa on laadukkuusongelmia.

On tehty tutkimus tehty siitä, että missä Wikipedian sivuilla on ongelmia. Wikipediassa on 23 milj. sivua, joista 5 % on laadukkuusongelmia, joka neljännessa artikkelissa on teknisiä ongelmia

Wikipediassa on mahdollisuus tagata sivua, jos siinä on jotain luotettavuusongelmia.

Missä aiheissa eniten käyttäjien taggauksia, eli ongelmia

- Tietokoneet (50 % kaikista)

- Uskomukset, uskonto

- Kronologisuus

- Luonnontieteet, matematiikka

- Maantiede

70 % tagged koskee todennettavuutta, eli artikkelin lähde ei ole luotettava tai sitä ei löydy. Joka neljäs artikkeli englanninkielisessä Wikipediassa on epäluotettava.

"On Measuring the Lexical Quality of the Web"

Reunahavainnot: Tämän rapotointi on ihan mahdotonta, koska puhuja hyppii aiheesta toiseen, ja kesti hetken kun ymmärsin, mitä sana lexical tarkoitti..Istutaan jossain talon huipulla ja ulkona tuulee niin paljon, että ikkunat helisee. Täällä on kylmä ja sormet jäätyy, käyn tauolla hakemassa huivin ja rannelämmittimet. Näyttää myös siltä, että kukaan muu täällä luennolla ei kuuntele tai ymmärrä. En ole siis ainut.

Ongelmana: Guality of the web pages is one of the key problems on web searching engines

Sanastollinen laadukkuus ja miten mitata sitä:

- Tärkeintä sisällössä on tekstintuottaminen ja se, että ymmärtääkö lukija tekstiä

- Jos tekstissä on kirjoitusvirheitä, tekstiä lukee hitaammin ja se tekee sivusta epälaadukkaan, puhuja esitteli myös hienon kaavan, jonka avulla voidaan laskea

- Tutkimuksen perusteella on laadittu luettelo englanninkielisistä ja espanjankielisistä sanoista, jotka useiten menee väärin. Esim. Album - Albun.

Tutkimuksessa käytiin kaikki maat, joissa englanninkieli on käytössä laajasti. Intiassa, Nigeriassa ja USAssa on sanastollisesti laadukkaimmat sivustot, kun taas Uudessa-Seelannissa huonoimmat. Kuitenkin maissa, joissa on enemmän internet-yhteyksiä ja käyttäjiä, joten on myös enemmän ongelmia.

Ongelmia tulee yhä enemmän, mitä enemmän ihmisiä muokkaa nettivisuja, esim. wikien kautta. Tässä tutkimuksessa tutkittiin vai sanoja, eikä sanajärjestystä eikä muita kirjoitusvirheitä.

"Measuring the Quality of Web Content using Factual Information"

Ihmiset tekevät yhä useammat päätökset netistä löytävänsä informaation perusteella. Mutta kuitenkaan kaikki tieto ei ole luotettavaa.

Kolme lähestysmistapaa:

- Yksinkertaisella statistiikalla

- Relational information contained in facts

- use semantic relationships like meronymy and hypernymy

1. Yksinkertainen statistiikka, Fact count, factual density

Tutkimuksessa käytettiin word countia

TAUKO 10.30-11.00

Game-theoretic Models of Web Credibility Tutkimus löytyy täältä

Tämä on taas sellainen, että ymmärrän asian sieltä, toisen täältä. Päätin googlettaa tutkimuksen ja vähän sen avulla seurata luentoa.

Luennoitsija esittelee uutta näkökulmaa / mallia, miten tutkia internetin uskottavuutta, missä käytetään tutkimushenkilöinä nettipelaajia.

Tutkimuksessa käytettiin pelaajia, jotka ovat pelanneet enemmän (expert-users) ja vähän pelanneita (non-expert-users). Expertit kiinnittävät enemmän huomiota pelien uskottavuuteen ja ovat kuluttajina vaativampia. Non-expertit ovat naiiveja, eivätkä kyseenalaista yhtä helposti ja luottavat helpommin.

Konkluusio on se, että huonoa sisältöä voidaan myydä paremmassa ulkokuoressa, ja kuluttajaa huijataan usein.

Tutustun tutkimukseen hieman tarkemmin ja kirjoitan paremman rapotoinnin. Kuuntelijan kyseenalaistus sai minut ymmärtämään aihetta vähän paremmin, mutta ilmeisesti tutkimus ei ole ihan aukoton.

"An Information Theoretic Approach to Sentimental Polarity Classification" Linkki tutkimukseen

Tutkimuksen tekijät eivät päässeet paikalle, ja tutkimuksen esittelee joku toinen.

Tutkimuksessa on mitattu termien sentimentaalista taipumusta, esim. sanat voi olla positiivisia ja negatiivisia. Sanoja tutkittiin Amazon.com'sta ja niissä missä oli enemmän negatiivisia sanoja oli arvioitu 1-2 tähdellä, ne missä oli positiivisia sanoja, oli usein arvosteltu 4-5 tähdellä, eli sanoilla on merkitystä arvosteltaessa tuotteita ja ostaessa niitä.

Reunahavainnot: Luennoitsija ei tiennyt aiheesta, mistä puhui, joten esitys kesti noin 5 min, eikä ollut kovin kattava, tutkin asiaa lisää luentojen jälkeen.

Content-Based Trust and Bias Classification via Biclustering

Tutkmus: Netin luotettavuus ja laadukkuus

Tutkimuksen tarkoituksena oli antaa välineitä tunnistamaan webin luotettavuutta ja laadukkuutta. Lähteeseen luottaminen on yleistä, jos sivuston ylläpitäjä on valtio tai jokin muu luotettavaksi ymmärretty organisaatio.

Genrejen jaottelu auttaa tutkimaan neutrauliuta ja luottoa

Tässä käytettiinkin esityksen välineinä vain kaavoja, joista en sitten ymmärtänyt mitään.

LOUNAS!

Vaihdan lounaan jälkeen toiseen luentoon, ilmoitan pian mikä se!

Child pages

Versions Compared

Old Version 2

New Version Current

Key

Web Quality Session klo 8.45-10.35

"A Breakdown of Quality Flaws in Wikipedia"

Wikipedia

Missä aiheissa eniten käyttäjien taggauksia, eli ongelmia