Taustaa
eReading on nk. laajan julkisuuden tutkimushanke ja Juju-avainsanoitustyökalu on julkaistu MIT-open source lisenssillä, sallien myös vapaan kaupallisen käytön. Tuotos on vapaasti käytettävissä.
Lyhykäisyydessään Jujulle annetaan tekstiä sisään ja se palauttaa parhaiten tekstiä kuvaavat avainsanat relevanssijärjestyksessä. Avainsanat palautetaan perusmuotoistettuina. Avainsanoista palautetaan myös suhteellinen painoarvo, tärkein avainsana saa painon yksi, tämänjälkeiset saavat tärkeytensä mukaan arvon välillä 1..0.
Demon käyttöohje
- Mene sivulle http://ereading.metropolia.fi/keyphrase.html
- Anna syötteenä tekstikenttään suomenkielistä tekstiä.
- Paina SUBMIT-nappia kentän vierestä, alle ilmestyy 10 tärkeintä avainsanaa laskevassa järjestyksessä.
- Tekstikentän sijasta syötteenä voi antaa webbisivun osoitteen (URL) tai ladata oman tekstitiedoston.
Koneisto ymmärtää mm. tekstitiedostoja, HTML:ää, PDF:ää, word-dokumentteja
Huomioitavia seikkoja
- Koneisto on monikielinen, ja soveltuu myös englanninkieliselle tekstille, mutta voi tuottaa tällä hetkellä erikoisia tuloksia.
- Toimii hyvin asiatekstillä, kaunokirjallisella sisällöllä heikommin.
- Jos syötteenä on URL, webbisivulla oleva ylimääräinen tavara voi tuottaa erikoisia tuloksia.
Ylläkuvatun avainsanoituksen lisäksi operoimme myös nimettyjen entiteettien tunnistuksen parissa, avainsanoitustyökalun kanssa vastaavanlainen henkilönimitunnistindemo löytyy täältä:
Lisätietoja (vaikkapa tarkempi demonstraatio): Olli Alm, 0407518262