Metodologia

Tämä sivu kuvaa, miten Tolkkua päättää, mikä juttu pääsee läpi ja mikä ei. Tavoite on läpinäkyvyys: kuka tahansa voi tarkistaa, millä perusteella suodatus tehdään, ja kiistää yksittäisen päätöksen.

Suodatusketju

Jokainen otsikko kulkee saman neljävaiheisen ketjun läpi:

  1. Haku. Tolkkua lukee suomalaisten uutismedioiden julkisia RSS-syötteitä ja uutissivukarttoja (news sitemap). Osoitteet normalisoidaan ja saman lähteen sisäiset kaksoiskappaleet karsitaan.
  2. Sääntöpohjainen esisuodatin. Halpa, deterministinen sääntölista poimii ilmeisimmät klikkiotsikot ja julkaisijan itsensä merkitsemät mielipidejutut (esimerkiksi otsikon alkuun merkityt "Kommentti:" tai "Näkökulma:"). Sääntö poistaa jutun vain, kun osuma on yksiselitteinen — periaate on korkea tarkkuus, ei kattavuus. Epävarmat tapaukset jätetään luokittelijalle.
  3. Tekoälyluokittelija. Esisuodattimen ohittaneet otsikot luokittelee kielimalli (Azure OpenAI). Mallille lähetetään vain otsikko ja kuvaus — molemmat julkisesta syötteestä. Malli palauttaa luokan, varmuusasteen (0–100), yhden lauseen perustelun sekä aihetagit.
  4. Ryhmittely ja julkaisu. Saman tapahtuman eri lähteistä kertovat jutut niputetaan yhdeksi merkinnäksi ("Myös: …"). Uutiseksi luokiteltu, varmuusasteeltaan riittävä juttu julkaistaan; loput hylätään tai ohjataan ihmistarkistukseen.

Luokat

Luokittelija jakaa jokaisen otsikon yhteen viidestä luokasta:

Varmuusaste

Luokittelija antaa jokaiselle päätökselle varmuusasteen välillä 0–100. Matalan varmuuden jutut eivät julkaudu automaattisesti, vaan ne ohjataan erilliseen tarkistusjonoon riippumatta siitä, mihin luokkaan ne osuivat. Näin yksittäinen epävarma malliarvio ei yksin ratkaise jutun kohtaloa.

Aiheet ja tagit

Jokainen julkaistu juttu saa yhden yläaiheen suljetulta listalta (kotimaa, politiikka, talous, ulkomaat, tiede, tekoäly, kulttuuri, urheilu, terveys, ympäristö, media) sekä vapaamuotoisia tageja (teemat, henkilöt, paikat). Yläaihe ohjaa selailua, tagit löytämistä.

Mitä emme tee

Rajoitukset

Luokittelija ei ole erehtymätön. Sen tarkkuutta ei ole vielä vahvistettu erillistä, ihmisen merkitsemää vertailukorpusta vasten, joten palvelun tilastot ja yksittäiset päätökset ovat alustavia. Sääntöpohjainen esisuodatin on tarkoituksella varovainen: se päästää mieluummin rajatapauksen luokittelijalle kuin poistaa oikean uutisen. Väärä positiivinen — oikean jutun virheellinen suodatus — on vakavampi virhe kuin väärä negatiivinen, ja ketju on viritetty sen mukaisesti.

Kiistäminen

Jos mielestäsi juttu on luokiteltu väärin tai lähteesi luvut ovat virheelliset, kerro siitä. Tee se kätevimmin kiistolomakkeella — käymme jokaisen kiiston läpi ihmisvoimin. Voit myös olla yhteydessä sähköpostitse: toni at gatecom dot fi.