Saako kielimallin tehdä louhimalla?
Tekoälyn suhdetta tekijänoikeuteen pohditaan nyt monella rintamalla. Viime viikkoina paljon huomiota on saanut Saksan keskustelu siitä, voiko tekoälyä kouluttaa tekstin- ja tiedonlouhintaa koskevan poikkeuksen perusteella. Niin kutsutussa vektorimuodossa kielimalleihin näyttää kopioituvan ennemminkin teosten luovaa ilmaisumuotoa kuin niiden sisältämää tietoa.
Louhinta on kuulunut tekijänoikeuslain käsitteisiin viime vuoden keväästä alkaen, jolloin tekijänoikeuden DSM-direktiivi saatiin Suomessa implementoitua. Tekijänoikeuslain poikkeus antaa luvan valmistaa teoksista kappaleita tekstin- ja tiedonlouhintaa varten. Muita kuin tieteellisiä tutkimusorganisaatioita lupa koskee silloin, kun oikeudenhaltija ei ole louhintaa erikseen kieltänyt.
Kun itse direktiiviä vuosikymmenen vaihteessa valmisteltiin, louhinnan tekniikkana ei ensisijaisesti ajateltu tekoälyä, mutta ei toisaalta suljettu poiskaan. Louhinta epäilemättä on louhintaa myös silloin, kun se tehdään tekoälytyökalujen avulla. Toisaalta kaikki eri tavat, joilla teoksia voidaan hyödyntää tekoälyn koulutusmateriaalina, tuskin mahtuvat louhinnan käsitteen sisälle.
Se, missä louhintapoikkeuksen rajat kulkevat, on vielä osin oikeudellisesti auki. Samaan aikaan kun Euroopan komissiolta toivotaan täsmennyksiä asiaa koskevaan lainsäädäntöön, merkittäviä tulkintaratkaisuja jo voimassa olevasta laista saa odottaa myös Euroopassa.
Mitä tekstin- ja tiedonlouhinta on?
Tekstin- ja tiedonlouhinta on määritelty DSM-direktiivissä. Se tarkoittaa automaattista analyysitekniikkaa, jonka tarkoituksena on analysoida digitaalisessa muodossa olevaa tekstiä ja dataa tietojen tuottamiseksi. Nämä tiedot voivat direktiivin mukaan olla esimerkiksi malleja, suuntauksia tai korrelaatioita.
Kielimallien näkökulmasta on ensinnäkin kiinnostavaa, että listassa mainitaan malli. Myös tunnetut suuret kielimallit perustunevat juuri direktiivissä tarkoitettuihin malleihin (en. pattern, ra. constante) eli aineistosta tunnistettuihin tyyppitapauksiin siitä, miten sanat liittyvät toisiinsa. Riidatonta lienee myös se, että kielimallin rakentaminen vähintäänkin alkaa digitaalisen aineiston analysoinnilla.
Vaikeampaa sen sijaan on sanoa, onko kielimallin kehittämisessä tavoiteltu lopputulos direktiivissä tarkoitettua tietoa vai jotakin muuta. Juuri tämä kysymys on viime viikot ollut saksalaisen tekijänoikeuskeskustelun ytimessä.
Kielimalli kokoelmana luovan ilmaisun osia
Tekijänoikeus ei suojaa tietoja, ideoita eikä ajatuksia. Suoja syntyy vasta ja vain omaperäiselle tavalle ilmaista niitä. Tekoäly on lähtökohtaisesti sokea tälle erottelulle ja käsittelee samanlaisena datana sekä teoksiin sisältyvää tietoa että luovaa ilmaisumuotoa.
Saksan luovan alan järjestöjen tilaaman tuoreen asiantuntijalausunnon pääväite on, että tekoälyn koulutuksessa hyödynnetään tiedon eli semanttisen informaation lisäksi myös teosmuotoa eli syntaktista informaatiota, joka on tekijänoikeuden nimenomainen suojakohde. Niin kutsuttu vektorimuoto tallentaa ennen kaikkea tapoja ilmaista tietoja eikä tietoja itsessään. Ilmaisu kopioidaan ilmaisun vuoksi, kuten lausunnon kirjoittajat sanovat.
Tekoälyn kouluttamisen suhde tekijänoikeuteen ehti syyskuussa edetä Saksassa jo tuomioistuinkäsittelyynkin, joskin edellä kuvailtu pääkysymys jäi siinä vielä ratkaisematta. Tapauksessa oli kyse tutkimusorganisaation tekemästä kuvia ja niiden tekstikuvauksia sisältävästä laajasta datasetistä, jota voitiin käyttää tekoälyn koulutusmateriaalina ja jonka tuomioistuin katsoi tehdyksi louhintatarkoituksessa.
Oikeus tehdä tekstin- ja tiedonlouhintaa toki koskee teosmuodonkin kopioimista, kunhan tulos, jota tavoitellaan, on sitä kautta saatava tieto eikä itse teosmuodon toisintaminen tai yleisön saataville saattaminen. Arvoketjun eri toimijoiden roolit oletettavasti poikkeavat tässä suhteessa toisistaan. Mielenkiintoinen rajapinta, jota Saksan tapauksen muutoksenhaku todennäköisesti tulee koskemaan, on tieteellisen tutkimuksen tulosten julkaiseminen. Oikeudenhaltija ei edes voi kieltää tutkimusorganisaation oikeutta louhia, mutta tällöinkin tutkimustuloksina saanee ennemminkin julkaista louhimalla saatua tietoa kuin välittää louhinnan kohteina olleita teoksia yleisölle.
Teoksista neuroverkkoon ja takaisin
Useimmat tekoälytuotokset eroavat olennaisesti koulutusmateriaalistaan. Vaikka lopputulos syntyisi paloista teoksia, se tyypillisesti eroaa näistä riittävästi ollakseen näiden kappale. Kielimallin tekijänoikeudellisessa arvioinnissa on siten yleensä enemmän kyse teoskappaleiden valmistamisesta prosessin aikana kuin teosten saattamisesta yleisön saataville. Joillakin käskyillä tekoäly kuitenkin tuottaa myös koulutusmateriaalin teoksia sellaisenaan, mikä kertoo jo jotakin sen toimintamekanismista.
Vaikka teokset pitäisikin onkia tekoälypalveluista varta vasten manipuloimalla, kuten Open AI argumentoi amerikkalaisessa oikeusjutussaan New York Timesia vastaan, jo mahdollisuus tähän puoltaa edellä mainittua väitettä syntaktisen informaation tallentumisesta.
Myös neuroverkkojen assosiatiivinen tallentaminen on tallentamista. Voidaan osoittaa, että teoskappaleet eivät neuroverkossa ole muodossa, jossa ne voidaan havaita teoksiksi, mutta tämä tuskin on tekijänoikeudellisesti ratkaisevaa. Myös tutummilla digitaalisilla alustoilla teokset ovat olemassa vain ykkösinä ja nollina, eikä vinyylilevyyn kaiverrettua raitaakaan voi ilman levysoitinta havaita musiikkiteokseksi.
Aisopoksen faabelissa kettu kieltäytyy leijonan kutsusta vierailla tämän luolassa, kun huomaa, että muiden eläinten jäljet johtavat vain luolan suuntaan eivätkä takaisin. ”Vestigia terrent” eli jäljet pelottavat. Tekoälyn tapauksessa neuroverkon luolaan katoaa luovuutta, mutta sitä ei pahimmillaan enää elävänä tule ulos. Tuloksena on ennemminkin riekaleita, jotka muistuttavat aikanaan elossa olleesta luovuudesta.
Aivan näin pessimistiseen tulevaisuudenkuvaan tuskin kannattaa uskoa. On kuitenkin tärkeää, että riittävästi uusia teoksia synnyttävää elämää osataan jättää luolan ulkopuolelle.
Läpinäkyvyys on avain
Kielimalli on teoriassa mahdollista tehdä myös manuaalisesti ja tekijänoikeusvapaasti. Sanojen yhteydet on mahdollista kuvata myös ilman teosmuotoja tavalla, jota esimerkiksi sanakirjojen määritelmissä noudatetaan. Vuosituhannen alussa tätä on jopa yritetty, joskin katastrofaalisen huonolla menestyksellä. Työmäärä on kestämätön ja tuottavuus olematon.
Tekoäly ratkaisee tuottavuusongelman, mutta sen akilleenkantapää on sokeus sisällön ja muodon väliselle erolle sekä tekijänoikeudet. Tämä haaste on kuitenkin ratkaistavissa lisensoinnilla. Kielimalleille ja yleensäkin tekoälysovelluksille on paikkansa luovan sisällön rinnalla, kunhan tuotanto ei perustu vapaamatkustamiseen eikä murenna pohjaa tekijänoikeuksiin jatkossakin tehtäviltä investoinneilta. Tekijänoikeuden haltijoiden intressissä ei ole kampittaa tekoälyn kehitystä, vaan säilyttää luovan työpanoksen arvo myös hyödyntämistapojen murroksessa.
Louhintasäännösten tulkintaa ohjaa nyt debatin kohteena olevan teknisen rajauksen ohella niin kutsuttu kolmivaihetesti. Tekijänoikeuden rajoituksia voidaan soveltaa vain toimintaan, joka ei ole ristiriidassa teosten tavanomaisen hyödyntämisen kanssa eikä kohtuuttomasti haittaa oikeudenhaltijan oikeutettuja etuja. Tässä relevanttia on myös taloudellinen mittakaava ja esimerkiksi tekoälyn potentiaali syrjäyttää teoksia markkinoilta. Kolmivaihetesti osaltaan yhdistää eurooppalaista näkökulmaa amerikkalaisen tekijänoikeusjärjestelmän fair use -punnintaan, joka niin ikään on parhaillaan käynnissä. Juuri tekoälytuotannon taloudellinen mittakaava on tietysti myös muuttuja, jota DSM-direktiiviä valmisteltaessa osattiin kaikista heikoimmin arvioida.
EU:n tekoälyasetuksen läpinäkyvyysvelvoitteet, joiden täsmentämistä komissiolta odotetaan, ovat edelleen ensiarvoisen tärkeä avain lisensiointiin. Tekijänoikeuden toimeenpano ei voi viime kädessä nojata vain alkuperäisteoksia toisintaviin sattumiin, vaan se tulee voida perustaa kattavaan tietoon kouluttamisessa käytetystä teosaineistosta. Läpinäkyvyys helpottaa samalla myös sen arvioimista, mitä toimintoja voidaan oikeudellisesti pitää tekstin- ja tiedonlouhintana.