Pojdi na vsebino

Wikipedija:Uporaba umetne inteligence

Iz Wikipedije, proste enciklopedije

Stran je predlog ureditve pravilnika o pravilni rabi in preprečevanju zlorabe umetne inteligence.

Z letom 2022 so izredno popularni postali obsežni jezikovni modeli, kot je na primer spletni klepetalnik ChatGPT. Zaradi svojih tehnološke zasnove ti navkljub nekaterim svojim prednostim, kot je strojno prevajanje, pogosto ne zadostujejo za neposredno izdelavo besedil, primernih za Wikipedijo, saj ne navajajo virov, imajo neprimerno zgradbo besedila ter pogosto navajajo povsem napačne podatke. Predlog smernice poskuša očrtati:

  • identifikacijo besedil, generiranih z umetno inteligenco ter njihovo skladnost s trentnimi smernicami slovenske Wikipedije;
  • identifikacijo slik in ostale medije, ki so bili generirani z umetno intelligenco, ter zagotoviti njihovo pravilno rabo;
  • ohranjati sledljivost uporabnikov, ki uporabljajo generativno umetno inteligenco ter jih po potrebi sankcionirati.

Pomanjkljivosti uporabe

[uredi | uredi kodo]

Čeprav so lahko obsežni jezikovni modeli zelo uporabni, lahko strojno generirano besedilo vsebuje napake, pomanjkljivosti ali pa je povsem neuporabno.

Natančneje, če od tovrstnega modela zahtevate, naj "napiše članek za Wikipedijo", je lahko rezultat včasih popolna izmišljotina z neobstoječimi sklici ali viri. Besedilo je lahko pristransko, obrekuje žive osebe ali krši avtorske pravice. Zato morajo vsa besedila, ki jih ustvarijo modeli, pred uporabo v člankih preveriti uporabniki.

Uporabnikom, ki se teh tveganj ne zavedajo v celoti in niso sposobni odpraviti omejitev orodij, je urejanje odsvetovano. Programov LLM se ne sme uporabljati za naloge, s katerimi uporabnik ni dobro seznanjen. Rezultate modela je treba strogo preveriti glede skladnosti z vsemi veljavnimi pravili. Tudi če je bila umetno generirana vsebina močno urejena, obstjajo primernejše alternative brez uporabe generativne umetne inteligence. Tako kot pri vseh drugih urejanjih je uporabnik v celoti odgovoren za svoja urejanja.

Wikipedija ni testni poligon. Odsvetovana je tudi raba LLM modelov za ustvarjanje komentarjev ali odgovor na pogovornih straneh. Programe LLM, ki se uporabljajo za ustvarjanje ali spreminjanje besedila, je treba navesti v povzetku urejanja, tudi če tega pogoji uporabe posameznih modelov tega ne zahtevajo.

Kršitve Wikipedijih smernic

[uredi | uredi kodo]

Programi LLM so programi za dokončanje vzorca: besedilo ustvarjajo z izpisovanjem besed, ki bi najverjetneje sledile predhodni. Vzorce se naučijo iz besedilnih korpusov, ki vključujejo najrazličnejše vsebine z interneta in od drugod, vključno z leposlovnimi deli, objavami na forumih, nestrukturirano in nizkokakovostno vsebino optimizacijo spletnih strani (SEO) itd. Tako bi lahko modeli LLM prišli do sicer prepričljivih zaključkov, ki pa jih ne podpira noben zanesljiv vir. Upoštevajo lahko tudi pozive z absurdnimi predpostavkami. Vse to je v praksi enakovredno izvirnemu raziskovanju, ki je na Wikipediji prepovedano.

LLM modeli ne upoštevajo Wikipedijinih pravil o preverljivosti in zanesljivih virih. Včasih modeli sploh ne dodajo navedb ali pa navedejo vire, ki ne izpolnjujejo pravil za zanesljive vire (vključno z navajanjem Wikipedije kot vira). V nekaterih primerih halucinirajo navedbe neobstoječih virov z izmišljanjem naslovov, avtorjev in URL-jev.

Obsežni jezikovni modeli lahko zaradi algoritemske pristranskosti generirajo vsebino, ki je sicer nevtralna v tonu, ne pa tudi v vsebini.

Generirana besedila LLM modelov lahko vsebujejo kršitve avtorskih pravic, bodisi z dobesednim citiranjem avtorsko zaščitenih del kot tudi generiranjem nepotrebnega neposrednega citiranja v primeru povzemanja virov. Nekateri ponudniki LLM-jev prepovedujejo pridobitno rabo izdelkov svojih modelov, kar je v neskladju z licenco Creative Commons-Priznanje avtorstva-Deljenje pod enakimi pogoji, pod katero je objavljeno besedilo v Wikipediji.

Besedila, ki jih je generiral obsežen jezikovni model, se ne smatrajo za zanesljiv vir, če teh ni objavil zanesljiv vir, ki je tudi preveril točnost navedb.

Pravilna raba

[uredi | uredi kodo]

LLM modeli so pomožna orodja in ne morejo nadomestiti človeške presoje. Od uporabnikov se pričakuje, da se seznanijo z značilnimi omejitvami določenega modela, nato pa morajo te omejitve premagati in zagotoviti, da so njihova urejanja skladna s trenutnimi smernicami in pravili. V ta namen morajo uporabniki pred uporabo tovrstnih programov pridobiti precej izkušenj z opravljanjem enakih ali zahtevnejših nalog brez pomoči programja. Prav tako se zavedajte omejitev strojnega prevajanja in ne objavljajte nepregledanih strojno prevedenih besedil, saj ta ne doprinašajo h kvaliteti člankov.

V kolikor zaprošate LLM modele za nasvete pri pisanju, tj. če boste prosili za osnutke besedila, kako izboljšati odstavke, za kritiko besedila itd., se morajo uporabniki zavedati, da so vrnjene informacije nezanesljive. Uporabnik se mora zavedati, da LLM morda ne bo pravilno zaznal slovničnih napak, pravilno razlagal skladenjskih dvoumnosti ali ohranil ključne informacije nedotaknjene. Od programa LLM je mogoče zahtevati, da sam popravi pomanjkljivosti v svojih rezultatih, kot so manjkajoče informacije v povzetku ali neenciklopedičen ton, ti ne smejo nadomestiti ročnih popravkov. Pri odločanju, ali vključiti predloge in spremembe, sta potrebna ustrezna skrbnost in zdrava pamet.

Ponavljajoča se zloraba LLM programja in ponavljanje neželenih urejanj se sankcionira z blokado.

Postopanje z besedili umetne inteligence

[uredi | uredi kodo]

Uporabnik, ki ugotovi, da LLM-generirana vsebina ni v skladu z Wikipedijinimi pravili, in se ne odloči za takojšnjo odstranitev (kar je na splošno v redu), jo mora bodisi urediti do skladnosti bodisi na to opozoriti druge urednike.

Najprej je treba preveriti dejanski obstoj navedenih virov. Vse trditve je nato treba preveriti glede na navedene vire. Ugotoviti je treba prisotnost celovitosti besedila in vira. Vse neskladnosti s pravili je potrebno odstraniti.

Za opozorilo drugim urednikom naj uporabnik postavi {{AI-generated|date=januar 2025}}, vendar samo v kolikor težava ne bi bila hitro rešljiva. V biografijah živih oseb je treba vsebino, ki ni skladna s pravili LLM, takoj odstraniti. Če bi odstranitev na zgoraj opisani način povzročila izbris celotne vsebine članka ali osnutka, postane kandidat za izbris. Če je celotna stran dejansko napačna ali se opira na izmišljene vire, stran postane kandidat za hitro brisanje in se svetuje uporabo prvega kriterija (Popolni nesmisel, t.j. nepopravljivo inkoherentna stran brez vsebine, ki bi kaj pomenila.). Za opozarjanje uporabnikov o napačni rabi generativne umetne inteligence se uporabljajo naslednje predloge:

Urejevalski nasveti

[uredi | uredi kodo]
  • Označujte članke, ki jih je generirala umetna inteligence, odstranjujte nereferencirano vsebino ter opozarjajte uporabnike na njihova napačna urejanja
  • Razločevanje besedil umetne inteligence od človeških besedil je pogosto težko. Nekateri kazatelji, da je besedilo generirano z uporabo LLM, so pogosto okrašene besedne zveze, "kot AI model" ipd. Drug indikator so lažne reference in ostale halucinirane vsebine. Občasno se AI modeli postavljajo v vlogo turističnega vodnika, spet drugič pa bo govoril o napačnih subjektih v vnosih. Pri nišnih subjektih bo AI vstavljal velikokrat napačne podatke in pogoste oz. splošne podatke. Pri prepoznavi AI generiranega besedila je uporaba orodij za prepoznavo AI generiranih besedil, kot je GPTZero, odsvetovana zaradi njihovih visokih deležev lažnih pozitivov.
  • AI generirana besedila niso zmeraj nereferencirana, preverite, da navedeni viri niso lažni, ter da pri odstranjevanju AI generiranih besedil ne odstranjujete legitimnega referenciranja.