Viharfelhők gyülekeznek a ChatGPT és társai felett

Az iparág komoly jogi és etikai csatározásra számíthat

2023. április 14. - emTV.hu

A legmodernebb mesterséges intelligencia-rendszerek segíthetnek megúszni a parkolási bírságot, megírni egy tudományos esszét, vagy elhitetni veled, hogy Ferenc pápa divatrajongó. A lélegzetelállító technológia mögött álló virtuális könyvtárak azonban hatalmasak - és aggályok merülnek fel, hogy működésükkel megsértik a személyes adatokra és a szerzői jogokra vonatkozó törvényeket – írja technológiai rovatában a The Guardian.

Az ilyen mesterséges intelligencia-rendszerek legújabb generációjának – például a ChatGPT és a Stable Diffusion mögött álló rendszerek – betanításához használt hatalmas adathalmazok valószínűleg az internetről lelopott képek milliárdjait, kalóz e-könyvek millióit, az Európai Parlament tizenhat évének teljes jegyzőkönyvét és a teljes angol nyelvű Wikipédiát tartalmazzák.

Az iparág nagy adatigénye azonban kezd problémákat okozni, mivel a szabályozó hatóságok és a bíróságok világszerte keményen fellépnek az olyan kutatók ellen, akik hozzájárulás vagy értesítés nélkül gyűjtik a tartalmakat. Válaszul a mesterséges intelligenciával foglalkozó laboratóriumok azért küzdenek, hogy titokban tartsák adatkészleteiket, sőt, még a szabályozó hatóságokat is tetemre hívják.

Olaszországban a ChatGPT-t eltiltották a működéstől, miután az ország adatvédelmi szabályozója szerint nem volt jogalapja annak, hogy a GPT AI képzése érdekében személyes adatokat gyűjtsenek és "tömegesen tároljanak". Kedden a kanadai adatvédelmi biztos követte a példát, és vizsgálatot indított a vállalat ellen egy panaszra válaszul, amely szerint "személyes adatok gyűjtése, felhasználása és közzététele hozzájárulás nélkül" történt.

Nagy-Britannia adatvédelmi felügyelője is kifejezte saját aggodalmát. "Az adatvédelmi törvény akkor is alkalmazandó, ha a feldolgozott személyes adatok nyilvánosan hozzáférhető forrásokból származnak" – mondta Stephen Almond, az Információs Biztos Hivatalának technológiai és innovációs igazgatója.

Michael Wooldridge, az Oxfordi Egyetem informatika professzora szerint a "nagy nyelvi modellek" (LLM), mint amilyenek az OpenAI ChatGPT és a Google Bard programjának alapját képezik, óriási mennyiségű adatot gyűjtenek.

"Ez magában foglalja az egész világhálót – mindent. Minden linket követnek minden oldalon... Ebben a felfoghatatlan mennyiségű adatban valószínűleg rengeteg információ van rólad és rólam" – mondja, hozzátéve, hogy egy LLM egy személyről és a munkájáról szóló megjegyzéseket is összegyűjthet. "És ez nincs valahol egy nagy adatbázisban tárolva – nem tudjuk megnézni, hogy pontosan milyen információk vannak rólam. Mindez hatalmas, átláthatatlan neurális hálózatokban van elásva".

Wooldridge szerint a szerzői jog kérdése egy "közelgő vihar" a mesterséges intelligenciával foglalkozó vállalatok számára. Az LLM-ek valószínűleg hozzáférnek szerzői jogvédelem alatt álló anyagokhoz, például hírcikkekhez. A Microsoft Bing keresőmotorjához csatolt, GPT-4 által támogatott chatbot valóban híroldalakat idéz a válaszaiban. "Nem adtam kifejezett engedélyt arra, hogy a műveimet képzési adatként használják, de szinte biztos, hogy így történt, és most hozzájárulnak ahhoz, amit ezek a modellek tudnak" – mondja.

"Sok művész komolyan aggódik amiatt, hogy a generatív mesterséges intelligencia veszélyezteti a megélhetésüket. Jogi csatározásokra lehet számítani" – teszi hozzá.

Már most is vannak perek: a Getty Images stockfotó-gyártó cég beperelte a Stability AI nevű brit startupot – a Stable Diffusion nevű mesterséges intelligencia-képgenerátor mögött álló céget –, miután azt állította, hogy a képgeneráló vállalat megsértette a szerzői jogokat azzal, hogy több millió licenc nélküli Getty-fotót használt fel a rendszere betanításához. Az Egyesült Államokban művészek egy csoportja perli a Midjourney-t és a Stability AI-t. A perben azt állítják, hogy a cégek "művészek millióinak jogait sértették meg" termékeik fejlesztése során, mivel a művészek munkáit engedélyük nélkül használták fel.

A Stability számára kellemetlen módon a Stable Diffusion időnként a Getty Images vízjelével ellátott képeket ad ki, amelyekből a fotóügynökség példákat is mellékelt a keresetéhez. Januárban a Google kutatóinak még azt is sikerült elérniük, hogy a Stable Diffusion rendszer szinte tökéletesen újraalkossa az egyik engedély nélküli képet, amelyre betanították, Anne Graham Lotz amerikai evangélista portréját.

Az OpenAI ellen indított szerzői jogi pereket és a szabályozó hatósági eljárásokat akadályozza, hogy a vállalat abszolút titokban tartja a képzési adatokat. Sam Altman, a ChatGPT-t kifejlesztő OpenAI vezérigazgatója az olasz tiltásra reagálva azt mondta: "Úgy gondoljuk, hogy minden adatvédelmi törvényt betartunk." A vállalat azonban nem volt hajlandó megosztani semmilyen információt arról, hogy milyen adatokat használtak fel a GPT-4, a ChatGPT alapjául szolgáló technológia legújabb verziójának kiképzéséhez.

Még az AI-t leíró "technikai jelentésében" is csak annyit közöl a vállalat, hogy az AI-t "nyilvánosan elérhető adatok (például internetes adatok) és harmadik féltől licencelt adatok felhasználásával képezték ki". A további információkat elhallgatják, "a GPT-4-hez hasonló nagyméretű modellek versenyhelyzete és biztonsági vonatkozásai miatt".

Mások ezzel ellentétes véleményen vannak. Az EleutherAI "non-profit AI-kutató laboratóriumként" írja le magát, és 2020-ban azzal a céllal alapították, hogy újraalkossa a GPT-3-at, és nyilvánosságra hozza azt. Ennek érdekében a csoport összeállította a Pile-t, egy nyolcászhuszonöt gigabájtos gyűjteményt az internet minden szegletéből összegyűjtött adathalmazokból. Ez a gyűjtemény tartalmaz száz GB e-könyvet a bibliotik kalózoldalról, további 100 GB számítógépes kódot a Githubról, valamint kétszázhuszonnyolc GB weboldalakat, amelyeket 2008 óta gyűjtöttek össze az internet különböző részeiről – a csoport elismeri, hogy mindezt az érintett szerzők beleegyezése nélkül.

Eleuther azzal érvel, hogy a Halomban szereplő adatkészletek már mind olyan széles körben megosztásra kerültek, hogy összeállításuk "nem jelent jelentősen megnövekedett kárt". A csoport azonban nem vállalja a jogi kockázatot az adatok közvetlen tárolásával, ehelyett a névtelen "adatrajongók" csoportjához, az Eye-hoz fordul, amelynek szerzői jogi irányelve egy videó, amelyen egy kórusnyi ruhás nő éneklés közben úgy tesz, mintha képzeletbeli péniszüket maszturbálnák.

A chatrobotok által előállított információk egy része szintén hamis volt. A ChatGPT hamisan vádolt meg egy amerikai jogászprofesszort, Jonathan Turley-t a George Washington Egyetemről azzal, hogy szexuálisan zaklatta egyik diákját – egy nem létező hírcikkre hivatkozva. Az olasz szabályozó hatóság arra is utalt, hogy a ChatGPT válaszai "nem mindig felelnek meg a tényszerű körülményeknek", és "pontatlan személyes adatokat dolgoznak fel". Egyébként ezt a Parallaxis Univerzum munkatársai is megerősíthetik, akik a ChatGPT használata közben többször találkoztak e pontatlansági hibával.

A mesterséges intelligencia terén elért eredményekről szóló éves jelentés szerint a kereskedelmi szereplők dominálnak az iparágban, szemben a tudományos intézményekkel és a kormányokkal.

A kaliforniai Stanford Egyetem által összeállított 2023 AI Index című jelentés szerint tavaly harminckét jelentős, iparilag előállított gépi tanulási modell létezett, míg az akadémiai intézmények hárommal szemben. 2014-ig a legtöbb jelentős modell az akadémiai szférából származott, de azóta az AI-modellek fejlesztésének költségei, beleértve a személyzetet és a számítási teljesítményt is, emelkedtek.

"A nagy nyelvi és multimodális modellek mindenütt egyre nagyobbak és drágábbak" – áll a jelentésben. A ChatGPT mögött álló LLM egyik korai, GPT-2 néven ismert verziója másfélmilliárd paraméterrel rendelkezett, ami az emberi agy neuronjainak analógja, és a becslések szerint ötvenezer dollárba (majdnem tizenhétmillió forintba) került a betanítása. Összehasonlításképpen, a Google PaLM-je ötszáznegyvenmilliárd paraméterrel rendelkezett, és becslések szerint nyolcmillió dollárba (közel hárommilliárd forintba) került.

Ez aggodalmakat vetett fel azzal kapcsolatban, hogy a vállalati szervezetek kevésbé mérlegelik a kockázatot, mint a tudományos vagy kormányzati finanszírozású projektek. A múlt héten egy levél, amelynek aláírói között volt Elon Musk és az Apple társalapítója, Steve Wozniak is, arra szólított fel, hogy legalább hat hónapra azonnal szüneteltessék az "óriási mesterséges intelligencia-kísérletek" létrehozását. A levél szerint aggodalomra ad okot, hogy a technológiai cégek "egyre erősebb digitális elméket" hoznak létre, amelyeket senki sem tud "megérteni, megjósolni vagy megbízhatóan irányítani".

Dr. Andrew Rogoyski, az angliai Surrey Egyetem emberközpontú mesterséges intelligenciával foglalkozó intézetének vezetője elmondta: "A Big AI azt jelenti, hogy ezeket a mesterséges intelligenciákat kizárólag a profitorientált nagyvállalatok hozzák létre, ami sajnos azt jelenti, hogy az emberi érdekeinket nem feltétlenül képviselik jól."

Hozzátette: "Arra kell összpontosítanunk erőfeszítéseinket, hogy a mesterséges intelligenciát kisebbé, hatékonyabbá, kevesebb adatot és kevesebb áramot igénylővé tegyük, hogy demokratizálhassuk a mesterséges intelligenciához való hozzáférést".

emTV.hu // THe Guardian // címlapképünk illusztráció / Pixabay