loading...
loading...

Cum se detecteaza textul generat de AI, potrivit cercetatorilor

Textul generat de inteligenta artificiala, din instrumente precum ChatGPT, incepe sa aiba un impact asupra vietii de zi cu zi. Profesorii il testeaza ca parte a lectiilor de la clasa. Specialistii in marketing se chinuie sa-si inlocuiasca stagiarii. Memerii se dezlantuie. Pe mine? Ar fi o minciuna sa spun ca nu sunt putin  ingrijorat de robotii care vin pentru concertul meu de scris. (ChatGPT, din fericire, nu poate sa acceseze apelurile Zoom si sa efectueze interviuri inca.)

Cu instrumentele AI generative acum accesibile public, probabil ca veti intalni mai mult continut sintetic in timp ce navigati pe web. Unele cazuri pot fi benigne, cum ar fi un test BuzzFeed generat automat despre care desert prajit se potriveste convingerilor tale politice. ( Esti democrat beignet sau un zeppole republican? ) Alte cazuri ar putea fi mai sinistre, cum ar fi o campanie de propaganda sofisticata a unui guvern strain. 

Cercetatorii academicieni cauta modalitati de a detecta daca un sir de cuvinte a fost generat de un program precum ChatGPT. In acest moment, care este un indicator decisiv ca orice cititi a fost creat cu ajutorul AI?

Entropie, evaluata

Algoritmii cu capacitatea de a imita tiparele scrisului natural exista de cativa ani mai multi decat v-ati putea da seama. In 2019, Harvard si MIT-IBM Watson AI Lab au lansat un instrument experimental care scaneaza text si evidentiaza cuvintele in functie de nivelul lor de aleatorie. 

De ce ar fi de ajutor? Un generator de text AI este in esenta o masina de modele mistice: superb la imitatie, slab la aruncarea mingilor curbe. Sigur, atunci cand introduci un e-mail sefului tau sau trimiti un text de grup unor prieteni, tonul si cadenta ta pot parea previzibile, dar exista o calitate capricioasa la baza stilului nostru uman de comunicare.

Edward Tian, ​​student la Princeton, a devenit viral la inceputul acestui an cu un instrument similar, experimental, numit GPTZero, destinat educatorilor. Evalueaza probabilitatea ca o bucata de continut sa fi fost generata de ChatGPT pe baza „perplexitatii” (alias aleatorie) si „burstiness” (alias variatie). OpenAI, care se afla in spatele ChatGPT, a renuntat la un alt instrument creat pentru a scana text care are peste 1.000 de caractere si a face un apel de judecata. Compania este sincera cu privire la limitarile instrumentului, cum ar fi fals pozitive si eficacitate limitata in afara limbii engleze. Asa cum datele in limba engleza sunt adesea de cea mai mare prioritate pentru cei din spatele generatoarelor de text AI, majoritatea instrumentelor pentru detectarea textului AI sunt in prezent cele mai potrivite pentru a beneficia vorbitorii de limba engleza.

Va puteti da seama daca un articol de stiri a fost compus, cel putin partial, de AI? „Aceste texte generative de inteligenta artificiala nu pot face niciodata treaba unui jurnalist ca tine Reece”, spune Tian. Este un sentiment bun la inima. CNET, un site web axat pe tehnologie, a publicat mai multe articole scrise de algoritmi si trase peste linia de sosire de un om. ChatGPT, pentru moment, nu are o anumita nebunie si ocazional halucineaza, ceea ce ar putea fi o problema pentru o raportare fiabila. Toata lumea stie ca jurnalistii calificati salveaza psihedelicele pentru dupa ore.

Entropie, imitata

In timp ce aceste instrumente de detectare sunt utile pentru moment, Tom Goldstein, profesor de informatica la Universitatea din Maryland, vede un viitor in care acestea devin mai putin eficiente, pe masura ce procesarea limbajului natural devine mai sofisticata. „Aceste tipuri de detectoare se bazeaza pe faptul ca exista diferente sistematice intre textul uman si textul automat”, spune Goldstein. „Dar scopul acestor companii este de a face text automat cat mai aproape de textul uman.” Inseamna asta ca s-a pierdut orice speranta de detectare a mediilor sintetice? Absolut nu.

Goldstein a lucrat la o lucrare recenta de cercetare a posibilelor metode de filigran care ar putea fi integrate in modelele mari de limbaj care alimenteaza generatoarele de text AI. Nu este sigura, dar este o idee fascinanta. Amintiti-va, ChatGPT incearca sa prezica urmatorul cuvant probabil dintr-o propozitie si compara mai multe optiuni in timpul procesului. Un filigran ar putea sa desemneze anumite modele de cuvinte ca fiind interzise pentru generatorul de text AI. Deci, atunci cand textul este scanat si regulile filigranului sunt incalcate de mai multe ori, indica o fiinta umana probabil ca a lovit capodopera.