MosaicLeaks: Poate agentul tău de cercetare să păstreze un secret?

Inteligența artificială devine din ce în ce mai prezentă în operațiunile de business, iar agenții autonomi de cercetare – soluții AI capabile să caute, să sintetizeze și să analizeze informații – sunt adoptate rapid de companii pentru a eficientiza fluxurile de lucru. Cu toate acestea, un nou tip de vulnerabilitate, numit **MosaicLeaks**, arată că acești agenți pot fi Transformați în instrumente de scurgere a datelor confidențiale, chiar și atunci când sunt concepuți să fie siguri.

Descoperit și documentat de cercetătorii ServiceNow și Hugging Face, MosaicLeaks demonstrează cum un agent de cercetare poate fi păcălit să dezvăluie informații sensibile printr-o combinație aparent inofensivă de întrebări. Atacul funcționează ca un puzzle: fiecare întrebare individuală nu pare să încalce restricțiile, dar răspunsurile cumulate reconstituie secretul. Pentru antreprenorii și managerii care investesc în soluții AI, această vulnerabilitate ridică întrebări fundamentale despre încrederea pe care o putem acorda agenților autonomi și despre măsurile de securitate necesare.

Contextul vulnerabilității MosaicLeaks

Termenul „MosaicLeaks” provine de la **atacul de tip mozaic** – o tehnică prin care informații parțiale, fiecare permisă individual, sunt combinate pentru a reconstitui un întreg interzis. În cazul agenților AI de cercetare, aceștia au de obicei acces la baze de date interne, documente confidențiale sau API-uri protejate, dar sunt programați să nu divulge direct secrete. Cercetătorii au descoperit că, prin interogări succesive aparent inofensive (de exemplu, „Care este numărul de angajați din departamentul X?”, apoi „Care este salariul mediu pe acel departament?”), agentul poate fi determinat să calculeze și să returneze valori sensibile (precum bugetul total), chiar dacă fiecare întrebare individuală este permisă.

Articolul original de pe Hugging Face (disponibil aici) detaliază experimentele: agenți bine intenționați, antrenați să nu divulge secrete, au fost totuși exploatați prin interogări multiple. De exemplu, un agent cu acces la o bază de date financiară a returnat, pas cu pas, profitul net al unei companii, deși era programat să nu dezvăluie această informație direct. Acest lucru se întâmplă deoarece agenții nu au o conștientizare holistică a contextului – fiecare răspuns este evaluat independent, nu în raport cu istoricul complet al conversației.

Impactul asupra afacerilor

Pentru companii, MosaicLeaks reprezintă un risc grav, deoarece multe organizații implementează agenți AI pentru a accesa și analiza date interne. Iată câteva scenarii concrete:

**Asistență clienți**: Un agent care răspunde la întrebări despre prețuri poate fi manipulat să calculeze marjele de profit, dezvăluind informații competitive.
**Cercetare juridică**: Un agent cu acces la documente legale confidențiale poate fi păcălit să reconstituie clauze sau strategii de litigiu.
**Resurse umane**: Un agent care oferă statistici salariale anonime poate fi forțat să identifice salarii individuale prin agregări succesive.

Riscul nu este doar tehnic, ci și reputațional și legal. O scurgere de date poate atrage amenzi GDPR, pierderea încrederii clienților și daune financiare. Mai mult, vulnerabilitatea este dificil de detectat prin testele standard de securitate, deoarece atacul nu folosește injecții de prompturi evidente, ci un comportament aparent normal.

Tendințele actuale arată o adoptare tot mai mare a agenților autonomi – de la asistenți de cercetare de piață la analiști financiari bazați pe AI. Companiile care nu iau în calcul acest tip de risc ar putea descoperi prea târziu că „agentul de încredere” a devenit o breșă de securitate. De aceea, pe blogul nostru dedicat soluțiilor AI discutăm periodic despre noile amenințări și bune practici.

Tendințe în securitatea AI

MosaicLeaks se înscrie într-o categorie mai largă de vulnerabilități cunoscute sub numele de **„atacuri prin inferență”** și **„injecție indirectă de prompturi”**. Odată cu popularizarea modelelor de limbaj mari (LLM-uri), atacatorii au găsit metode tot mai creative de a ocoli filtrele de securitate:

**Atacuri de tip poartă din spate**: prin care un prompt aparent benign activează o comandă ascunsă.
**Atacuri de confuzie de rol**: în care agentul este convins să ignore restricțiile de securitate.
**Atacuri de tip „mozaic”**: descrise acum, care exploatează lipsa de memorie contextuală.

Cercetătorii subliniază că actualele măsuri de securitate – filtrarea prompturilor, lista neagră de cuvinte, verificări simple de conținut – sunt insuficiente. Este nevoie de o abordare mai profundă, care să includă:

1. **Limitarea strictă a datelor accesibile** – agenții ar trebui să aibă acces doar la un subset minim necesar. 2. **Monitorizarea istoricului conversației** – nu doar a întrebării individuale. 3. **Detectarea anomaliilor statistice** – de exemplu, dacă agentul începe să răspundă cu numere care pot fi derivate din combinarea răspunsurilor anterioare.

Aceste măsuri sunt discutate pe larg în cadrul soluțiilor noastre integrate, care includ module de securitate adaptate pentru agenți AI enterprise.

Cum se pot proteja companiile

Pe lângă soluțiile tehnice, companiile trebuie să adopte o strategie de securitate pe mai multe niveluri:

**Audit și testare continuă**: Simularea atacurilor MosaicLeaks de către echipe roșii interne sau externe.
**Segmentarea datelor**: Nu oferiți unui agent acces la întreaga bază de date; folosiți vizualizări limitate (de ex., doar agregări precalculate, nu date brute).
**Control al contextului**: Implementați o memorie a conversației care să semnaleze atunci când un utilizator încearcă să reconstituie informații interzise.
**Educarea utilizatorilor**: Angajații trebuie să fie conștienți că niciun agent nu este perfect sigur și să evite interogări repetitive suspecte.

Un exemplu concret: o companie care utilizează un agent pentru analiza financiară poate restricționa accesul la nivel de agregare (de ex., doar medii, nu sume) și poate impune un prag maxim de întrebări per sesiune. În plus, logarea tuturor interacțiunilor și analiza periodică a modelelor de interogări poate dezvălui încercări de atac.

Pentru a implementa corect aceste măsuri, recomandăm consultarea cu specialiști și alegerea unor platforme care încorporează securitatea din faza de design. Echipa noastră de la aiDatix vă poate ajuta să evaluați riscurile și să configurați soluții personalizate – contactați-ne aici pentru o discuție inițială.

Concluzii

MosaicLeaks este un semnal de alarmă pentru toate companiile care adoptă agenți autonomi de cercetare. Vulnerabilitatea nu este un defect minor, ci o problemă fundamentală de arhitectură: agenții nu înțeleg contextul la nivel global și pot fi manipulați să divulge secrete prin intermediul unor întrebări aparent inofensive. Pe măsură ce AI devine un instrument central în business, securitatea trebuie să fie o prioritate, nu o considerație ulterioară.