Quali sono i dati personali che lasciamo dietro di noi, “con un click”? Vi siete mai chiesti cosa succede quando leggiamo un contenuto online?
Certo! Ecco una frase introduttiva che giustifica l’articolo:
La recente decisione del Gruppo Editoriale Gedi di cedere i propri contenuti editoriali a OpenAI per l’addestramento dei suoi algoritmi di intelligenza artificiale solleva interrogativi cruciali sul trattamento dei dati personali dei lettori e sul rispetto della loro privacy. In un contesto in cui ogni interazione online lascia tracce digitali, è fondamentale comprendere quali informazioni lasciamo dietro di noi e quali rischi corriamo.
Quando si naviga su Internet e si legge un contenuto su un sito web o un giornale online, la maggior parte delle persone non riflette su che tipo di dati sta lasciando dietro di sé. Tuttavia, ogni click, ogni pagina visualizzata e ogni interazione online contribuisce a creare un profilo dettagliato dell’utente. Vediamo insieme come noi umili lettori, senza rendercene conto, possiamo rivelare informazioni personali attraverso la semplice lettura di un articolo, e come questi dati possano diventare un rischio per la privacy, specialmente quando il titolare del contenuto decide di venderli o di cederli a terzi (ad esempio, ad OpenAI per l’addestramento degli algoritmi).
Ogni volta che leggiamo un contenuto online, stiamo, in un certo senso, “dando” dei dati. Questi dati non sono sempre immediatamente evidenti, ma possono rivelare molto su di noi.
Cosa succede quando questi dati vengono ceduti a OpenAI?
Quando un’azienda come il Gruppo Editoriale Gedi cede i propri contenuti a OpenAI (leggi qui l’articolo a riguardo), uno dei rischi principali riguarda il trattamento dei dati personali contenuti in quegli archivi. I giornali, infatti, non si limitano a riportare notizie, ma conservano anche informazioni sui suoi lettori: persone, eventi, opinioni, e dettagli che possono includere dati personali sensibili.
Quando OpenAI acquisisce questi contenuti per addestrare i suoi algoritmi, potrebbe, teoricamente, accedere anche a questi dati personali. Il rischio nasce quando non si rispettano le normative sulla privacy che regolano come i dati debbano essere trattati. L’utilizzo dei dati senza il consenso degli interessati o senza le dovute cautele (ad esempio, senza anonimizzare i dati sensibili), è una violazione dei diritti degli utenti.
In pratica, i lettori potrebbero non essere informati che i loro dati (anche indirettamente raccolti attraverso i contenuti letti) vengano utilizzati per addestrare un’intelligenza artificiale. Inoltre, senza un adeguato controllo, si possono verificare situazioni in cui questi dati servano per scopi diversi o usati in modo non trasparente da quelli inizialmente dichiarati, mettendo a rischio la loro privacy.
In sintesi, il rischio si concretizza quando i dati personali dei lettori vengono trattati in modo illecito o senza una base giuridica solida che giustifichi l’uso e la condivisione con terzi, come OpenAI.
Quando un lettore legge un contenuto online, può lasciare una varietà di dati personali, alcuni dei quali potrebbero non essere immediatamente evidenti. Ecco i principali tipi di dati che possono essere raccolti durante la lettura di articoli su siti web o giornali online.
Vediamo quali.
Quali dati lasciamo mentre navighiamo?
1. Dati di navigazione (Cookie e tracciamento online)
- Cookie: I cookie sono piccoli file di testo che i siti web memorizzano sui dispositivi degli utenti per raccogliere informazioni su di loro. Possono tracciare la navigazione dell’utente (quali pagine ha visitato, quanto tempo ha trascorso su ogni pagina, ecc.), migliorando l’esperienza utente ma anche raccogliendo dati sul comportamento online.
- Fingerprinting del dispositivo: Una tecnica che traccia l’utente senza l’uso di cookie, raccogliendo informazioni sul dispositivo, come la risoluzione dello schermo, il browser utilizzato, il sistema operativo, ecc.
2. Dati di registrazione e interazione
- Account e credenziali: Se il lettore si registra o accede a un sito, fornisce dati come nome, indirizzo email, indirizzo IP e talvolta dati demografici (età, sesso, posizione geografica, interessi, ecc.).
- Interazioni e commenti: Se l’utente interagisce con il contenuto, come scrivere commenti o fare clic su determinati link, queste azioni possono essere registrate e collegate all’account dell’utente, creando un profilo dettagliato delle sue preferenze e comportamenti.
3. Dati relativi alla posizione
- Geolocalizzazione: I siti web possono raccogliere la posizione dell’utente tramite IP (approssimativamente) o tramite GPS se l’utente concede il permesso per l’accesso alla sua posizione. Questo dato può rivelare la città o la regione in cui l’utente si trova.
4. Dati comportamentali e preferenze
- Storico di lettura e interazione: Gli articoli che un lettore legge, la frequenza con cui lo fa, i temi di interesse e i comportamenti (come la durata della lettura di un contenuto o il fatto di condividerlo sui social) possono essere utilizzati per costruire un profilo delle sue preferenze.
- Preferenze di contenuto: Se un lettore interagisce con determinati tipi di contenuti (ad esempio, articoli di politica, sport, gossip), queste scelte possono essere tracciate e utilizzate per migliorare l’esperienza utente o per scopi pubblicitari.
5. Dati impliciti
- Indirizzo IP: L’indirizzo IP può rivelare informazioni geografiche sull’utente e viene automaticamente registrato quando un utente accede a un sito web.
- ID dispositivo: Se l’utente accede tramite un dispositivo mobile o un’app, il dispositivo stesso può fornire un identificativo univoco che consente di tracciare l’utente attraverso le diverse sessioni e interazioni.
6. Interazioni sociali
- Social media: Se il lettore condivide contenuti sui social media o accede ai contenuti tramite una piattaforma social (ad esempio, loggandosi con Facebook o Twitter), questi social possono raccogliere informazioni sulle sue attività e interazioni.
- Condivisioni e reazioni: La condivisione di articoli o il “mi piace” su contenuti può anche rivelare gusti e opinioni personali.
Come questi dati possono diventare “personali”?
Molti dei dati sopra elencati, se combinati, possono identificare una persona in modo unico, soprattutto quando sistemi avanzati di intelligenza artificiale li analizzano. Ad esempio:
- Profili comportamentali: Attraverso l’incrocio dei dati di navigazione, combinati con l’indirizzo IP, la cronologia dei contenuti letti e altre interazioni, si può creare un profilo dettagliato che descrive gli interessi, le abitudini e perfino le opinioni personali dell’utente.
- Dati sensibili: Sebbene i dati di navigazione o di geolocalizzazione possano sembrare generici, possono comunque rivelare informazioni sensibili, come il comportamento politico, le convinzioni religiose o le preferenze sociali, che rientrano nella categoria di dati personali sensibili.
Una delle problematiche principali in questo scenario riguarda il consenso. Quando un lettore interagisce con un sito, potrebbe non essere a conoscenza del fatto che i suoi dati, anche quelli non esplicitamente identificabili, vengono trasferiti a terzi per addestrare algoritmi. Questo trasferimento può avvenire senza un’informativa adeguata o senza la possibilità per l’utente di opporsi. In sostanza, i lettori non sono a conoscenza del reale uso che quel sito fa dei suoi dati, ne possono essere certi della protezione effettiva degli stessi.
Il rischio con l’intelligenza artificiale
Quando Gedi (o altre aziende) cedono questi dati a OpenAI o ad altre piattaforme di intelligenza artificiale per addestrare gli algoritmi, il rischio sta nel fatto che questi dati, anche se apparentemente anonimi, potrebbero essere utilizzati per rafforzare modelli predittivi che, ad esempio, personalizzano le risposte o i contenuti, senza che gli utenti ne siano consapevoli o abbiano dato il consenso esplicito. Questo trattamento potrebbe violare i diritti dei lettori, soprattutto se i dati vengono utilizzati per scopi diversi da quelli per cui sono stati originariamente raccolti, o se non vengono implementate adeguate misure di protezione.
In sostanza, anche se un lettore non inserisce volontariamente informazioni personali, le sue azioni online e le sue interazioni con i contenuti possono lasciare tracce significative che possono essere considerate dati personali.
Oggi, con l’uso diffuso di intelligenza artificiale e tracciamento online, i dati che lasciamo durante le attività quotidiane, come leggere un articolo, sono molto più complessi e dettagliati di quanto immaginiamo. Spesso, con un solo click, lasciamo dietro di noi un numero importante di dati, senza che ce ne rendiamo pienamente conto, e la combinazione di informazioni apparentemente innocue può rivelare molto di più su di noi di quanto pensiamo.
Questa realtà solleva importanti questioni etiche, soprattutto riguardo al consenso e alla protezione della privacy. Se ti interessano ulteriori riflessioni su questo tema, sono sempre qui per discuterne.
Il rischio per la privacy dei lettori
Il rischio maggiore per la privacy risiede nel fatto che i dati personali vengono spesso utilizzati per scopi non trasparenti. Quando i lettori navigano su un sito e leggono contenuti, potrebbero non rendersi conto di quante informazioni stanno involontariamente rivelando. Le pratiche di tracciamento invisibile e la combinazione di più fonti di dati possono compromettere la loro privacy.
Inoltre, se le informazioni migrano a terzi senza il consenso esplicito degli utenti, questi ultimi potrebbero non avere la possibilità di opporre il trattamento dei propri dati. Questo è particolarmente problematico perché i lettori potrebbero trovarsi senza la capacità di controllare l’utilizzo dei loro dati in futuro.
L’importanza della trasparenza
Il trattamento dei dati personali deve avvenire nel rispetto dei diritti degli utenti, garantendo la trasparenza e il consenso informato. Quando le aziende cedono i contenuti a terzi come OpenAI, devono garantire che i lettori ricevano le adeguate informazioni sull’utilizzo dei loro dati. La regolamentazione della privacy deve evolversi per tenere il passo con le nuove tecnologie, assicurando che la protezione dei dati rimanga una priorità.
In futuro, la fiducia dei lettori nei confronti dei media dipenderà dalla capacità delle aziende di garantire la sicurezza e la trasparenza nell’uso dei dati, in particolare quando si tratta di intelligenza artificiale e algoritmi. La protezione della privacy non può essere un optional: deve essere il cuore di ogni strategia aziendale che coinvolge dati personali.
Potrebbe interessarti anche:
Open AI e editori: attenzione a vendere articoli e dati personali
Protezione dei dati personali: cosa fa il Garante?
Webscraping, ovvero come ricavare dati da un sito web
Accesso a dati personali e web scraping: come difendersi