Nell’era dell’informazione digitale, l’accesso a dati personali accurati e aggiornati è diventato cruciale per molte attività e il web scraping, o “raschiatura web”, è una tecnica potente che consente di estrarre informazioni direttamente da pagine web, aprendo le porte a un vasto mondo di possibilità nell’analisi dei dati e nella raccolta di informazioni.
Il Garante privacy ha pubblicato le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG). Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre.
Infatti, nel vasto mondo dell’informatica, il web scraping emerge come una tecnica essenziale per estrarre dati da pagine web in modo automatizzato. Questo processo offre un accesso efficiente a informazioni distribuite online, consentendo agli sviluppatori di ottenere dati strutturati per analisi, elaborazione o archiviazione, ma ha i suoi lati oscuri.
Ma andiamo con ordine, per chi ancora non sapesse di cosa si tratta.
Cos’è il Webscraping?
Il web scraping è il processo di estrazione automatica di dati da pagine web. Questo processo coinvolge l’utilizzo di programmi o script per navigare in un sito web, analizzare la struttura HTML della pagina e estrarre le informazioni desiderate. In altre parole, è come “raschiare” i dati dalla superficie di una pagina web, consentendo di raccogliere dati in modo efficiente e automatizzato.
Gli strumenti di web scraping analizzano il codice sorgente HTML delle pagine web, isolano i dati desiderati e li trasformano in un formato utilizzabile, come un file CSV o un database.
Come Funziona il Web scraping?
Il processo di web scraping può essere suddiviso in diverse fasi e coinvolge solitamente i seguenti passaggi:
Identificazione del Target: Determinare quale sito web contiene le informazioni desiderate e identificare le pagine specifiche da cui estrarre i dati.
Analisi dell’HTML: Esaminare la struttura HTML delle pagine web per capire come sono organizzate le informazioni e come accedervi. Gli sviluppatori identificano la struttura HTML della pagina web da cui desiderano estrarre dati. Questo coinvolge l’individuazione degli elementi HTML che contengono le informazioni desiderate, come paragrafi, tabelle o tag specifici.
Selezione degli Strumenti di Webscraping: Gli sviluppatori scelgono gli strumenti di webscraping più adatti alle loro esigenze. Biblioteche come BeautifulSoup in Python o Selenium per l’automazione del browser sono popolari per questo scopo.
Scrittura dello Script: Gli sviluppatori scrivono script o codice che utilizza gli strumenti di webscraping per navigare attraverso la struttura HTML della pagina e estrarre le informazioni desiderate. Creano, quindi, uno script o un programma che automatizzi il processo di navigazione web, estrazione dei dati e salvataggio delle informazioni.
Esecuzione del Webscraping: Far eseguire lo script, che naviga attraverso le pagine web target, estrae i dati specifici e li archivia per un uso futuro.
Estrazione e Trasformazione dei Dati: Una volta estratti, i dati possono essere trasformati in un formato strutturato, come un database o un foglio di calcolo, per un’ulteriore analisi o archiviazione.
Applicazioni Pratiche
Analisi di Mercato: Aziende e imprenditori utilizzano il web scraping per monitorare i prezzi dei concorrenti, analizzare le recensioni dei clienti e ottenere insight di mercato.
Aggiornamenti Automatici: I siti web di notizie o di monitoraggio dei prezzi possono utilizzare il webscraping per aggiornare automaticamente le informazioni senza richiedere un intervento umano.
Ricerca e Analisi: Ricercatori e accademici possono utilizzare il webscraping per raccogliere dati per le loro analisi e studi.
Automazione di Task Online: Il webscraping può essere utilizzato per automatizzare compiti online ripetitivi, come la compilazione di moduli o il download di file.
Il web scraping è una potente tecnica per acquisire dati da internet in modo efficiente. Con le giuste competenze e consapevolezza etica, gli sviluppatori possono sfruttare questa tecnologia per automatizzare la raccolta di informazioni utili. Tuttavia, è fondamentale farlo nel rispetto delle leggi e dei regolamenti e con attenzione all’etica, garantendo un utilizzo responsabile di questa preziosa risorsa tecnologica.


Considerazioni Etiche e Legalità
Nonostante la sua utilità, il web scraping solleva questioni etiche e legali.
Alcuni siti web proibiscono esplicitamente l’uso del web scraping attraverso i loro termini di servizio, e in alcuni casi, l’accesso non autorizzato o l’uso improprio dei dati possono portare a conseguenze legali. Pertanto, è essenziale rispettare le normative e ottenere il permesso prima di estrarre dati da una particolare fonte.
Qualche mese fa, il Garante per la protezione dei dati personali ha avviato una indagine conoscitiva sui siti internet pubblici e privati per verificare l’adozione di idonee misure di sicurezza adeguate ad impedire la raccolta massiva (webscraping) di dati personali a fini di addestramento degli algoritmi di intelligenza artificiale (IA) da parte di soggetti terzi.
L’indagine riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artific
È nota, infatti, l’attività di diverse piattaforme di IA, le quali attraverso il web scraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche
finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati.
Le misure da adottare suggerite dal Garante
In attesa di pronunciarsi, all’esito di alcune istruttorie già avviate tra le quali quella nei confronti di OpenAI, sulla liceità del web scraping di dati personali effettuato sulla base del legittimo interesse, l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento talune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.
Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare: la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità; l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita; interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robot.txt.).
Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.
Leggi articoli simili:
Furto di identità on line: minacce in aumento nel 2023
Security Summit, il 9 novembre la Streaming Edition
Attacchi informatici aziendali e cyber security: quanto ne sai?