Come localizzare gli utenti Twitter in base ai tweet

Uno studio statunitense ha sottolineato come il servizio dei social network contribuisce alla diffusione e quindi al rinnovamento dello ‘slang’. In sintesi stiamo parlando di tutte quelle espressioni linguistiche dialettali tipiche di ogni regione, proprio grazie ai Tweet degli utenti in questo modo si può risalire alla loro posizione geografica. Twitter diventa in questo modo un vero e proprio laboratorio linguistico all’interno del quale si sviluppano nuovi dialetti. Considerando che solo a Capodanno ci fu il record dei Tweet inviati, stiamo parlando di un numero molto alto di post
Il social netwokr, in un certo senso, racchiude molte informazione, non solo chi siamo e quali sono le nostre abitudini ma anche da che regione stiamo scrivendo. I social network sono entrati a far parte della vita quotidiana di moltissime persone e adesso sono diventati anche un vero e proprio strumento per studiare in un certo senso l’evolversi dei dialetti in base alla differenza geografica degli utenti. I ricercatori della Carnegie Mellon University di Pittsburgh hanno dimostrato come gli utenti di Twitter stiano contribuendo all’evoluzione dei dialetti regionali.
Il motivo principale è la caratteristica dei Tweet, devono essere molto brevi e hanno un massimo di 140 caratteri, questo favorisce lo sviluppo dei nuovi dialetti. Per riuscire ad esprimere un concetto in 140 caratteri gli utenti usano la fantasia per abbreviare le parole e queste abbreviazioni cambiano in maniera sostanziale da regione a regione. In questo senso nasce anche un altro problema, infatti questa caratteristica riesce a stabilire anche in modo approssimativo dove abitano gli utenti del social network, anche se quest’ultimo non è intenzionato ad usufruire delle applicazioni di geolocalizzazione di cui il Web e ricco. Il problema è ancora una volta la violazione della privacy, come proteggiamo la nostra privacy su Twitter?
I ricercatori di Pittsburgh, per riuscire a capire le variazioni linguistiche a livello regionale, hanno preso un archivio di messaggi inviati nella prima settimana di marzo del 2010 in modo da riuscire ad analizzarli. Stiamo parlando di circa il 15% dei Tweet che sono stati inviati in quei giorni, successivamente hanno applicato dei filtri in modo tale da escludere tutti i messaggi pubblicitari e lo spam. Quindi sono stati presi in considerazione soltanto i messaggi contenenti coordinate geografiche, ovvero che sono stati inviati da smartphone e altri dispositivi dotati di GPS, e tutti gli utenti che avessero postato sul social network almeno 20 volte durante il periodo preso in considerazione. Un’altra caratteristica importante è che i Tweet avrebbero dovuto avere un seguito o comunque un numero di seguaci non superiore ai mille utenti. Una volta terminata la scrematura avevano a disposizione circa 9.500 utenti per un totale di circa 380.00 messaggi ovvero 4,7 milioni di parole.
I ricercatori per poter analizzare i dialetti hanno raccolto tutti i Tweet do mogni singolo utente in un unico documento e successivamente hanno rimosso dai post tutte le parole che venivano utilizzate meno di 40 volte, su Twitter non si scrivono solo simboli e caratteri speciali ma si inventano anche nuovi termini dialettali. Alla fine dell’esperimento il team aveva raccolto un vocabolario di 5.216 termi di cui 1.332 sono stati classificati come dialetti regionali, ed erano comunque totalmente sconosciuti ai dizionari utilizzati dal programma di controllo dello spelling. Anche l’inglese secondo alcuni studi sembra essere particolarmente reattiva alla balcanizzazione lessicale che viene inserita dai nuovi media. Le differenze linguistiche possono essere molto lievi come ad esempio per il termine ‘cool’, che diventa ‘koo’ nel nord della California e ‘coo’ a sud, o anche molto più marcate.
Uno de fattori principali di questa ricerca è la possibilità di scoprire la posizione geografica degli utenti proprio dal modo in cui vengono scritti i Tweet, senza necessariamente utilizzare le coordinate geografiche inviate dai dispositivi GPS o contenute nei ‘geotag’. I ricercatori hanno inoltre costruito delle vere e proprie mappe di parole in modo da dimostrare il funzionamento di Twitter proprio come localizzatore geografico, evidenziando in particolar modo 13 aree regionali. Con un margine di errore di circa 300 miglia si può stabilire attraverso questa mappa, se viene combinata ad argomenti popolari, il luogo di origine o di residenza dell’utente stesso prendendo in considerazione soltanto i suoi post. L’analisi non solo offre la possibilità di studiare l’evoluzione dei dialetti ma diventa anche uno strumento per riuscire a capire informazioni personali degli utenti. I ricercatori sottolineano proprio questo problema, in sintesi le mappe di parole potrebbero essere utilizzate per affiancare le applicazioni di geolocalizzazione allo scopo di scoprire sempre più informazione sui propri utenti.
sab 15/01/2011 da Tiziana Ceccarelli

















