Sei un credente nell'idea che una volta che qualcosa è pubblicato su Internet, è pubblicato per sempre? Bene, oggi stiamo per dissipare quel mito.
La verità è che in molti casi è del tutto possibile sradicare le informazioni da Internet. Certo, c'è una registrazione di pagine web che sono state cancellate se cerchi la Wayback Machine, giusto? Sì, assolutamente. Sulla Wayback Machine ci sono record di pagine web che risalgono a molti anni - pagine che non troverete con una ricerca su Google perché la pagina web non esiste più. Qualcuno l'ha cancellato, o il sito web è stato chiuso.
Quindi, non c'è modo di aggirarlo, giusto? Le informazioni saranno incise per sempre nella pietra di Internet, lì per generazioni per vedere? Bene, non esattamente.
La verità è che mentre potrebbe essere difficile o impossibile cancellare importanti notizie che si sono diffuse da un sito Web o blog ad un altro come un virus, è in realtà abbastanza facile sradicare completamente una pagina Web o più pagine Web da tutti i record di esistenza - per rimuovere quella pagina sia per i motori di ricerca che per la Wayback Machine La nuova Wayback Machine ti fa tornare visivamente nel tempo di Internet La nuova Wayback Machine ti fa tornare visivamente nel tempo di Internet Sembra che dal momento del lancio della Wayback Machine in 2001, i proprietari del sito hanno deciso di buttare via il back-end basato su Alexa e riprogettarlo con il proprio codice open source. Dopo aver condotto i test con il ... Per saperne di più. Ovviamente c'è un problema, ma ci arriveremo.
3 modi per rimuovere le pagine del blog dalla rete
Il primo metodo è quello utilizzato dalla maggior parte dei proprietari di siti Web, perché non lo sanno meglio, semplicemente eliminando le pagine Web. Ciò potrebbe accadere perché ti sei reso conto di avere contenuti duplicati sul tuo sito o perché hai una pagina che non desideri visualizzare nei risultati di ricerca.
Semplicemente Elimina la Pagina
Il problema con l'eliminazione completa delle pagine dal tuo sito web è che, poiché hai già stabilito la pagina sulla rete, è probabile che ci siano collegamenti dal tuo sito e link esterni da altri siti a quella particolare pagina. Quando lo elimini, Google riconosce immediatamente quella pagina come pagina mancante.
Pertanto, eliminando la tua pagina non solo hai creato un problema con gli errori di scansione "Non trovato", ma hai anche creato un problema per chiunque si sia mai collegato alla pagina. Di solito, gli utenti che raggiungono il tuo sito da uno di questi link esterni vedranno la tua pagina 404, che non è un grosso problema, se utilizzi qualcosa come il codice 404 personalizzato di Google per offrire agli utenti suggerimenti o alternative utili. Ma, penseresti che ci potrebbero essere modi più eleganti di cancellare le pagine dai risultati di ricerca senza dare il via a tutti questi 404 per i link in entrata esistenti, giusto?
Bene, ci sono.
Rimuovi una pagina dai risultati di ricerca di Google
Prima di tutto, dovresti capire che se la pagina web che desideri rimuovere dai risultati di ricerca di Google non è una pagina del tuo sito, allora non sei fortunato se non ci sono motivi legali o se il sito ha pubblicato i tuoi informazioni online senza il tuo permesso. In questo caso, utilizza lo strumento per la risoluzione dei problemi di rimozione di Google per inviare una richiesta di rimozione della pagina dai risultati di ricerca. Se hai un caso valido, potresti riscontrare un certo successo rimuovendo la pagina - naturalmente potresti avere un successo ancora maggiore semplicemente contattando il proprietario del sito web Come rimuovere le false informazioni personali su Internet Come rimuovere le false informazioni personali su Internet Ulteriori informazioni come ho descritto come fare nel 2009.
Ora, se la pagina che desideri rimuovere dai risultati di ricerca è sul tuo sito, sei fortunato. Tutto ciò che devi fare è creare un file robots.txt e assicurarti di aver disabilitato la pagina specifica che non vuoi nei risultati della ricerca, o l'intera directory con i contenuti che non vuoi indicizzati. Ecco come appare una pagina singola.
User-agent: * Disallow: /my-deleted-article-that-i-want-removed.html
Puoi bloccare i bot dalla scansione di intere directory del tuo sito come segue.
User-agent: * Disallow: / content-about-personal-stuff /
Google ha una pagina di supporto eccellente che può aiutarti a creare un file robots.txt se non ne hai mai creato uno prima. Questo funziona molto bene, come ho spiegato di recente in un articolo sulla strutturazione delle offerte di syndication. Come negoziare gli accordi di sindacazione e proteggere i tuoi risultati di ricerca. Come negoziare gli accordi di sindacazione e proteggere i tuoi risultati di ricerca Il syndication è di gran moda in questi giorni. Ma improvvisamente potresti scoprire che il partner di syndication è elencato più in alto di te nei risultati di ricerca per una storia che hai scritto in origine! Proteggi le tue classifiche di ricerca. Leggi di più in modo che non ti facciano del male (chiedendo ai partner di syndication di non consentire l'indicizzazione delle loro pagine in cui sei in syndication). Una volta che il mio partner di syndication ha accettato di farlo, le pagine che sono state duplicate dal mio blog sono completamente scomparse dalle liste di ricerca.
Solo il sito principale si trova al terzo posto per la pagina in cui sono elencati i nostri titoli, ma il mio blog è ora elencato sia nel primo che nel secondo; qualcosa che sarebbe stato quasi impossibile se un sito Web con più autorità avesse lasciato la pagina duplicata indicizzata.
Ciò che molte persone non si rendono conto è che è anche possibile farlo con l'Internet Archive (la Wayback Machine). Ecco le linee che devi aggiungere al tuo file robots.txt per farlo accadere.
User-agent: ia_archiver Disallow: / sample-category /
In questo esempio, sto dicendo a Internet Archive di rimuovere qualsiasi cosa nella sottodirectory della categoria campione sul mio sito dalla Wayback Machine. L'archivio Internet spiega come eseguire questa operazione nella relativa pagina della guida di esclusione. Questo è anche il caso in cui spiegano che "L'Internet Archive non è interessato ad offrire l'accesso a siti Web o altri documenti Internet i cui autori non vogliono il loro materiale nella raccolta".
Ciò contrasta con la convinzione comune che qualsiasi cosa pubblicata su Internet venga trascinata nell'archivio per l'eternità. No: i webmaster che possiedono il contenuto possono specificamente rimuovere il contenuto dall'archivio utilizzando l'approccio robots.txt.
Rimuovere una singola pagina con meta tag
Se hai solo alcune pagine singole che desideri rimuovere dai risultati della Ricerca Google, in realtà non devi utilizzare l'approccio robots.txt, puoi semplicemente aggiungere il meta tag "robots" corretto alle singole pagine, e dire ai robot di non indicizzare o seguire i collegamenti sull'intera pagina.
Potresti utilizzare la meta "robot" qui sopra per impedire ai robot di indicizzare la pagina, oppure potresti dire al robot di Google di non indicizzarlo in modo che la pagina venga rimossa solo dai risultati di ricerca di Google e altri robot di ricerca possano comunque accedere al contenuto della pagina.
Sta a te decidere esattamente come gestire i robot con la pagina e se la pagina debba essere inclusa o meno. Per poche pagine singole, questo potrebbe essere l'approccio migliore. Per rimuovere un'intera directory di contenuti, vai con il metodo robots.txt.
L'idea di "rimuovere" il contenuto
Questo tipo di stravolge l'intera nozione di "eliminazione di contenuti da Internet". Tecnicamente, se rimuovi tutti i tuoi link a una pagina del tuo sito e la rimuovi da Ricerca Google e da Internet Archive utilizzando la tecnica robots.txt, la pagina è a tutti gli effetti "eliminata" da Internet. La cosa bella però è che se ci sono collegamenti esistenti alla pagina, quei collegamenti funzioneranno ancora e non innescherete 404 errori per quei visitatori.
È un approccio più "gentile" alla rimozione di contenuti da Internet senza compromettere completamente la popolarità del collegamento esistente del tuo sito su Internet. Alla fine, come gestisci quali contenuti vengono raccolti dai motori di ricerca e l'Archivio Internet spetta a te, ma ricorda sempre che, nonostante ciò che la gente dice sulla durata di cose che vengono pubblicate online, è davvero completamente sotto il tuo controllo .