Kurznachrichtendienst Twitter: US-Kongressbibliothek archiviert Milliarden von Tweets

Wie die öffentliche Bibliothek des US-Kongresses – die Library of Congress – bekannt gab, werden seit dem Monat Februar 2011 alle Kurznachrichten der Plattform Twitter gesammelt. Bis Ende 2012 sind bereits über 170 Milliarden dieser maximal 140 Zeichen langen Kurznachrichten, die sogenannten Tweets, archiviert worden.

Der Kurznachrichtendienst Twitter gewährt der Library of Congress bereits seit 2010 Zugang auf seine gespeicherten Nachrichten und Mitteilungen. Zwischen 2006 und 2010 waren etwa 21 Milliarden Tweets im Archiv bei Twitter abgespeichert. Ab 2010 bis Ende 2012 ist die Zahl der Tweets stark angestiegen: Das Archiv enthält mittlerweile die achtfache Menge – etwa 170 Milliarden Kurznachrichten. Das entspricht einem Datenvolumen von rund 133 Terabyte – und täglich kommen um die 500 Millionen neue Tweets dazu.

Die Library of Congress hat in einem Whitepaper ausführlich über dieses umfangreiche Archivierungsprojekt berichtet. In diesem Bericht werden die Probleme dieses Projektes ebenso, wie auch die zukünftigen Nutzungsmöglichkeiten dieses Kurznachrichtenarchivs dargestellt. Die archivierten Tweets sollen nur Wissenschaftlern im Rahmen ihrer nicht-kommerziellen Forschungsarbeiten zugänglich gemacht werden.

Seit der Ankündigung der Archivierung der Twitter-Kurznachrichten hat die Library of Congress nach eigener Aussage ungefähr 400 Anfragen von Forschern aus aller Welt erhalten, die für ihre Forschungen auf das umfangreiche Archiv zugreifen wollen. Laut Whitepaper reichen die eingereichten Fragen dazu vom Impfverhalten der Bevölkerung über den Journalismus von Bürgern bis hin zur Auswertung von Prognosen der Börsenkurse. Einige Forscher möchten stark frequentierte Twitter-Themen, die durch die sogenannten Hashtags gekennzeichnet sind, auswerten, um so statistisch valide Ergebnisse zu erzielen.

Man darf sehr gespannt sein, welche Forschungsergebnisse auf Basis der Milliarden abgespeicherter Tweets erzielt werden und ob die weiter rasch zunehmende Datenmenge in Zukunft weiterhin sinnvoll archiviert werden kann.

Bild: © Gerd Altmann/Shapes:AllSilhouettes.com / PIXELIO