Web Scraping: Daten sind das neue Öl

Das digitale Krümelmonster

Trump im Cäsarenwahn? Dieses Heft klärt auf! Er ist der Mann, der die Welt spaltet wie kaum ein anderer: Donald J. Trump. Milliardär, Medienstar, Präsident, Populist, aber auch zigfach vertreten in den Epstein-Akten, Neo-Imperialist und eine Person, die rücksichtslos persönliche und politische Interessen vermengt. Oder ist er noch etwas ganz anderes? In unserem brandneuen Heft „Trump: Genie oder Gangster“ gehen wir der Frage nach, die derzeit unzählige Menschen umtreibt: Ist Donald Trump ein politisches Genie der Realpolitik – oder ein skrupelloser Gangster, der das Völkerrecht verachtet? Mit Analysen zu Venezuela, Iran, Grönland und Taiwan sowie einem Interview mit dem belgischen Geopolitik-Experten Robert Steuckers. HIER bestellen!

Bei vielen Anglizismen kann man getrost auf Durchzug schalten, aber diesen Begriff lohnt es sich zu merken. Web Scraping bezeichnet das automatisierte Auslesen von Informationen aus Webseiten. Computerprogramme rufen Seiten auf, lesen Texte, Preise oder Strukturen aus und speichern sie weiterverwertbar ab. Der englische Begriff „to scrape“ bedeutet so viel wie schaben oder abkratzen (wie in „Wolkenkratzer“: „sky scraper“). Web Scraping ist längst zu einem Machtinstrument der digitalen Ökonomie geworden. Nahezu alle großen Konzerne und Finanzakteure nutzen es. Der Vermögensverwalter BlackRock wertet Immobilienportale und Stellenbörsen aus, um frühzeitig makroökonomische Trends zu erkennen.

Amazon überwacht die Preise der Konkurrenz nahezu in Echtzeit und verarbeitet dafür Milliarden automatisierter Anfragen pro Tag. Meta sammelt öffentlich sichtbare Beiträge aus sozialen Netzwerken, um Nutzerprofile zu verfeinern und Werbung präziser auszuspielen. An den Finanzmärkten greifen Akteure wie Citadel oder Renaissance Technologies parallel auf tausende Nachrichtenquellen, Unternehmensmeldungen und öffentliche Register zu, um minimale Informationsvorsprünge in Gewinne umzusetzen. Aus vielen Einzelinformationen entstehen verdichtete Bilder von Märkten, Gesellschaften und Verhaltensmustern.

Hart an der Grenze des Erlaubten

Der Markt für Web Scraping ist entsprechend professionalisiert. Anbieter wie Bright Data verkaufen Zugänge zu riesigen Netzwerken technischer Identitäten, darunter sogenannte „Residential IPs“ (Internetadressen realer Privatanschlüsse), mit denen Zugriffsbeschränkungen umgangen werden können. Solche Dienste ermöglichen es, Schutzmechanismen wie CAPTCHAs (automatisierte Tests zur Unterscheidung von Mensch und Maschine) zu umgehen. Gleichzeitig existieren No-Code-Werkzeuge (Programme ohne Programmierkenntnisse) wie Octoparse, mit denen sich per Mausklick Webseiten auslesen und direkt in Excel-Tabellen übertragen lassen.

Mit dem Aufstieg der KI hat Web Scraping weiter an Bedeutung gewonnen. KI-Systeme benötigen große Mengen an Daten, insbesondere Texte und Zahlen aus frei zugänglichen Quellen. Web Scraping liefert dieses Rohmaterial. Die eigentliche Verarbeitung erfolgt anschließend durch KI-Modelle. Neue browserbasierte KI-Werkzeuge können Webseiten selbstständig öffnen, durchklicken, Inhalte zählen oder vergleichen. Diese sogenannten agentischen Systeme (agentic AI, selbstständig handelnde KI) verschieben die Grenze zwischen Recherche und Automatisierung weiter.

Rechtlich bewegt sich Web Scraping in Grauzonen. In den USA stärkte 2022 der Rechtsstreit „hiQ Labs vs.LinkedIn“ das automatisierte Auslesen öffentlich zugänglicher Daten: Gerichte sahen darin keinen grundsätzlich unbefugten Zugriff im Sinne des Anti-Hacker-Gesetzes CFAA (Computer Fraud and Abuse Act). In der Europäischen Union nennt der AI Act Web Scraping „Hochrisiko“-Anwendung, wenn es etwa zum Aufbau biometrischer Datenbanken oder stark profilbasierter Systeme verwendet wird.

Für Betreiber von Webseiten bleibt oft nur der Rückgriff auf Allgemeine Geschäftsbedingungen (AGBs). Dort finden sich zunehmend Klauseln wie „Automatisiertes Auslesen der Inhalte ist untersagt“. Die Umgehung technischer Schutzmaßnahmen in Verbindung mit solchen Klauseln kann rechtlich als Vertragsverletzung gewertet werden. Ob diese Mittel gegen globale Datenakteure tatsächlich wirksam sind, ist jedoch fraglich.

Rasant steigender Energieverbrauch

Der technische Unterbau all dieser Aktivitäten sind große Rechenzentren, in denen Daten gespeichert, verarbeitet und für KI-Systeme bereitgestellt werden. Ihr Energieverbrauch wächst in rasantem Tempo, vor allem durch Cloud-Dienste und rechenintensive KI-Anwendungen. Allein für die Kühlung gehen die Schätzungen bis zu 40 Prozent des Gesamtstromverbrauchs, weswegen Länder wie Island zunehmend beliebtere Standorte sind. Oder Grönland…

Dieser Trend bestätigt den Verdacht, dass die „grüne“ Energiewende, die diesen Anforderungen niemals gerecht werden kann, von den Betreibern des digitalen Resets vorsätzlich zur Zuspitzung der Krisen vorangetrieben wird. Web Scraping hat daran einen Anteil, da die großen Akteure und Konzerne Mitläufern des Systems gezielt Teilhabe an der schönen neuen Big-Data-Welt gewähren können – gegen korrektes Verhalten.

■ Jochen Stappenbeck

Abonniert unseren Telegram-Kanal https://t.me/aufgewachtonline

Abonniert unseren X-Kanal: https://x.com/AufgewachtS

Kostenlose AUFGEWACHT-Leseprobe herunterladen: https://aufgewacht-online.de/leseprobe/

Die Deutsche Stimme

Web Scraping: Daten sind das neue Öl

Hart an der Grenze des Erlaubten

Rasant steigender Energieverbrauch

Mehr Meldungen

„Sächsische Separatisten“: U-Haft wegen Parteiausschlussverfahren verlängert!

Globale Erwärmung erreicht Kuba – erstmals Frost!

AfD Sachsen-Anhalt: Vetternaffäre – was ist dran?

Abonnieren Sie die Stimme des Widerstands