• Frage: Wie werden Datenmengen für die Entwicklung und das Training von KI‘s in der Regel beschafft? Werden diese über uns auch ohne unser Wissen beschafft?

    Frage gestellt feed28fry am 27 Sep 2024.
    • Foto: Karsten Weber

      Karsten Weber Beantwortet am 27 Sep 2024:


      Für ChatGPT hat Open AI unzählige Texte, die im Internet zugänglich waren, abgegrast und als Trainingsdaten genutzt. Dabei wurden in vielen Fällen tatsächlich auch Texte genutzt, deren Besitzer*innen nicht gefragt wurden und auch nicht bezahlt wurden. Meta (als das Unternehmen hinter Facebook und WhatsApp) macht das mit den Posts der Nutzer*innen auf Facebook. Alle Eingaben, die man bei ChatGPT in der kostenlosen Version macht, werden gespeichert — DeepL macht das mit den Texten, die man zur Übersetzung eingibt. Also ist die Antwort auf die Frage: Ja, das kommt vor und nicht einmal so selten.

    • Foto: Clarissa Elisabeth Hohenwalde

      Clarissa Elisabeth Hohenwalde Beantwortet am 27 Sep 2024:


      Hallo @feed28fry, hier gibt es mehrere Methoden:

      1. Web Scraping: Beim Web Scraping werden öffentlich zugängliche Webseiten automatisiert durchsucht und relevante Daten extrahiert. Hierfür wird selten die Erlaubnis des Websitenbetreibers eingeholt. Zu öffentlich sichtbaren Daten zählen auch Inhalte aus sozialen Medien, d.h. wenn du z.B. ein öffentlich sichtbares Profil bei Insta oder Tiktok hat, könnten deine Posts/Videos bei ChatGPT gelandet sein.
      2. Kauf von Datensätzen: Unternehmen kaufen auch Datensätze von Drittanbietern ein. OpenAI (die Firma hinter ChatGPT) hat z.B. eine Kooperation mit verschiedenen Zeitungen und darf auf deren Archive zugreifen. Zu solchen gekauften Daten zählen aber z.B. auch Nutzungsdaten von Apps. Oft hast du bei der Installation einer App zugestimmt, dass die App-Anbieter deine Daten einfach weiter verkaufen können. Eine besondere Info, dass deine Infos jetzt an OpenAI verkauft wurden, gibt es nicht.
      3. Benutzerinteraktionen
      Auch wenn du ChatGPT benutzt, werden Daten über dich gesammelt. Automatisch kann man z.B. über deine IP-Adresse deinen groben Standort ermitteln und herauslesen, welches Smartphone du besitzt. Auch das Klickverhalten und deine Suchanfragen werden gespeichert. Das wird zwar in den Datenschutzrichtlinien beschrieben, aber viele Benutzer*innen lesen diese Texte nicht.

Kommentare