Soso, als Trainingsmaterial für Copilot dienten also Github-Repositories, die da gar nicht rein gehören? Ist da jemand wirklich überrascht? Die Warnung ist ja noch die Krönung.
Wer in der Vergangenheit ein privates Github-Repository geplant oder unabsichtlich öffentlich zugänglich gemacht hat, sollte darin enthaltene vertrauliche Inhalte als kompromittiert betrachten und entsprechende Maßnahmen einleiten – selbst wenn die Daten nur für kurze Zeit offengelegt wurden.
Also zuerst einmal gilt das immer, wenn du ein Repository bei Github hostest. Da werden Tools wie Dependabot draufgejagt, egal ob das Repo öffentlich ist oder nicht. Was da im Hintergrund noch so läuft, bei einer Closed-Source-Plattform? Du weißt es nicht. Das gilt übrigens für alle Repository-Hosting-Dienste, die du nicht selbst verwaltest.
Wie Sicherheitsforscher von Lasso herausgefunden haben, sind die Crawler von KI-Tools wie Microsofts Copilot sehr schnell darin, diese Daten einzusammeln.
Die Behauptung, dass es sich bei den Copilot-Trainingsmaterial-Repositories nur um welche handelt, die mehr oder weniger „versehentlich“ öffentlich waren, ist ja mal komplett hanebüchener Quark.
Wenn ein Repo nur Sekunden öffentlich ist, gilt zwar grundsätzlich trotzdem, dass die Daten kompromittiert sind. Wer mir allerdings erzählt, dass sofort der Copilot-Trainingscrawler losrennt, hat die Kontrolle verloren.
Ich kann mir gut vorstellen, dass der Lern-Job eher so ein dauerlaufender „nimm alle Repos, aber markier die private Repo-Infos als ’lerne davon, aber spuck die Ähnlichkeiten bloß nicht aus!’“ Crawler ist.
Wer glaubt, dass sein Code bei Github nicht für die Trainings verwendet werden, glaubt wahrscheinlich auch, dass Copilot eine künstliche Intelligenz sei.
Für Betroffene ist das insofern ein Problem, als dass gerade in privaten Github-Repositories nicht selten auch schützenswerte Informationen wie geistiges Eigentum, Zugangsschlüssel, Tokens und andere vertrauliche Unternehmensdaten enthalten sind.
Ääääähm, 1997 hat angerufen, die wollen ihre Sicherheitspolitik zurück. Egal ob in Self-Hosted- oder Managed-Hosting-Umgebungen: diese Informationen gehören nicht in Repositories. Sie sind immer kompromittiert, da jeder Entwickler damit an alles heran kommt. Auch nach dem Ausscheiden aus dem Unternehmen.
Aber ach! Wir schreiben inzwischen auf Kaffee-Becher, dass der Inhalt heiß sein könnte. Das betreute Denken gehört inzwischen zum Alltag.
Kommentare
Noch keine Kommentare
Kommentar schreiben
Jeder Kommentar wird vor der Veröffentlichung überprüft.