Zum Inhalt springen
KI Agenten

KI-Agenten Freelance: Was der Remote Labor Index zeigt

Ein neuer Benchmark misst, wie oft KI-Agenten bezahlte Profi-Aufträge in akzeptabler Qualität abliefern. Die Zahlen sind ernüchternder, als die Schlagzeilen vermuten lassen.

Lukas GörögLukas Görög4 Min. Lesezeit
KI-Agenten Freelance: Was der Remote Labor Index zeigt
KI-Agenten Freelance: Was der Remote Labor Index zeigt

KI-Agenten Freelance heißt in der Praxis: KI kann heute einzelne Arbeitsschritte übernehmen, komplette bezahlte Projekte aber nur in seltenen Ausnahmefällen. Der neue Remote Labor Index (RLI) von Scale AI und dem Center for AI Safety beziffert das genau. Der beste getestete Agent schließt gerade einmal 2,5 Prozent realer Freelance-Aufträge in einer Qualität ab, die ein Auftraggeber akzeptieren würde. Die zentrale Frage lautet also nicht, ob Agenten Ihr Team ersetzen, sondern welche Teilaufgaben sie zuverlässig abnehmen.

Die viel zitierte Schlagzeile, KI-Agenten erledigten „viermal mehr" Profi-Aufträge als vor acht Monaten, stammt aus einer Auswertung von The Decoder. Sie beschreibt einen echten Fortschritt. Nur beginnt dieser Anstieg auf sehr niedrigem Niveau. Vier mal fast nichts bleibt wenig.

Was misst der Remote Labor Index genau?

Der RLI prüft 240 reale, bereits bezahlte Remote-Freelance-Projekte aus über 20 Domains, darunter Produkt- und Grafikdesign, Game-Entwicklung, Audio, Video, Marketing, Datenaufbereitung und Recherche. Jede Aufgabe kommt mit dem echten Briefing, den Originaldateien und dem vom Kunden akzeptierten menschlichen Ergebnis. Insgesamt stecken darin mehr als 140.000 US-Dollar bezahlter Arbeit.

Der Aufbau macht den Benchmark ungewöhnlich hart. Statt eng umrissener Testfragen bewerten Prüfer laut dem RLI-Paper auf arXiv das komplette Ergebnis eines Agenten gegen die menschliche Referenz. Die Leitfrage: Würde ein vernünftiger Auftraggeber diese Abgabe annehmen und bezahlen? Genau daran scheitern die Systeme.

Warum die zentrale Kennzahl Automation Rate heißt

Die Automation Rate misst den Anteil der Projekte, die ein Agent auf akzeptablem Niveau vollständig abschließt. Nicht „hat etwas geliefert", sondern „hätte den Auftrag verdient". Laut Scale AIs Veröffentlichung zum RLI liegt die Leistung aller getesteten Agenten unter 3 Prozent. Der Spitzenreiter Manus schafft 6 von 240 Projekten.

Woran scheitern KI-Agenten bei echten Aufträgen?

KI-Agenten scheitern selten daran, überhaupt etwas zu produzieren. Sie scheitern an Qualität, Vollständigkeit und Konsistenz. Die Fehleranalyse der Studie ordnet die gescheiterten Versuche klar zu, und das Muster ist aufschlussreich für jeden, der Agenten produktiv einsetzen will.

  • 45,6 Prozent der Fehlversuche: ausreichend vollständig, aber nicht auf Profiniveau. Die Abgabe existiert, taugt aber nicht.
  • 35,7 Prozent: unvollständige oder abgebrochene Ergebnisse, etwa zu kurze Videos, fehlende Assets oder leere Ordner.
  • 17,6 Prozent: technische Probleme, korrupte oder nicht nutzbare Dateien.
  • 14,8 Prozent: Inkonsistenzen zwischen Projektteilen, zum Beispiel visuelle Brüche über mehrere Deliverables hinweg.

Zusammengenommen zeigt das eine Schwäche, die in Demos kaum auffällt: das Prüfen und Korrigieren. Agenten sind gut im Generieren. Sie sind schlecht darin, das eigene Ergebnis anzuschauen, zu bewerten und über mehrere Dateien und Tools hinweg sauber zusammenzuhalten. Eine Substack-Analyse auf Basis von rund 400 RLI-Bewertungen fasst die Lücke als Problem beim „Schauen, Prüfen, Korrigieren" zusammen.

Welche Aufgaben laufen heute schon zuverlässig?

Die wenigen Erfolge konzentrieren sich auf klar abgegrenzte, generative Aufgaben. Wo Ein- und Ausgabe eng definiert sind und keine mehrstufige Koordination nötig ist, liefern Agenten brauchbare Ergebnisse. Laut der RLI-Auswertung und der Einordnung im Sourcebae-Blog gehören dazu:

  • Audioerzeugung und einfache Musikkomposition.
  • Bildgenerierung und schlichte Grafikdesigns wie Logos.
  • Daten-Scraping und einfache Datenaufbereitung.
  • relativ einfaches Schreiben und Content-Erstellung.

Aus meiner Beratungspraxis deckt sich das mit dem, was in Projekten wirklich funktioniert. Ein Agent, der aus einem klaren Briefing zehn Bildvarianten liefert oder eine Datenquelle strukturiert, spart real Zeit. Ein Agent, der eigenständig ein mehrteiliges Designprojekt mit Freigabeschleifen abwickelt, produziert Nacharbeit.

Wenn Sie an diesem Punkt konkret werden wollen, welche Ihrer wiederkehrenden Aufgaben sich für solche eng zugeschnittenen Agenten eignen, hilft ein strukturierter Blick auf Ihre Prozesse mehr als die nächste Lizenz. Genau dafür ist ein Praxisworkshop, in dem Sie KI-Agenten an Ihren eigenen Abläufen aufbauen und die Grenzen der Automatisierung testen, sinnvoll. Er lohnt sich, wenn Sie Aufgaben mit hoher Wiederholung und messbarem Ergebnis haben. Wer nur ein einzelnes Tool ausprobieren will, braucht ihn nicht.

Sind die 16,10 Prozent von Claude Fable ein Durchbruch?

Nein, zumindest nicht als offizieller RLI-Befund. Im Umlauf ist eine Angabe, wonach „Claude Fable" 16,10 Prozent Remote Labor Automation erreiche, doppelt so viel wie Opus. Für diese Zahl gibt es aktuell keine verifizierbare Veröffentlichung, die sie als Teil des offiziellen Remote Labor Index bestätigt. Behandeln Sie sie als externe oder experimentelle Zusatzmessung, nicht als Studienergebnis.

Das ist kein Detail, sondern Methodik. Der offizielle RLI stammt von Scale AI und dem Center for AI Safety und weist alle getesteten Agenten unter 3 Prozent aus. Eine einzelne Grafik mit einem Vielfachen dieses Werts sollte man erst dann ernst nehmen, wenn Testaufbau, Datenbasis und Prüfer benannt sind. Wie sensibel gerade die Fable-Modelle in der Bewertung sind, zeigt auch unsere Einordnung dazu, wie robust die Guardrails von Claude Fable 5 wirklich sind.

Mein Rat als Berater bleibt derselbe wie bei jedem Spitzenwert: Benchmark-Bestwerte sind ein Hinweis, kein Beweis. Testen Sie an Ihren eigenen Fällen, bevor Sie eine Roadmap darauf aufbauen.

Was bedeutet das für Ihr Team?

Kurz: planen Sie mit Augmentation, nicht mit Ersatz. Die Studienautoren stufen KI-Agenten ausdrücklich als Werkzeug für einzelne Arbeitsschritte ein, nicht als verlässliche End-to-End-Lösung für komplexe Projekte. Für Ihr Team heißt das, Aufgaben aufzuteilen statt sie komplett abzugeben.

  • Zerlegen Sie Projekte in Teilschritte und identifizieren Sie die generativen, klar umrissenen Anteile.
  • Geben Sie genau diese Anteile an Agenten, behalten Sie Prüfung, Freigabe und Koordination beim Menschen.
  • Messen Sie das Ergebnis an Ihrem eigenen Qualitätsmaßstab, nicht am Marketing-Prozentwert.

Wer diesen Schritt vom Pilot zum verlässlichen Betrieb sauber gehen will, findet in unserem Überblick zur KI-Strategie im Unternehmen zwischen Pilot und Skalierung das passende Raster.

Zurück zur Ausgangsfrage: Erledigen KI-Agenten heute Freelance-Aufträge? Für einzelne, gut abgegrenzte Aufgaben zunehmend ja. Für ganze Projekte mit Freigabeschleifen, Dateimanagement und Konsistenz über mehrere Teile hinweg in 97,5 Prozent der Fälle nein. Die entscheidende Arbeit der nächsten Monate liegt deshalb nicht bei der Technik, sondern beim Zuschnitt der Aufgaben, die Sie ihr übergeben.

Häufige Fragen

Bedeuten die 2,5 Prozent, dass KI-Agenten für meine Freelance-Arbeit noch irrelevant sind?

Nein. Die 2,5 Prozent beziehen sich auf komplette, abnahmefähige Projekte. Einzelne Arbeitsschritte übernehmen Agenten heute deutlich zuverlässiger. Sinnvoll ist es, Aufträge in Teilaufgaben zu zerlegen und zu prüfen, welche davon sich automatisieren lassen, statt auf die vollständige Übernahme ganzer Projekte zu setzen.

Warum ist der Remote Labor Index härter als andere KI-Benchmarks?

Der RLI testet nicht eng umrissene Fragen, sondern 240 reale, bereits bezahlte Freelance-Projekte mit Originalbriefing und Kundendateien. Prüfer bewerten das komplette Ergebnis gegen die menschliche Referenz und fragen: Würde ein vernünftiger Auftraggeber diese Abgabe annehmen und bezahlen? Diese praxisnahe Vollständigkeitsprüfung lassen die meisten Systeme scheitern.

Welche Aufgaben sollte ich zuerst an einen KI-Agenten übergeben?

Beginnen Sie mit klar abgegrenzten, wiederholbaren Teilschritten, bei denen ein Fehler schnell erkennbar ist – etwa Datenaufbereitung, erste Entwürfe oder Recherche. Behalten Sie die finale Qualitätskontrolle beim Menschen. Der RLI zeigt: Agenten liefern zwar etwas, treffen aber selten das abnahmefähige Endergebnis. Menschliche Prüfung bleibt entscheidend.

Die Schlagzeile spricht von „viermal mehr" – ist das nicht ein enormer Fortschritt?

Der Zuwachs ist real, startet laut The-Decoder-Auswertung aber auf sehr niedrigem Niveau. Viermal fast nichts bleibt wenig. Die Verbesserung binnen acht Monaten zeigt Dynamik, doch der beste getestete Agent schließt weiterhin nur 2,5 Prozent der Projekte abnahmefähig ab. Der Trend ist beachtenswert, das absolute Niveau bleibt gering.

Lohnt es sich für mein Team schon, in KI-Agenten zu investieren?

Ja, wenn Sie realistisch planen. Erwarten Sie keinen Ersatz ganzer Rollen, sondern Entlastung bei Teilaufgaben. Entscheidend ist, den Piloten sauber aufzusetzen, Ergebnisse zu messen und erst dann zu skalieren. So vermeiden Sie enttäuschte Erwartungen und finden die Aufgaben, bei denen Agenten heute schon Zeit sparen.

Wie könnte sich die Automation Rate künftig entwickeln?

Der RLI liefert eine Momentaufnahme und einen wiederholbaren Maßstab. Steigt die Automation Rate bei folgenden Messungen weiter, lässt sich echter Fortschritt belegen statt nur behaupten. Da die Aufgaben reale, bezahlte Projekte abbilden, ist der Index ein guter Frühindikator dafür, welche Freelance-Bereiche zuerst unter Automatisierungsdruck geraten.

0 Kommentare
Teilen

Diskussion

Kommentare werden vor der Veröffentlichung moderiert.

Noch keine Kommentare. Schreiben Sie den ersten.