KI-Agenten Freelance: Was der Remote Labor Index zeigt
Ein neuer Benchmark misst, wie oft KI-Agenten bezahlte Profi-Aufträge in akzeptabler Qualität abliefern. Die Zahlen sind ernüchternder, als die Schlagzeilen vermuten lassen.

KI-Agenten Freelance heißt in der Praxis: KI kann heute einzelne Arbeitsschritte übernehmen, komplette bezahlte Projekte aber nur in seltenen Ausnahmefällen. Der neue Remote Labor Index (RLI) von Scale AI und dem Center for AI Safety beziffert das genau. Der beste getestete Agent schließt gerade einmal 2,5 Prozent realer Freelance-Aufträge in einer Qualität ab, die ein Auftraggeber akzeptieren würde. Die zentrale Frage lautet also nicht, ob Agenten Ihr Team ersetzen, sondern welche Teilaufgaben sie zuverlässig abnehmen.
Die viel zitierte Schlagzeile, KI-Agenten erledigten „viermal mehr" Profi-Aufträge als vor acht Monaten, stammt aus einer Auswertung von The Decoder. Sie beschreibt einen echten Fortschritt. Nur beginnt dieser Anstieg auf sehr niedrigem Niveau. Vier mal fast nichts bleibt wenig.
Was misst der Remote Labor Index genau?
Der RLI prüft 240 reale, bereits bezahlte Remote-Freelance-Projekte aus über 20 Domains, darunter Produkt- und Grafikdesign, Game-Entwicklung, Audio, Video, Marketing, Datenaufbereitung und Recherche. Jede Aufgabe kommt mit dem echten Briefing, den Originaldateien und dem vom Kunden akzeptierten menschlichen Ergebnis. Insgesamt stecken darin mehr als 140.000 US-Dollar bezahlter Arbeit.
Der Aufbau macht den Benchmark ungewöhnlich hart. Statt eng umrissener Testfragen bewerten Prüfer laut dem RLI-Paper auf arXiv das komplette Ergebnis eines Agenten gegen die menschliche Referenz. Die Leitfrage: Würde ein vernünftiger Auftraggeber diese Abgabe annehmen und bezahlen? Genau daran scheitern die Systeme.
Warum die zentrale Kennzahl Automation Rate heißt
Die Automation Rate misst den Anteil der Projekte, die ein Agent auf akzeptablem Niveau vollständig abschließt. Nicht „hat etwas geliefert", sondern „hätte den Auftrag verdient". Laut Scale AIs Veröffentlichung zum RLI liegt die Leistung aller getesteten Agenten unter 3 Prozent. Der Spitzenreiter Manus schafft 6 von 240 Projekten.
Woran scheitern KI-Agenten bei echten Aufträgen?
KI-Agenten scheitern selten daran, überhaupt etwas zu produzieren. Sie scheitern an Qualität, Vollständigkeit und Konsistenz. Die Fehleranalyse der Studie ordnet die gescheiterten Versuche klar zu, und das Muster ist aufschlussreich für jeden, der Agenten produktiv einsetzen will.
- 45,6 Prozent der Fehlversuche: ausreichend vollständig, aber nicht auf Profiniveau. Die Abgabe existiert, taugt aber nicht.
- 35,7 Prozent: unvollständige oder abgebrochene Ergebnisse, etwa zu kurze Videos, fehlende Assets oder leere Ordner.
- 17,6 Prozent: technische Probleme, korrupte oder nicht nutzbare Dateien.
- 14,8 Prozent: Inkonsistenzen zwischen Projektteilen, zum Beispiel visuelle Brüche über mehrere Deliverables hinweg.
Zusammengenommen zeigt das eine Schwäche, die in Demos kaum auffällt: das Prüfen und Korrigieren. Agenten sind gut im Generieren. Sie sind schlecht darin, das eigene Ergebnis anzuschauen, zu bewerten und über mehrere Dateien und Tools hinweg sauber zusammenzuhalten. Eine Substack-Analyse auf Basis von rund 400 RLI-Bewertungen fasst die Lücke als Problem beim „Schauen, Prüfen, Korrigieren" zusammen.
Welche Aufgaben laufen heute schon zuverlässig?
Die wenigen Erfolge konzentrieren sich auf klar abgegrenzte, generative Aufgaben. Wo Ein- und Ausgabe eng definiert sind und keine mehrstufige Koordination nötig ist, liefern Agenten brauchbare Ergebnisse. Laut der RLI-Auswertung und der Einordnung im Sourcebae-Blog gehören dazu:
- Audioerzeugung und einfache Musikkomposition.
- Bildgenerierung und schlichte Grafikdesigns wie Logos.
- Daten-Scraping und einfache Datenaufbereitung.
- relativ einfaches Schreiben und Content-Erstellung.
Aus meiner Beratungspraxis deckt sich das mit dem, was in Projekten wirklich funktioniert. Ein Agent, der aus einem klaren Briefing zehn Bildvarianten liefert oder eine Datenquelle strukturiert, spart real Zeit. Ein Agent, der eigenständig ein mehrteiliges Designprojekt mit Freigabeschleifen abwickelt, produziert Nacharbeit.
Wenn Sie an diesem Punkt konkret werden wollen, welche Ihrer wiederkehrenden Aufgaben sich für solche eng zugeschnittenen Agenten eignen, hilft ein strukturierter Blick auf Ihre Prozesse mehr als die nächste Lizenz. Genau dafür ist ein Praxisworkshop, in dem Sie KI-Agenten an Ihren eigenen Abläufen aufbauen und die Grenzen der Automatisierung testen, sinnvoll. Er lohnt sich, wenn Sie Aufgaben mit hoher Wiederholung und messbarem Ergebnis haben. Wer nur ein einzelnes Tool ausprobieren will, braucht ihn nicht.
Sind die 16,10 Prozent von Claude Fable ein Durchbruch?
Nein, zumindest nicht als offizieller RLI-Befund. Im Umlauf ist eine Angabe, wonach „Claude Fable" 16,10 Prozent Remote Labor Automation erreiche, doppelt so viel wie Opus. Für diese Zahl gibt es aktuell keine verifizierbare Veröffentlichung, die sie als Teil des offiziellen Remote Labor Index bestätigt. Behandeln Sie sie als externe oder experimentelle Zusatzmessung, nicht als Studienergebnis.
Das ist kein Detail, sondern Methodik. Der offizielle RLI stammt von Scale AI und dem Center for AI Safety und weist alle getesteten Agenten unter 3 Prozent aus. Eine einzelne Grafik mit einem Vielfachen dieses Werts sollte man erst dann ernst nehmen, wenn Testaufbau, Datenbasis und Prüfer benannt sind. Wie sensibel gerade die Fable-Modelle in der Bewertung sind, zeigt auch unsere Einordnung dazu, wie robust die Guardrails von Claude Fable 5 wirklich sind.
Mein Rat als Berater bleibt derselbe wie bei jedem Spitzenwert: Benchmark-Bestwerte sind ein Hinweis, kein Beweis. Testen Sie an Ihren eigenen Fällen, bevor Sie eine Roadmap darauf aufbauen.
Was bedeutet das für Ihr Team?
Kurz: planen Sie mit Augmentation, nicht mit Ersatz. Die Studienautoren stufen KI-Agenten ausdrücklich als Werkzeug für einzelne Arbeitsschritte ein, nicht als verlässliche End-to-End-Lösung für komplexe Projekte. Für Ihr Team heißt das, Aufgaben aufzuteilen statt sie komplett abzugeben.
- Zerlegen Sie Projekte in Teilschritte und identifizieren Sie die generativen, klar umrissenen Anteile.
- Geben Sie genau diese Anteile an Agenten, behalten Sie Prüfung, Freigabe und Koordination beim Menschen.
- Messen Sie das Ergebnis an Ihrem eigenen Qualitätsmaßstab, nicht am Marketing-Prozentwert.
Wer diesen Schritt vom Pilot zum verlässlichen Betrieb sauber gehen will, findet in unserem Überblick zur KI-Strategie im Unternehmen zwischen Pilot und Skalierung das passende Raster.
Zurück zur Ausgangsfrage: Erledigen KI-Agenten heute Freelance-Aufträge? Für einzelne, gut abgegrenzte Aufgaben zunehmend ja. Für ganze Projekte mit Freigabeschleifen, Dateimanagement und Konsistenz über mehrere Teile hinweg in 97,5 Prozent der Fälle nein. Die entscheidende Arbeit der nächsten Monate liegt deshalb nicht bei der Technik, sondern beim Zuschnitt der Aufgaben, die Sie ihr übergeben.
Häufige Fragen
Bedeuten die 2,5 Prozent, dass KI-Agenten für meine Freelance-Arbeit noch irrelevant sind?
Nein. Die 2,5 Prozent beziehen sich auf komplette, abnahmefähige Projekte. Einzelne Arbeitsschritte übernehmen Agenten heute deutlich zuverlässiger. Sinnvoll ist es, Aufträge in Teilaufgaben zu zerlegen und zu prüfen, welche davon sich automatisieren lassen, statt auf die vollständige Übernahme ganzer Projekte zu setzen.
Warum ist der Remote Labor Index härter als andere KI-Benchmarks?
Der RLI testet nicht eng umrissene Fragen, sondern 240 reale, bereits bezahlte Freelance-Projekte mit Originalbriefing und Kundendateien. Prüfer bewerten das komplette Ergebnis gegen die menschliche Referenz und fragen: Würde ein vernünftiger Auftraggeber diese Abgabe annehmen und bezahlen? Diese praxisnahe Vollständigkeitsprüfung lassen die meisten Systeme scheitern.
Welche Aufgaben sollte ich zuerst an einen KI-Agenten übergeben?
Beginnen Sie mit klar abgegrenzten, wiederholbaren Teilschritten, bei denen ein Fehler schnell erkennbar ist – etwa Datenaufbereitung, erste Entwürfe oder Recherche. Behalten Sie die finale Qualitätskontrolle beim Menschen. Der RLI zeigt: Agenten liefern zwar etwas, treffen aber selten das abnahmefähige Endergebnis. Menschliche Prüfung bleibt entscheidend.
Die Schlagzeile spricht von „viermal mehr" – ist das nicht ein enormer Fortschritt?
Der Zuwachs ist real, startet laut The-Decoder-Auswertung aber auf sehr niedrigem Niveau. Viermal fast nichts bleibt wenig. Die Verbesserung binnen acht Monaten zeigt Dynamik, doch der beste getestete Agent schließt weiterhin nur 2,5 Prozent der Projekte abnahmefähig ab. Der Trend ist beachtenswert, das absolute Niveau bleibt gering.
Lohnt es sich für mein Team schon, in KI-Agenten zu investieren?
Ja, wenn Sie realistisch planen. Erwarten Sie keinen Ersatz ganzer Rollen, sondern Entlastung bei Teilaufgaben. Entscheidend ist, den Piloten sauber aufzusetzen, Ergebnisse zu messen und erst dann zu skalieren. So vermeiden Sie enttäuschte Erwartungen und finden die Aufgaben, bei denen Agenten heute schon Zeit sparen.
Wie könnte sich die Automation Rate künftig entwickeln?
Der RLI liefert eine Momentaufnahme und einen wiederholbaren Maßstab. Steigt die Automation Rate bei folgenden Messungen weiter, lässt sich echter Fortschritt belegen statt nur behaupten. Da die Aufgaben reale, bezahlte Projekte abbilden, ist der Index ein guter Frühindikator dafür, welche Freelance-Bereiche zuerst unter Automatisierungsdruck geraten.
Diskussion
Noch keine Kommentare. Schreiben Sie den ersten.
Weiterlesen
Mehr aus KI Agenten →
Gemini Spark: Googles Mac-Assistent im Realitätscheck
Gemini Spark soll als persönlicher KI-Agent rund um die Uhr Aufgaben auf dem Mac erledigen. Ein Blick auf den verifizierten Stand zeigt: Die Mac-App ist da, der eigentliche Agent aber noch US-Beta.

KI-Agenten Business-Software: 234 Milliarden im Umbruch
Gartner beziffert den Softwareumsatz, der durch KI-Agenten unter Druck gerät, auf bis zu 234 Milliarden US-Dollar. Wir ordnen ein, was hinter der Zahl steckt und welche Schritte für Unternehmen jetzt sinnvoll sind.


KI-Agenten als Firmenchef: Wo der CEO-Bench die Grenzen zeigt
Ein Princeton-Benchmark schickt KI-Agenten als Geschäftsführer in eine 500-Tage-Simulation. Die nüchterne Lektion für den realen Einsatz: Für eng umrissene Aufgaben taugen Agenten, für Führung noch lange nicht.

Digitaler Kollege: Wie KI ganze Aufgaben übernimmt
Ein Tencent-Übersichtspaper beschreibt den Übergang vom Chatbot zum digitalen Kollegen, der Aufgaben in dauerhaften Arbeitsumgebungen abschließt. Wir ordnen ein, was wirklich neu ist und was Unternehmen davon jetzt nutzen können.

Claude Tag im Slack: KI wird vom Chatpartner zum Teamkollegen
Mit Claude Tag verlässt Anthropic die Logik des klassischen Chatbots: Die KI sitzt als sichtbares Mitglied im Kanal, zerlegt Aufgaben in Schritte und meldet Ergebnisse im Thread zurück. Ein nüchterner Blick auf Funktion, Termine und Grenzen.