Was passiert, wenn wir Perplexity, ChatGPT und Gemini in der Deep Research-Funktion einen Report über Deep Research erstellen lassen?
Wir haben es ausprobiert!
Das Experiment
Vorab: das hier hat natürlich keinen wissenschaftlichen Anspruch. Wir wollen einfach ausprobieren was geht und was nicht!
Diese Modelle haben wir am 11.03.2025 verglichen:
- ChatGPT Deep Research (Plus Plan) mit o3-mini
- Perplexity Tiefe Forschung (Free Plan)
- Gemini 1.5 Pro with Deep Research (Workspace)
Wir haben allen drei LLMs die gleiche Frage gestellt:
Erstelle einen umfassenden Report zu den Deep Research-Funktionen von Gemini, OpenAI und Perplexity. Der Report soll folgende Punkte beinhalten...
1. **Einleitung**
– Kurze Vorstellung der drei Plattformen und ihrer jeweiligen Schwerpunkte im Bereich Deep Research.
2. **Kriterien zur Bewertung**
a. **Datenqualität**
– Umfang, Aktualität und Relevanz der zugrunde liegenden Daten.
b. **Analyse-Methoden**
– Verwendete Algorithmen, Modellarchitekturen und Innovationsgrad.
c. **Benutzerfreundlichkeit**
– Interface, Bedienbarkeit und Nutzererfahrung.
d. **API-Integration**
– Flexibilität und Möglichkeiten zur Einbindung in bestehende Systeme.
e. **Performance**
– Geschwindigkeit, Genauigkeit und Zuverlässigkeit der Ergebnisse.
f. **Sicherheit & Datenschutz**
– Maßnahmen zum Schutz sensibler Daten und Einhaltung von Datenschutzstandards.
g. **Zukunftspotenzial**
– Innovationskraft, Weiterentwicklungsmöglichkeiten und Anpassungsfähigkeit an neue Anforderungen.
3. **Bewertungsschema**
– Für jedes Kriterium erfolgt eine Bewertung auf einer Skala von 1 bis 10 (1 = sehr schlecht, 10 = ausgezeichnet).
– Erstelle eine übersichtliche Tabelle, in der die einzelnen Plattformen anhand der genannten Kriterien bewertet werden.
4. **Vergleich und Analyse**
– Stelle die Stärken und Schwächen der einzelnen Plattformen gegenüber.
– Analysiere, in welchen Anwendungsfällen welche Plattform Vorteile bietet.
– Ziehe fundierte Schlussfolgerungen und gib Empfehlungen für spezifische Einsatzszenarien.
5. **Quellen & Belege**
– Stütze die Bewertungen auf aktuelle Daten, Fachpublikationen, Whitepapers und weitere vertrauenswürdige Quellen.
– Führe alle verwendeten Quellen klar auf.
6. **Zusammenfassung**
– Fasse die wesentlichen Erkenntnisse und Empfehlungen in einem abschließenden Abschnitt zusammen.
Der Report soll in einem strukturierten, gut lesbaren Format erstellt werden, mit klaren Überschriften, Unterpunkten und einer tabellarischen Darstellung der Bewertungen.
Bevor ich euch die Ergebnisse der Recherche präsentiere, hier ein paar Punkte zur Bedienung und was tatsächlich in den letzten Minuten aus Nutzerperspektive passiert ist.
Start der Recherche mit Deep Research
ChatGPT hat dann noch eine Rückfrage gestellt. Das habe ich bei Deep Research jetzt schon häufiger beobachtet und hilft, es weiter zu spezifizieren. Ich habe darauf lediglich geantwortet: „Du sollst objektiv bleiben, auf deutsch antworten, ansonsten ist es dir überlassen.“
Gemini schlägt einen Rechercheplan vor – der ist allerdings nicht so übersichtlich und aussagekräftig. Ich hätte ihn bearbeiten können, hab aber einfach auf „Recherche starten“ geklickt.
Perplexity legt sofort los, hat also keine weiteren Informationen geliefert.
Dauer der Deep Research
Ich habe keine Stoppuhr genutzt, am schnellsten war aber definitiv Perplexity, dicht gefolgt von Gemini. ChatGPT hat die Recherche soeben, nach 6 Minuten, abgeschlossen.
In Summe: Für die ganzen Quellen, die analysiert wurden, der hammer!
Die Ergebnisse
Anzahl der Quellen und Umfang der Ergebnisse
Hier mal ganz schnell:
- Gemini: 64 Quellen
- Perplexity: 59 Quellen
- ChatGPT: 18 Quellen
Bei ChatGPT kommen 4.911 Wörter raus (Quellen inkl. Links direkt im Text), Perplexity beschränkt sich auf 608 kompakte Wörter (ohne Quellen, diese gibt es als Anhang über Fußnoten), Gemini kommt auf 1.634 Wörter ohne Quellen und noch einmal rund 400 mehr, wenn die Quellen dabei sind.
Das sind schon einmal riesige Unterschiede. Insbesondere ChatGPT scheint aus wenig viel zu machen…
Hat das eine Aussage? Wir werden es sehen, ich habe die Reports noch nicht gelesen!
Format der Ergebnisse
Bei Gemini kommt gleich die Google Workspace Integration zum Tragen. Ich finde das Fomat super, kann es direkt in Google Docs exportieren und weiterarbeiten. Ich finde außerdem die Präsentation der Inhalte super!
ChatGPT ist, wie wir es wohl alle erwarten würden und präsentiert uns die Antwort als formatierten aber nicht allzu ansehnlichen „Artikel“. Die Quellen sind mit kleinen Chips direkt eingebunden, sodass ich nicht nur Fußnoten habe sondern die Referenz gleich nachvollziehen kann. Find ich gut! Leider muss ich mir das dann umständlich an einen anderen Ort kopieren.
Perplexity löst die Aufgabe wirklich anders. Die Ergebnisse wirken auf den ersten Blick bereits deutlich kompakter. Aber auch hier das Problem: Ich muss es erst einmal rauskopieren, Export geht nur als PDF, Markdown oder Perplexity Page.
Bewertung der Ergebnisse
Meine Meinung zu den unterschiedlichen Reports
ChatGPT overperformt mir ehrlich gesagt ein bisschen. Das ist einfach sehr viel, sehr umfangreich. Ich habe in weiteren Tests festgestellt, dass hier aber ein konsequenteres Prompting zu deutlich besseren Ergebnissen führt. In diesem speziellen Fall ist es mir aber zu viel.
Perplexity ist kurz und knackig… Eventuell ein bisschen zu knackig? Für einen ersten Überblick aber super, insbesondere, weil ich ja weiter nachhaken kann, wo ich tiefer einsteigen möchte.
Gemini hat einen ganz guten Mittelweg gefunden und ich finde die Ausarbeitung auch sehr gut lesbar. Ich finde insbesondere die tabellarischen Übersichten super.
„Objektive“ Bewertung der Ergebnisse mit ChatGPT
Da meine Meinung genau das ist — eine Meinung — habe ich noch eine weitere Perspektive aufgemacht.
Ich habe anschließend ChatGPT nach einer Bewertung gefragt und dabei explizit auf „Objektivität“ hingewiesen. Hoffe einfach mal, dass er sich daran gehalten hat… 😉 (habe übrigens die Ausarbeitungen „anonymisiert“ übergeben als Ausarbeitungen 1-3)
Das sagt ChatGPT:
ChatGPT Deep Research (=1. Ausarbeitung)
- Stärken: Sehr detaillierte und umfassende Analyse, die systematisch alle wichtigen Bewertungskriterien abdeckt. Die Struktur ist klar und logisch aufgebaut, sodass der Vergleich gut nachvollziehbar ist. Besonders hervorzuheben sind die fundierten Quellenangaben und die objektive Herangehensweise.
- Schwächen: Die Länge und Detailtiefe könnten für einige Leser überwältigend sein, insbesondere wenn sie nur einen schnellen Überblick suchen. Außerdem gibt es einige Wiederholungen und stellenweise eine etwas schwerfällige Sprache, die die Lesbarkeit beeinträchtigen könnte.
- Lesbarkeit & Umsetzbarkeit: Für Fachleute und tiefgehende Analysen sehr nützlich, für schnelle Entscheidungsfindung möglicherweise zu ausführlich. Trotzdem insgesamt eine sehr gute Arbeit mit solider Argumentation.
Perplexity Tiefe Recherche (=2. Ausarbeitung)
- Stärken: Kompakt und auf den Punkt, mit einer klaren Struktur und einem direkten Vergleich der Kernaspekte. Die Bewertung ist quantitativ unterlegt, was die Entscheidungsfindung erleichtert. Die Sprache ist prägnant und gut verständlich.
- Schwächen: Die Kürze geht etwas auf Kosten der Tiefe – einige wichtige Aspekte (z. B. Usability oder Datenschutz) werden nur oberflächlich behandelt. Es fehlt zudem eine tiefergehende Einordnung der Schwächen, insbesondere bezüglich möglicher Verzerrungen oder Limitationen der Modelle.
- Lesbarkeit & Umsetzbarkeit: Sehr gut für Entscheider, die eine schnelle, aber fundierte Übersicht suchen. Für detaillierte Vergleiche oder wissenschaftliche Zwecke möglicherweise zu knapp.
Gemini Deep Research (=3. Ausarbeitung)
- Stärken: Ausgewogene Mischung aus Detailtiefe und guter Lesbarkeit. Die Bewertungen sind gut begründet, und die Struktur ist logisch. Die Stärken und Schwächen werden verständlich herausgearbeitet, sodass Leser die Unterschiede schnell erfassen können.
- Schwächen: Teilweise etwas zu allgemein gehalten, einige Bewertungen wirken eher subjektiv als durch harte Daten gestützt. Auch hätte die Zitierweise noch etwas systematischer aufbereitet werden können, um mehr Transparenz zu schaffen.
- Lesbarkeit & Umsetzbarkeit: Sehr leserfreundlich und gut für praktische Entscheidungen geeignet. Für eine tiefere technische Analyse könnte es aber an Präzision und Detailliertheit mangeln.
Das Gesamtfazit von ChatGPT
- Für eine tiefe, wissenschaftliche Analyse: Die 1. Ausarbeitung ist die beste Wahl, aber sie ist auch anspruchsvoller zu lesen.
- Für eine schnelle Entscheidungsfindung: Die 2. Ausarbeitung bietet die prägnanteste Zusammenfassung.
- Für eine ausgewogene und gut lesbare Einschätzung: Die 3. Ausarbeitung vereint Detailgrad mit guter Lesbarkeit.
Hier spricht wieder Isabel: Ich finde die Einschätzung ziemlich gut! ChatGPT macht den Rundumschlag, Perplexity gibt einen schnellen Überblick und Gemini hält wirklich eine gute Balance.
Welche Perspektive bzw. welches Vorgehen und Ergebnisse bevorzugst du?
Und was ist mit Deep Seek DeepThink?
Offen gestanden ist Deep Seek bei der Outline des Artikels heruntergefallen.
Ich habe Deep Seek dann testweise noch einmal separat bearbeitet und auch zum Dokument hinzugefügt. Das meint ChatGPT dazu:
- Stärken:
Die Arbeit ist sehr strukturiert und kompakt, mit klaren Bewertungsmaßstäben und einer übersichtlichen Tabelle. Die Stärken und Schwächen der Plattformen werden präzise zusammengefasst, was eine schnelle Vergleichbarkeit ermöglicht. Besonders hervorzuheben ist die Einordnung der Plattformen nach empfohlenen Anwendungsfällen, was für Entscheider sehr hilfreich ist. - Schwächen:
Durch die starke Kürzung gehen einige tiefere technische Details verloren, insbesondere zur Funktionsweise der Analyse-Methoden oder zur Datenverarbeitung. Außerdem bleiben einige Bewertungen (z. B. Sicherheit & Datenschutz) ohne genaue Begründung. Die Quellen sind zwar genannt, aber nicht spezifisch mit einzelnen Aussagen verknüpft, was die Nachvollziehbarkeit etwas erschwert. - Lesbarkeit & Umsetzbarkeit:
Sehr gut für eine schnelle Entscheidungsfindung und einen praxisnahen Überblick. Wer eine tiefere technische Analyse sucht, wird jedoch mehr Hintergrundinformationen vermissen. Ideal für Führungskräfte oder Anwender, die sich nicht in jedes technische Detail einarbeiten wollen.
Und im Gesamtfazit:
- Für eine wissenschaftlich fundierte, tiefgehende Analyse: 1. Ausarbeitung bleibt die beste Wahl, wenn es um maximale Präzision und Quellenstärke geht.
- Für eine schnelle, aber dennoch differenzierte Entscheidungsgrundlage: 4. Ausarbeitung ist durch ihre Struktur und Klarheit eine sehr gute Alternative.
- Für eine prägnante, aber etwas detailliertere Darstellung als Nr. 4: 2. Ausarbeitung wäre passend.
- Für eine ausgewogene Mischung aus Tiefe und Lesbarkeit: 3. Ausarbeitung bleibt eine gute Wahl.
Deep Research zum Download
Ich habe dir die Ergebnisse zusammenkopiert… Du kannst dich gerne in das Thema einlesen und dir ein eigenes Bild machen (freier Download):