Share ZU:
25 October 2023 @ Andrea Bärnthaler

Wie das Problem umgehen, dass ChatGPT nur den Stand von 2021 wiedergibt? 

Im Internet gibt es täglich neue Anwendungsmöglichkeiten von LLMs wie ChatGPT. Ein Problem ist jedoch oft, dass ChatGPT mit Daten von 2021 trainiert wurde und alles, das danach passiert ist, nicht berücksichtigt wird. Einen interessanten Weg, wie man dieses Problem zumindest beim Thema Suche und Forschung umgehen kann, ist der „Non-Stop AI Research Agent“, den Mike Borman in seinem Youtube Channel (How to build a 24hr Non-Stop AI Research Agent and link it to your CRM – YouTube) vorstellt. Wir haben das ganze ausprobiert und möchten euch in diesem Blogbeitrag an unseren Ergebnissen teilhaben lassen, ohne dass ihr tief in den Code einsteigen müsst. 

Die Idee hinter dem AI Research Agent: 

Die Idee hinter dem AI Research Agent ist, dass das Internet voll von aktueller Information ist und es für uns Menschen jedoch sehr mühsam ist, diese Informationen alle zu suchen, zu extrahieren und zusammenzufassen. Suchmaschinen, wie z.B. Google sind super darin, Websites zu finden, die bestimmte Informationen beinhalten. Die Menge an Ergebnissen kann jedoch schnell unüberschaubar werden und die richtigen und wichtigen Inhalte daraus zu extrahieren dauert für uns Menschen sehr lang. Hier kommt nun die Stärke von ChatGPT zum Tragen. ChatGPT ist sehr gut darin, Texte zusammenzufassen und Texte zu formulieren. Die Idee des Ansatzes von Mike Borman ist nun, die beiden Stärken (Google und ChatGPT) miteinander zu kombinieren. 

1 Ausschnitt aus dem Video von Mike Borman 

Websuche und Webscraping mit APIs 

Für die Websuche verwendet Bormann die kostenlose API SerpApi . Man kann sich dort nach Registrierung schnell und einfach einen Key generieren lassen und damit aus einem Python-Programm eine Websuche durchführen. Als Ergebnis bekommt man die gefundenen Links zurück, mit einem Titel und einer kurzen Beschreibung, was sich hinter dem Link verbirgt. Als nächstes führt man nun das sogenannte Web Scraping durch. Dies bedeutet, man liest die Inhalte der gefundenen Websites komplett aus, da man diese Daten später an ChatGPT übergeben möchte. Hierfür gibt es, wie auch schon bei der Websuche, eigene APIs. Bormann verwendet dafür die BrowseList API . Wie auch schon bei SerpAPI kann man sich bei BrowseList nach Registrierung kostenlos und einfach einen API-Key erzeugen, mit dem man die Inhalte und Daten der gefundenen Websites extrahieren kann. 

Daten für die Kommunikation mit ChatGPT aufbereiten mittels LangChain Summarization Agent 

Webscraping liefert uns ziemlich viele Daten, z.B. auch die Informationen, die seitlich auf den Websites stehen (Banner, Werbung, etc.), die für unser Ergebnis eigentlich irrelveant sind. Außerdem ist das Kontextfenster von ChatGPT begrenzt, d.h. wir können nicht beliebig große Datenmengen auf einmal an ChatGPT senden. Aus diesem Grund müssen wir im nächsten Schritt diese Daten zusammenfassen und reduzieren. Dafür verwenden wir die SummarizationChain von LangChain, einem beliebten Framework zur Entwicklung von Applikationen zur Kommunikation mit LLMs. Diese Technik verwendet fortschrittliche Algorithmen des maschinellen Lernens (wie hier z.B. „MapReduce“), um Texte zu verstehen und die relevantesten Informationen herauszufiltern. Es ist besonders nützlich, wenn man große Mengen an Texten hat und schnell verstehen möchten, worum es geht, ohne alles im Detail lesen zu müssen. LangChain-Summarization ist also eine Art “Textverdichter”. 

Webanwendung mittels Streamlit bereitstellen 

2 Benutzeroberfläche für den AI Research Agent mit Streamlit 

Nachdem der Langchain Summarization Agent erstellt wurde, ist der nächste Schritt, die Webanwendung mithilfe von Streamlit zu hosten. Dabei handelt es sich um eine einfache Benutzeroberfläche, die die Anwendung schnell startklar macht. Der Agent kann mithilfe von Streamlit getestet werden, um sicherzustellen, dass er ordnungsgemäß funktioniert. Wir haben das mit der Frage: „Was gibt es für Neuigkeiten zur REConf 2024 in München?“ ausprobiert.  

3 Beispielfrage für den AI Research Agent 

Probiert es gerne selbst aus und falls ihr Hilfe braucht, schreibt mir einfach. 

Mike Borman erstellt in einem weiteren Schritt in seinem Video eine API, mittels der der Agent aus anderen Programmen verwendet werden kann. Dies würde leider den Rahmen dieses Blogs sprengen und ist ohne Codebeispiel schwer zu demonstrieren. Aus diesem Grund verzichte ich auf eine Erläuterung dieser nächsten Schritte. 

Und wie bei so vielen Neuerungen zum Thema KI scheint es auch bei diesem Thema so, dass es schon bald eine andere Lösung dafür geben wird. OpenAI plant nämlich, die Websuche mit ChatGPT in naher Zukunft über “Browse with Bing” für alle Nutzer zu ermöglichen (siehe OpenAI enables Browse with Bing for live web results in ChatGPT – The Verge). 

Habt ihr auch schon solche hilfreichen KI-Tools ausprobiert? Wie sind eure Erfahrungen damit? Schreibt uns gerne. 

Andrea Bärnthaler

Kontaktieren Sie Andrea Bärnthaler

Andrea Bärnthaler arbeitet als Senior Consultant bei der HOOD GmbH. Mit Neugier, Leidenschaft und Engagement unterstützt sie unsere Kunden beim Einsatz agiler Methoden und Techniken der künstlichen Intelligenz in der Verbindung von RE und Risikomanagement sowie bei der Einführung von RE-Werkzeugen. Frau Bärnthaler hat Erfahrung mit datenbankbasierten Workflowsystemen (z.B. Radiologie-Informationssystemen) sowie objektorientierter Programmierung. Durch ihre Tätigkeiten im regulierten Umfeld (Medizintechnik) hat sie Kenntnisse der dort gültigen Standards und Normen sowie weiterer Qualitätsstandards und CMMI. Sie ist Certified Scrum Master, Certified Professional for Requirements Engineering gemäß IREB sowie OMG Certified UML Professional.