ChatGPT en Bard (van Google) staan momenteel in de schijnwerpers. Na aanvankelijke enthousiaste reacties op deze AI chatbots is de aandacht verschoven naar de onbetrouwbaarheid van de informatie die zij leveren. De aandacht voor deze tekortkomingen slaat echter de plank mis. De kwaliteit van de data waarop de modellen getraind zijn bepaalt de kwaliteit van de reactie. Omdat de modellen zijn getraind op publieke bronnen zijn de resultaten niet altijd betrouwbaar.
ChatGPT is slechts de boodschapper
De ontwikkelaars wilden de AI blootstellen aan diverse kennis en perspectieven, zodat ChatGPT nuttige, informatieve en relevante antwoorden kon genereren. Als AI-taalmodel trainden ze ChatGPT met behulp van een grote verscheidenheid aan tekstbronnen, waarvan een aanzienlijk deel afkomstig is van bronnen uit het publieke domein, zoals Wikipedia. De trainingsgegevens omvatten ook boeken, artikelen, websites en diverse andere teksten, waaronder een grote meerderheid van de informatie die vóór september 2021 online beschikbaar was.
Een optimist zal geloven dat er meer betrouwbare dan onbetrouwbare informatie te vinden is in publieke bronnen. En ik denk dat dit juist is als we kijken naar brede en goede gedocumenteerde onderwerpen dat overal te vinden zijn in leermiddelen en tekstboeken. Maar helaas geldt dit niet voor gebeurtenissen die vrijwel uitsluitend in blogs, persberichten, dagelijks nieuws en sociale media worden behandeld. Daarom is het niet verwonderlijk dat het voor ChatGPT eenvoudig is om wild speculatieve of onjuiste antwoorden te geven. Het is een direct gevolg van de inhoud waarop het getraind is.
Een vinger aan de Pulse
Zoals sommige lezers wellicht weten, heeft BSL een softwarepakket (Pulse) ontwikkeld voor een internationaal bedrijf. Onze Pulse-software draait momenteel op een Azure/Cognitive Search-platform en heeft toegang tot een kennisbank met miljoenen documenten, waarvan de meeste afkomstig zijn van gecertificeerde nieuws- en commerciële gegevensbronnen. In tegenstelling tot de meeste internetcontent hebben deze documenten autoriteit en leveren ze betrouwbare, verifieerbare informatie.
Pulse verwerkt dagelijks tienduizenden nieuwe documenten, waarbij de inhoud wordt geclassificeerd en geselecteerd om werknemers in realtime via nieuwsattenderingen te informeren. Deze attenderingen worden samengesteld door analisten en automatisch gedistribueerd door onze software. Wij gebruiken Cognitive Search om geschikte inhoud te selecteren met behulp van een rijke en flexibele set API’s.
ChatGPT en Pulse
We hebben geëxperimenteerd met ChatGPT met behulp van de onlangs aangekondigde Azure OpenAI Service. De toepassingen van deze technologie zijn bijna eindeloos, te beginnen met de invoering van zoekopdrachten in natuurlijke taal, zoals:
“What’s the current EV charging infrastructure in European countries?”
Dit voorbeeld vervangt het gebruik van complexe, gestructureerde query’s die trefwoorden bevatten, zoals:
“electric car” AND Europe AND headline_lead_metadata: “charging station”
We kunnen Azure OpenAI en Azure Cognitive Search combineren om natuurlijke taal te gebruiken om inhoud te selecteren, dus dit werkt min of meer zonder al te veel configuratie. Omdat we binnen Pulse alleen geverifieerde en betrouwbare bronnen gebruiken, verwachten wij geen onjuiste of ongekwalificeerde antwoorden.
Door ChatGPT te trainen met Pulse-content hebben we nog meer “quick wins”. Het creëren van samenvattingen van geselecteerde berichten of vergelijkingen tussen de artikelen die we in een nieuwsbrief opnemen is dankzij ChatGPT gemakkelijk. We testen ook het gebruik van ChatGPT om de juiste bronnen voor specifieke onderwerpen te selecteren. We hebben immers enkele duizenden bronnen in Pulse (7000+), en het is nuttig om de bronnen te beperken tot de meest betrouwbare en relevante informatie.
ChatGPT en Cognitive Search – een perfecte combinatie
De combinatie van Azure Cognitive Search en Azure OpenAI Service levert een effectieve oplossing op voor ons scenario. Het integreert de enterprise-grade kenmerken van Azure, het vermogen van Cognitive Search om de juiste gegevens in grote kennisbanken te indexeren, te begrijpen en op te halen, en de indrukwekkende mogelijkheden van ChatGPT voor interactie in natuurlijke taal taal om vragen te beantwoorden en verfijnen.
Deze krachtige combinatie geeft eindgebruikers de mogelijkheid om hun gegevens intuïtief te doorgronden en te ondervragen. Bovendien begrijpt ChatGPT, anders dan alle andere tools die we hebben gebruikt, de context van een vraag, waardoor het gemakkelijk is om nieuwe inzichten te vragen. In het bovenstaande voorbeeld kunnen gebruikers na het antwoord op de vraag “Wat is de huidige infrastructuur voor het opladen van elektrische voertuigen in Europese landen?” eenvoudig vragen “Hoe zit het in Frankrijk, in het bijzonder?” om een nieuw antwoord te krijgen.
Neem contact op met de Bright Side of Life
We hebben meer dan 30 jaar ervaring met content management, contextueel zoeken en kennisdatabases. We hebben gewerkt met vele software tools voor gerenommeerde Nederlandse organisaties, waaronder het ANP, de nationale bibliotheek en diverse landelijke en regionale nieuwsleveranciers. Als u met ons wilt praten over uw gegevens en over het ontsluiten van de kennis in uw gegevensbronnen, neem dan contact met ons op.
De afbeelding bij dit blog is gemaakt met gebruik van de AI service van Midjourney.com.
Houdt ons blogoverzicht in de gaten voor een nieuwe blog over de Midjourney AI-dienst.