OpenAI's op synthetische intelligentie gebaseerde chatbot ChatGPT lijkt in de loop van de tijd achteruit te gaan en onderzoekers lijken niet te kunnen achterhalen waarom.
Op 18 juli lerenOnderzoekers van Stanford en UC Berkeley ontdekten dat de nieuwste mode van ChatGPT veel minder in staat was om binnen een paar maanden de juiste oplossingen te bieden voor een identieke reeks vragen.
De auteurs van het onderzoek konden geen transparant antwoord geven op de vraag waarom de mogelijkheden van de AI-chatbot waren verslechterd.
Om te controleren hoe betrouwbaar de totaal verschillende stijlen van ChatGPT waren, vroegen onderzoekers Lingjiao Chen, Matei Zaharia en James Zou de ChatGPT-3.5- en ChatGPT-4-modellen aan om een verzameling wiskundige problemen op te lossen, delicate vragen te beantwoorden, nieuwe sporen van code te schrijven en ruimtelijk redeneren uit te voeren met behulp van prompts.
We evalueerden #ChatGPTonderzocht het gedrag van GPT4 en GPT3.5 in de loop van de tijd en ontdekte essentiële variaties binnen de oplossingen voor *identieke vragen* tussen de lancering van GPT4 en GPT3.5 in juni en de releases in maart. De nieuwere variaties werden bij sommige taken slechter. met Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) 19 juli 2023
Als reactie op de analyse was ChatGPT-4 vanaf maart in staat om priemgetallen te bepalen met een nauwkeurigheid van 97.6%. Bij de identieke controle, uitgevoerd in juni, daalde de nauwkeurigheid van GPT-4 tot slechts 2.4%.
Ter onderscheiding, hoe eerder GPT 3.5-model verbeteringen had aangebracht in de identificatie van hoofdnummers gedurende hetzelfde interval.
Geassocieerd: Gary Gensler van de SEC gelooft dat AI zijn handhavingssysteem kan versterken
Bij het produceren van nieuwe sporen van code namen de mogelijkheden van elke mode tussen maart en juni aanzienlijk af.
De studie ontdekte ook dat de antwoorden van ChatGPT op delicate vragen - met enkele voorbeelden die de nadruk legden op etniciteit en geslacht - later uitgroeiden tot meer beknoptheid en weigering om te antwoorden.
Eerdere variaties van de chatbot boden gedetailleerde rechtvaardigingen waarom hij bepaalde delicate vragen niet kon beantwoorden. Desalniettemin boden de fashionista's in juni alleen hun excuses aan aan de consument en weigerden te antwoorden.
"Het gedrag van het 'identieke' [grote taalmodel] De service kan in relatief korte tijd aanzienlijk veranderen", schrijven de onderzoekers, daarbij verwijzend naar de noodzaak van een constante monitoring van de standaard van het AI-model.
De onderzoekers wezen erop dat klanten en bedrijven die afhankelijk zijn van LLM-providers als onderdeel van hun workflows een soort monitoringanalyse implementeren om ervoor te zorgen dat de chatbot up-to-date blijft.
Op 6 juni onthulde OpenAI plannen om een personeelsbestand te vormen om te helpen omgaan met de gevaren die zouden kunnen voortvloeien uit een superintelligent AI-systeem, wat de komende tien jaar wordt voorspeld.
AI-oog: AI's die zijn opgeleid op het gebied van AI-inhoud, worden gek. Is Threads een verliesleider voor AI-informatie?