OpenAI's syntetiske intelligens-baserede chatbot ChatGPT ser ud til at være nedværdigende over tid, og forskere kan ikke se ud til at afgøre hvorfor.
I en 18. juli lærerForskere fra Stanford og UC Berkeley opdagede, at ChatGPTs nyeste mode havde været langt mindre i stand til at tilbyde korrekte løsninger på et identisk sæt spørgsmål i løbet af få måneder.
Forfatterne til undersøgelsen kunne ikke give et gennemsigtigt svar på, hvorfor AI-chatbotens muligheder var blevet forringet.
For at kontrollere, hvor pålidelig den helt forskellige mode i ChatGPT havde været, bad forskerne Lingjiao Chen, Matei Zaharia og James Zou ChatGPT-3.5 og ChatGPT-4 modeerne for at løse en samling af matematiske problemer, besvare sarte spørgsmål, skrive nye spor af kode og udføre rumlige ræsonnementer ved hjælp af prompter.
Vi vurderede #ChatGPTundersøgte udførelsen af GPT4 og GPT3.5 over tid og lokaliserede vitale variationer i løsningerne på *identiske spørgsmål* mellem lanceringen af GPT4 og GPT3.5 i juni og udgivelserne i marts. De nyere variationer blev dårligere ved nogle opgaver. med Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) Juli 19, 2023
Som svar på analysen var ChatGPT-4 i marts i stand til at bestemme primtal med en nøjagtighed på 97.6 %. I den samme kontrol, der blev udført i juni, faldt GPT-4's nøjagtighed til blot 2.4 %.
Til forskel havde den tidligere GPT 3.5 mannequin foretaget forbedringer i identifikation af primære mængder over det identiske interval.
Tilknyttet: SEC's Gary Gensler mener, at AI kan styrke sit håndhævelsessystem
Når der blev produceret nye spor af kode, faldt mulighederne for hver mode betydeligt mellem marts og juni.
Undersøgelsen opdagede desuden, at ChatGPTs svar på sarte spørgsmål - med nogle eksempler, der udviser vægt på etnicitet og køn - senere voksede til at blive ekstra kortfattede og nægtede at svare.
Tidligere varianter af chatbotten tilbød detaljerede begrundelser for, hvorfor den ikke var i stand til at besvare sarte spørgsmål. Ikke desto mindre undskyldte modebranchen i juni blot forbrugeren og nægtede at svare.
"Udførelsen af den 'identiske' [store sprogmodel] Tjenesten kan ændre sig betydeligt i en forholdsvis hurtig tidsperiode," skriver forskerne og citerer nødvendigheden af konstant overvågning af standarden for AI-mannequinen.
Forskerne gavner sig, at kunder og virksomheder, der er afhængige af LLM-udbydere som en del af deres arbejdsgange, implementerer en eller anden form for overvågningsanalyse for at sikre, at chatbotten forbliver opdateret.
Den 6. juni afslørede OpenAI planer om at skrive en arbejdsstyrke til at hjælpe med at håndtere de farer, der ville komme fra et superintelligent AI-system, som er forudsagt gennem årtiet.
AI øje: AI'er, der er uddannet i AI-indhold, bliver sindssyge. Er Threads en tabschef for AI-information?