OpenAIs syntetiske intelligensbaserte chatbot ChatGPT ser ut til å være nedverdigende over tid, og forskere ser ikke ut til å finne ut hvorfor.
I en 18. juli læreForskere fra Stanford og UC Berkeley oppdaget at ChatGPTs nyeste moter hadde vært langt mye mindre i stand til å tilby riktige løsninger på et identisk sett med spørsmål i løpet av få måneder.
Forfatterne av undersøkelsen kunne ikke gi et gjennomsiktig svar på hvorfor AI-chatbotens evner hadde blitt dårligere.
For å sjekke hvor pålitelige de helt forskjellige motene til ChatGPT hadde vært, ba forskerne Lingjiao Chen, Matei Zaharia og James Zou ChatGPT-3.5 og ChatGPT-4-motene for å løse en samling matematikkproblemer, svare på delikate spørsmål, skrive nye spor av kode. , og utføre romlig resonnement ved å bruke ledetekster.
Vi evaluerte #ChatGPTundersøkte gjennomføringen av GPT4 og GPT3.5 over tid og fant viktige variasjoner i løsningene på *identiske spørsmål* mellom lanseringen av GPT4 og GPT3.5 i juni og utgivelsene i mars. De nyere variasjonene ble dårligere ved enkelte oppgaver. med Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) Juli 19, 2023
Som svar på analysen, fra mars, var ChatGPT-4 i stand til å bestemme primtall med en nøyaktighet på 97.6 %. I den samme kontrollen, utført i juni, falt GPT-4s nøyaktighet til bare 2.4 %.
Til forskjell hadde den tidligere GPT 3.5-dukken gjort forbedringer i identifikasjon av prime mengde over det samme intervallet.
Assosiert: SECs Gary Gensler mener AI kan styrke håndhevingssystemet
Ved produksjon av nye spor av kode, reduserte egenskapene til hver mote betraktelig mellom mars og juni.
Undersøkelsen oppdaget i tillegg at ChatGPTs svar på delikate spørsmål – med noen eksempler som viser vekt på etnisitet og kjønn – senere ble ekstra kortfattet og nektet å svare.
Tidligere varianter av chatboten ga detaljerte begrunnelser for hvorfor den ikke var i stand til å svare på visse delikate spørsmål. Ikke desto mindre, i juni, ba motene bare om unnskyldning til forbrukeren og nektet å svare.
"Utførelsen av den 'identiske' [store språkmodellen] Tjenesten kan endre seg betraktelig i løpet av en relativt rask tidsperiode," skriver forskerne, og siterer nødvendigheten av jevn overvåking av standarden til AI-mannequin.
Forskerne er gunstige for at kunder og selskaper som er avhengige av LLM-leverandører som en del av arbeidsflyten deres implementerer en eller annen type overvåkingsanalyse for å sikre at chatboten holder seg oppdatert.
6. juni avduket OpenAI planer om å skrive inn en arbeidsstyrke for å hjelpe til med å håndtere farene som vil komme fra et superintelligent AI-system, som er spådd gjennom tiåret.
AI øye: AI-er som er utdannet på AI-innholdsmateriale, blir gale. Er Threads en tapssjef for AI-informasjon?