OpenAI:s syntetiska intelligensbaserade chatbot ChatGPT verkar vara förnedrande över tid, och forskare verkar inte kunna avgöra varför.
I en 18 juli läraForskare från Stanford och UC Berkeley upptäckte att ChatGPT:s senaste mode hade varit mycket mindre i stånd att erbjuda korrekta lösningar på en identisk uppsättning frågor på några månader.
Författarna till undersökningen kunde inte presentera ett transparent svar på varför AI-chatbotens kapacitet hade försämrats.
För att kontrollera hur pålitliga det helt olika modet i ChatGPT hade varit bad forskarna Lingjiao Chen, Matei Zaharia och James Zou ChatGPT-3.5- och ChatGPT-4-moden för att lösa en samling matematiska frågor, svara på känsliga frågor, skriva nya spår av kod och utföra rumsliga resonemang med hjälp av uppmaningar.
Vi utvärderade #ChatGPTundersökte uppförandet av GPT4 och GPT3.5 över tid och hittade viktiga variationer i lösningarna på *identiska frågor* mellan lanseringen av GPT4 och GPT3.5 i juni och marssläppen. De nyare variationerna blev sämre vid vissa arbetsuppgifter. med Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) Juli 19, 2023
Som svar på analysen, från och med mars, kunde ChatGPT-4 bestämma primtal med en noggrannhet på 97.6 %. I den identiska kontrollen, som utfördes i juni, sjönk GPT-4:s noggrannhet till bara 2.4 %.
I särklass hade den tidigare GPT 3.5 skyltdockan gjort förbättringar i identifiering av primär kvantitet under samma intervall.
Associerad: SEC:s Gary Gensler tror att AI kan stärka sitt tillsynssystem
När man producerade nya spår av kod minskade kapaciteten för varje mode avsevärt mellan mars och juni.
Undersökningen upptäckte dessutom att ChatGPT:s svar på känsliga frågor – med några exempel som visar betoning på etnicitet och kön – senare blev extra kortfattade och vägrade att svara.
Tidigare varianter av chatboten gav detaljerade motiveringar till varför den inte kunde svara på säkra känsliga frågor. Ändå, i juni, bad modet bara konsumenten om ursäkt och vägrade att svara.
"Uppförandet av den "identiska" [stora språkmodellen] Tjänsten kan förändras avsevärt under en jämförelsevis snabb tidsperiod, skriver forskarna och hänvisar till nödvändigheten av en stadig övervakning av standarden på AI-dockan.
Forskarna gynnas av att kunder och företag som är beroende av LLM-leverantörer som en del av deras arbetsflöden implementerar någon typ av övervakningsanalys för att se till att chatboten förblir uppdaterad.
Den 6 juni presenterade OpenAI planer på att skriva en arbetsstyrka för att hjälpa till att hantera farorna som skulle komma från ett superintelligent AI-system, vilket förutspås under decenniet.
AI-öga: AI:er utbildade i AI-innehållsmaterial blir galna. Är trådar en förlustchef för AI-information?