వంటకాలు మరియు గేమ్లపై 70% సరైనది, కానీ చాలా ముఖ్యమైన అంశంలో ఘోరంగా విఫలమైంది

నిర్దిష్ట రకమైన సహాయంతో ఆమెను విశ్వసించలేరు
సాంకేతికత రేస్ కృత్రిమ మేధస్సును కోడింగ్ మరియు రీజనింగ్లో మేధావి స్థాయికి ఎలివేట్ చేస్తున్నందున, ఒక కొత్త విశ్లేషణ నమ్మశక్యం కాని బ్లైండ్ స్పాట్ను సూచిస్తుంది: AI, OpenAI యొక్క అధునాతన మోడల్లతో సహా, క్లిష్టమైన పనులకు గొప్పది, కానీ రోజువారీ జీవితంలో కీలకమైన దానిలో ఘోరంగా విఫలమవుతుంది: షాపింగ్ మరియు వినియోగం.
ఓ బెంచ్ మార్క్ మెర్కోర్ రూపొందించిన ACE (AI కన్స్యూమర్ ఇండెక్స్), ప్రముఖ AI మోడల్లను (GPT-5, జెమిని మరియు క్లాడ్తో సహా) 400 ప్రాక్టికల్ టాస్క్లకు నాలుగు విభాగాలుగా విభజించింది – షాపింగ్, ఫుడ్, DIY (డూ-ఇట్-మీరే) మరియు ఆటలు. ఫలితం చాలా అవసరమైన కోల్డ్ షవర్: AI ఒక అద్భుతమైన సాధారణ సహాయకుడు, కానీ భయంకరమైనది. వ్యక్తిగత దుకాణదారుడు నమ్మదగిన.
గొప్పది, మరింత దిక్కుతోచనిది
అధిక ఉన్నప్పటికీ పనితీరు ఇతర ప్రాంతాలలో, సేకరణ డొమైన్ AIల యొక్క అత్యంత క్లిష్టమైన లోపాలను బహిర్గతం చేసింది:
ప్రధాన సమస్య భ్రాంతిఅంటే, AI సమాచారాన్ని కనిపెట్టింది. మోడల్స్ తరచుగా ఇచ్చారు విరిగిన లేదా ఉనికిలో లేని లింక్లు ఉత్పత్తి సిఫార్సులలో మరియు వారు మూలంగా ఉపయోగించిన పేజీలతో సరిపోలని ధరలను కనుగొన్నారు.
“ఈ భాగం నా PCకి సరిపోతుందా?” వంటి ఆచరణాత్మక ప్రశ్నలలో లేదా ఉత్పత్తి అనుకూలత, లోపాలు తరచుగా జరిగేవి.
ఎప్పుడు బెంచ్ మార్క్ నమూనాలు అవసరం మొత్తం సమాచారాన్ని ధృవీకరించండి ఫాంట్లతో (గ్రౌండింగ్), కొన్ని నమూనాలు ఖచ్చితత్వంలో 20 శాతం కంటే ఎక్కువ పాయింట్లు పడిపోయాయి.
అత్యాధునిక నమూనాలు కూడా గరిష్ట స్థాయికి చేరుకున్నాయి 45,4% షాపింగ్ డొమైన్ (o3 ప్రో)లో ఖచ్చితత్వం, తక్కువ ఆత్మాశ్రయ ప్రాంతాలలో, ఖచ్చితత్వం గణనీయంగా ఎక్కువగా ఉంది:…
సంబంధిత కథనాలు
Source link



