Blog

వంటకాలు మరియు గేమ్‌లపై 70% సరైనది, కానీ చాలా ముఖ్యమైన అంశంలో ఘోరంగా విఫలమైంది

admin డిసెంబర్ 10, 2025

0 1 1 minute read

వంటకాలు మరియు గేమ్‌లపై 70% సరైనది, కానీ చాలా ముఖ్యమైన అంశంలో ఘోరంగా విఫలమైంది

నిర్దిష్ట రకమైన సహాయంతో ఆమెను విశ్వసించలేరు

సాంకేతికత రేస్ కృత్రిమ మేధస్సును కోడింగ్ మరియు రీజనింగ్‌లో మేధావి స్థాయికి ఎలివేట్ చేస్తున్నందున, ఒక కొత్త విశ్లేషణ నమ్మశక్యం కాని బ్లైండ్ స్పాట్‌ను సూచిస్తుంది: AI, OpenAI యొక్క అధునాతన మోడల్‌లతో సహా, క్లిష్టమైన పనులకు గొప్పది, కానీ రోజువారీ జీవితంలో కీలకమైన దానిలో ఘోరంగా విఫలమవుతుంది: షాపింగ్ మరియు వినియోగం.

ఓ బెంచ్ మార్క్ మెర్కోర్ రూపొందించిన ACE (AI కన్స్యూమర్ ఇండెక్స్), ప్రముఖ AI మోడల్‌లను (GPT-5, జెమిని మరియు క్లాడ్‌తో సహా) 400 ప్రాక్టికల్ టాస్క్‌లకు నాలుగు విభాగాలుగా విభజించింది – షాపింగ్, ఫుడ్, DIY (డూ-ఇట్-మీరే) మరియు ఆటలు. ఫలితం చాలా అవసరమైన కోల్డ్ షవర్: AI ఒక అద్భుతమైన సాధారణ సహాయకుడు, కానీ భయంకరమైనది. వ్యక్తిగత దుకాణదారుడు నమ్మదగిన.

గొప్పది, మరింత దిక్కుతోచనిది

అధిక ఉన్నప్పటికీ పనితీరు ఇతర ప్రాంతాలలో, సేకరణ డొమైన్ AIల యొక్క అత్యంత క్లిష్టమైన లోపాలను బహిర్గతం చేసింది:

ప్రధాన సమస్య భ్రాంతిఅంటే, AI సమాచారాన్ని కనిపెట్టింది. మోడల్స్ తరచుగా ఇచ్చారు విరిగిన లేదా ఉనికిలో లేని లింక్‌లు ఉత్పత్తి సిఫార్సులలో మరియు వారు మూలంగా ఉపయోగించిన పేజీలతో సరిపోలని ధరలను కనుగొన్నారు.

“ఈ భాగం నా PCకి సరిపోతుందా?” వంటి ఆచరణాత్మక ప్రశ్నలలో లేదా ఉత్పత్తి అనుకూలత, లోపాలు తరచుగా జరిగేవి.

ఎప్పుడు బెంచ్ మార్క్ నమూనాలు అవసరం మొత్తం సమాచారాన్ని ధృవీకరించండి ఫాంట్‌లతో (గ్రౌండింగ్), కొన్ని నమూనాలు ఖచ్చితత్వంలో 20 శాతం కంటే ఎక్కువ పాయింట్లు పడిపోయాయి.

అత్యాధునిక నమూనాలు కూడా గరిష్ట స్థాయికి చేరుకున్నాయి 45,4% షాపింగ్ డొమైన్ (o3 ప్రో)లో ఖచ్చితత్వం, తక్కువ ఆత్మాశ్రయ ప్రాంతాలలో, ఖచ్చితత్వం గణనీయంగా ఎక్కువగా ఉంది:…

మరిన్ని చూడండి

సంబంధిత కథనాలు

ప్రోటాన్‌కు కృతజ్ఞతలు తెలుపుతూ విండోస్ గేమింగ్‌తో వాల్వ్ అసాధ్యాన్ని సాధించింది; ఇప్పుడు, వారు ఆండ్రాయిడ్ గేమ్‌లతో కూడా అదే చేయాలనుకుంటున్నారు

16 ఏళ్లలోపు పిల్లల ఖాతాలను నిష్క్రియం చేయడం ద్వారా, ఆస్ట్రేలియా టీనేజర్ వ్యాజ్యానికి లక్ష్యంగా మారింది మరియు సోషల్ నెట్‌వర్క్‌లకు వ్యతిరేకంగా మొదటి అతిపెద్ద ప్రపంచ యుద్ధాన్ని ప్రారంభించింది

ఒక గేమర్ తన పాడైపోయిన RTX 5090 గ్రాఫిక్స్ కార్డ్‌ని మరమ్మత్తు కోసం పంపాడు; తయారీదారు తనకు R$18,000కి ఇన్‌వాయిస్ పంపుతాడని అతను ఊహించలేదు

GitHub యొక్క CEO ఇలా ప్రకటించారు: “AIని ఆలింగనం చేసుకోండి లేదా మీరు బయటకు వచ్చారు”; అనేక సాఫ్ట్‌వేర్ ప్రాజెక్ట్‌ల ప్రతిస్పందన ఏమిటంటే… GitHubని వదిలివేయండి

Windows 11 ఆధునికంగా ఉండాలని కోరుకుంది, కానీ దాని వారసత్వం దానిని తగ్గించింది; మీ విధానం ఎల్లప్పుడూ బాగా పని చేసేదాన్ని విచ్ఛిన్నం చేసింది

Source link

admin డిసెంబర్ 10, 2025

0 1 1 minute read