Google పరిశోధకులు ఉత్తమ AI మోడల్ 69% సరైనదని కనుగొన్నారు
2025-12-12T21:26:30.691Z
AI మోడల్లు ఎంత తరచుగా వాటి వాస్తవాలను సూటిగా పొందుతాయనే దాని గురించి మేము చురుకైన చిత్రాన్ని పొందాము. ఈ వారం, Google డీప్ మైండ్ పరిచయం చేసింది వాస్తవాలు బెంచ్మార్క్ సూట్AI మోడల్లు వాస్తవంగా ఖచ్చితమైన సమాధానాలను ఎంత విశ్వసనీయంగా ఉత్పత్తి చేస్తాయో కొలుస్తుంది.
ఇది నాలుగు రంగాలలో నమూనాలను పరీక్షిస్తుంది: అంతర్గత జ్ఞానం నుండి వాస్తవిక ప్రశ్నలకు సమాధానమివ్వడం, వెబ్ శోధనను సమర్థవంతంగా ఉపయోగించడం, దీర్ఘ పత్రాలలో ప్రతిస్పందనలను గ్రౌండింగ్ చేయడం మరియు చిత్రాలను వివరించడం. ఉత్తమ మోడల్, Googleయొక్క మిథునం 3 ప్రో, 69% ఖచ్చితత్వానికి చేరుకుంది, ఇతర ప్రముఖ మోడల్లు దాని కంటే బాగా పడిపోయాయి.
సందర్భం కోసం, నేను నిర్వహించే రిపోర్టర్లలో ఎవరైనా 69% ఖచ్చితమైన కథనాలను దాఖలు చేస్తే, నేను వారిని తొలగిస్తాను.
జర్నలిజం కంటే, ఈ సంఖ్య ముఖ్యం AI పై బెట్టింగ్ చేసే వ్యాపారాలు. మోడల్లు వేగం మరియు పటిమతో రాణిస్తున్నప్పటికీ, వాటి వాస్తవిక విశ్వసనీయత ఇప్పటికీ మానవ అంచనాల కంటే చాలా వెనుకబడి ఉంది, ప్రత్యేకించి సముచిత జ్ఞానం, సంక్లిష్టమైన తార్కికం లేదా సోర్స్ మెటీరియల్లో ఖచ్చితమైన గ్రౌండింగ్తో కూడిన పనులలో.
చిన్న వాస్తవిక తప్పులు కూడా ఫైనాన్స్, హెల్త్కేర్ మరియు చట్టం వంటి రంగాలలో విపరీతమైన పరిణామాలను కలిగిస్తాయి. ఈ వారం, నా ప్రతిభావంతుడైన సహోద్యోగి మెలియా రస్సెల్ న్యాయ సంస్థలు ఎలా వ్యవహరిస్తున్నాయో పరిశీలించారు చట్టపరమైన సత్యానికి మూలంగా AI నమూనాల పెరుగుదల. ఇది గందరగోళంగా ఉంది: ఉపయోగించిన తర్వాత నకిలీ కేసులతో కూడిన పత్రాన్ని దాఖలు చేసినందున ఒక సంస్థ ఉద్యోగిని ఎలా తొలగించిందో ఆమె వివరించింది. ChatGPT దానిని రూపొందించడానికి.
FACTS బెంచ్మార్క్ ఒక హెచ్చరిక కానీ రోడ్మ్యాప్ కూడా: మోడల్లు ఎక్కడ మరియు ఎలా విఫలమవుతున్నాయో లెక్కించడం ద్వారా, Google పురోగతిని వేగవంతం చేయాలని భావిస్తోంది. కానీ ప్రస్తుతానికి, టేక్అవే స్పష్టంగా ఉంది: AI మెరుగుపడుతోంది, అయితే ఇది ఇప్పటికీ మూడింట ఒక వంతు తప్పు.
BI యొక్క టెక్ మెమో వార్తాలేఖ కోసం సైన్ అప్ చేయండి ఇక్కడ. వద్ద ఇమెయిల్ ద్వారా నన్ను చేరుకోండి abarr@businessinsider.com.



