भारत के सर्वम AI ने गूगल Gemini और ChatGPT को पछाड़ा, इस काम में अव्वल

Feb 08, 2026 06:51 pm ISTArpit Soni लाइव हिन्दुस्तान
share

बेंगलुरु की स्टार्टअप कंपनी Sarvam AI ने दुनियाभर में भारत का नाम रोशन कर दिया है। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है।

भारत के सर्वम AI ने गूगल Gemini और ChatGPT को पछाड़ा, इस काम में अव्वल

Sarvam AI: जब AI मॉडल बनाने की बात आती है, तो आपके दिमाग में भी शायद सबसे पहले अमेरिका या फिर चीन का नाम आएगा। लेकिन आपको यह जानकर गर्व महसूस होगा कि भारत के एक AI मॉडल ने Gemini और ChatGPT जैसे दिग्गज एआई मॉडल्स तक को पछाड़ दिया है। दरअसल, बेंगलुरु की स्टार्टअप कंपनी सर्वम AI के बेहतरीन मॉडल ने यह काम कर दिखाया है। इस हफ्ते इसके दो टूल, सर्वम विजन और बुलबुल, काफी चर्चा में हैं। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है, साथ ही Bulbul V3 भी लॉन्च किया है जो AI वॉयस जेनरेशन में बेहतरीन है। चलिए डिटेल में जानते हैं...

OCR) के कुछ बेंचमार्क में गाड़े झंडे

इंडियाटूडे की रिपोर्ट के अनुसार, सर्वम विजन, ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) के कुछ बेंचमार्क पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और पॉपुलर AI मॉडल को पछाड़ रहा है, जो कि इसका स्पेशलाइजेशन का एरिया है। इसका परफॉर्मेंस इतना अच्छा है कि इसे यूजर्स और एक्सपर्ट्स दोनों से तारीफें मिल रही हैं।

indias sarvam ai

सर्वम AI के को-फाउंडर प्रत्युष कुमार ने हाल ही में एक्स पर कई पोस्ट में कंपनी के इन-हाउस AI मॉडल्स की उपलब्धियों की जानकारी दी है। कंपनी के अनुसार, सर्वम विजन ने olmOCR-Bench पर 84.3 प्रतिशत का एक्यूरेसी स्कोर हासिल किया है। यह स्कोर जेमिनी 3 प्रो और हाल के OCR मॉडल्स जैसे DeepSeek OCR v2 से ज्यादा है, जबकि ChatGPT की रैंकिंग काफी कम थी।

इसके अलावा, सर्वम विजन ने OmniDocBench v1.5 पर भी अच्छा स्कोर किया है, जो एक बेंचमार्क है, जो यह टेस्ट करता है कि AI सिस्टम असल दुनिया के डॉक्यूमेंट्स को कैसे पढ़ते और समझते हैं। इसने कुल मिलाकर 93.28 प्रतिशत स्कोर किया, जिसमें कॉम्प्लेक्स लेआउट, टेक्निकल टेबल और मैथमेटिकल फॉर्मूले में खास तौर पर अच्छे नतीजे मिले। ये वे क्षेत्र हैं जहां पारंपरिक OCR सिस्टम अक्सर खराब फॉर्मेटिंग और घने कंटेंट की वजह से संघर्ष करते हैं।

AI टूल के परफॉर्मेंस ने दुनिया भर का ध्यान खींचा है। सर्वम, जिस पर पहले भारतीय भाषाओं के मॉडल पर फोकस करने के लिए सवाल उठाए गए थे, को अब तारीफें मिल रही है।

टेक कमेंटेटर डीडी दास, जिन्होंने पहले छोटे भारतीय-भाषा मॉडल बनाने की वैल्यू पर सवाल उठाया था, ने हाल ही में माना कि उन्होंने कंपनी को कम आंका था। एक्स पर एक पोस्ट में, दास ने कहा कि सर्वम के भारतीय भाषाओं के लिए OCR और स्पीच मॉडल मजबूत हैं और एक ऐसी कमी को पूरा करते हैं जिसे बड़ी ग्लोबल AI लैब ने ज्यादातर नजरअंदाज किया है।

उन्होंने लिखा "मैं सर्वम के बारे में गलत था। जब मैंने एक साल पहले उनके बारे में लिखा था, तो मुझे लगा था कि छोटे भारतीय भाषा मॉडल को ट्रेन करने की दिशा गलत है। लेकिन वाह, उन्होंने तो कमाल कर दिया।" "उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और OCR मॉडल हैं, और यह सच में बहुत कीमती है। कीमत भी बहुत सही है।"

यूजर्स से भी तारीफ मिली है। एक यूजर ने सर्वम के मॉडल्स के साथ अपने अनुभव के बारे में बात की और लिखा, "मैंने इसे कुछ दिन पहले इस्तेमाल किया था! अरे वाह।"

बुलबुल भारतीय भाषाओं में AI वॉयस लेकर आया है

OCR टूल के अलावा, सर्वम ने अपना नया AI वॉयस मॉडल बुलबुल V3 भी लॉन्च किया है। यह एक टेक्स्ट-टू-स्पीच AI मॉडल है जिसका मकसद AI का इस्तेमाल करके ऑडियो बनाना है। एक तरह से यह ElevenLabs जैसी कंपनी के AI टूल्स जैसा ही है, जिसे इस फील्ड में सबसे अच्छा माना जाता है।

सर्वम ने एक ब्लॉग पोस्ट में कहा, "आज हम बुलबुल V3 लॉन्च कर रहे हैं, जो हमारा सबसे काबिल टेक्स्ट-टू-स्पीच मॉडल है, जिसे भारतीय भाषाओं के लिए नेचुरल, एक्सप्रेसिव और प्रोडक्शन-रेडी आवाजें देने के लिए डिजाइन किया गया है। बुलबुल V3 फेल होने की संभावनाओं को कम करता है, और भारत के खास यूज केस के लिए जरूरी इनपुट पर कंटेंट के हिसाब से सही, स्टेबल स्पीच देता है।"

अभी, यह टूल 11 भारतीय भाषाओं में 35 से ज्यादा आवाजों को सपोर्ट करता है। कंपनी का कहना है कि उनका प्लान भाषा सपोर्ट को कुल 22 भाषाओं तक बढ़ाने का है।

बुलबुल को भी तारीफें मिल रही हैं। KissanAI के फाउंडर प्रतीक देसाई ने एक्स पर लिखा, "हम अपने इंडियन यूज केस के लिए बुलबुल को अपने पसंदीदा TTS मॉडल के तौर पर इस्तेमाल करते हैं, और हर नए रिलीज के साथ यह और बेहतर होता गया है। वहीं, ElevenLabs की कीमत इंडियन या किसी दूसरी भाषा के लिए कभी भी सही नहीं लगी।"

Arpit Soni

लेखक के बारे में

Arpit Soni

अर्पित सोनी को शुरुआत से ही नए-नए गैजेट्स को एक्सप्लोर करने और उन्हें आजमाने का शौक रहा है। अब अर्पित ने अपनी इस हॉबी को ही अपना पेशा बना लिया है। भोपाल के रहने वाले अर्पित को गैजेट्स का रिव्यू करना और उनके बारे में लिखना काफी पसंद है। टेक्नोलॉजी, रोबोट्स और आर्टिफिशियल इंटेलिजेंस और इनसे जुड़ी खबरें लिखना भी इन्हें काफी भाता है। लाइव हिन्दुस्तान में अर्पित पिछले चार साल से बतौर सीनियर कंटेंट प्रोड्यूसर काम कर रहे हैं। इससे पहले वे नवभारत टाइम और दैनिक भास्कर की गैजेट्स बीट में काम कर चुके हैं। अर्पित की स्कूलिंग भोपाल से हुई है और उन्होंने MCU से पोस्ट ग्रेजुएशन करके मीडिया जगत में एंट्री की थी। मीडिया में उन्हें आठ साल से ज्यादा समय हो चुका है और सफर अभी जारी है। गैजेट्स के अलावा, उन्हें घूमने का भी बहुत शौक है।

और पढ़ें

लेटेस्ट   Hindi News ,    बॉलीवुड न्यूज,   बिजनेस न्यूज,   टेक ,   ऑटो,   करियर , और   राशिफल, पढ़ने के लिए Live Hindustan App डाउनलोड करें।