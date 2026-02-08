संक्षेप: बेंगलुरु की स्टार्टअप कंपनी Sarvam AI ने दुनियाभर में भारत का नाम रोशन कर दिया है। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है।

Sarvam AI: जब AI मॉडल बनाने की बात आती है, तो आपके दिमाग में भी शायद सबसे पहले अमेरिका या फिर चीन का नाम आएगा। लेकिन आपको यह जानकर गर्व महसूस होगा कि भारत के एक AI मॉडल ने Gemini और ChatGPT जैसे दिग्गज एआई मॉडल्स तक को पछाड़ दिया है। दरअसल, बेंगलुरु की स्टार्टअप कंपनी सर्वम AI के बेहतरीन मॉडल ने यह काम कर दिखाया है। इस हफ्ते इसके दो टूल, सर्वम विजन और बुलबुल, काफी चर्चा में हैं। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है, साथ ही Bulbul V3 भी लॉन्च किया है जो AI वॉयस जेनरेशन में बेहतरीन है। चलिए डिटेल में जानते हैं...

OCR) के कुछ बेंचमार्क में गाड़े झंडे इंडियाटूडे की रिपोर्ट के अनुसार, सर्वम विजन, ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) के कुछ बेंचमार्क पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और पॉपुलर AI मॉडल को पछाड़ रहा है, जो कि इसका स्पेशलाइजेशन का एरिया है। इसका परफॉर्मेंस इतना अच्छा है कि इसे यूजर्स और एक्सपर्ट्स दोनों से तारीफें मिल रही हैं।

सर्वम AI के को-फाउंडर प्रत्युष कुमार ने हाल ही में एक्स पर कई पोस्ट में कंपनी के इन-हाउस AI मॉडल्स की उपलब्धियों की जानकारी दी है। कंपनी के अनुसार, सर्वम विजन ने olmOCR-Bench पर 84.3 प्रतिशत का एक्यूरेसी स्कोर हासिल किया है। यह स्कोर जेमिनी 3 प्रो और हाल के OCR मॉडल्स जैसे DeepSeek OCR v2 से ज्यादा है, जबकि ChatGPT की रैंकिंग काफी कम थी।

इसके अलावा, सर्वम विजन ने OmniDocBench v1.5 पर भी अच्छा स्कोर किया है, जो एक बेंचमार्क है, जो यह टेस्ट करता है कि AI सिस्टम असल दुनिया के डॉक्यूमेंट्स को कैसे पढ़ते और समझते हैं। इसने कुल मिलाकर 93.28 प्रतिशत स्कोर किया, जिसमें कॉम्प्लेक्स लेआउट, टेक्निकल टेबल और मैथमेटिकल फॉर्मूले में खास तौर पर अच्छे नतीजे मिले। ये वे क्षेत्र हैं जहां पारंपरिक OCR सिस्टम अक्सर खराब फॉर्मेटिंग और घने कंटेंट की वजह से संघर्ष करते हैं।

AI टूल के परफॉर्मेंस ने दुनिया भर का ध्यान खींचा है। सर्वम, जिस पर पहले भारतीय भाषाओं के मॉडल पर फोकस करने के लिए सवाल उठाए गए थे, को अब तारीफें मिल रही है।

टेक कमेंटेटर डीडी दास, जिन्होंने पहले छोटे भारतीय-भाषा मॉडल बनाने की वैल्यू पर सवाल उठाया था, ने हाल ही में माना कि उन्होंने कंपनी को कम आंका था। एक्स पर एक पोस्ट में, दास ने कहा कि सर्वम के भारतीय भाषाओं के लिए OCR और स्पीच मॉडल मजबूत हैं और एक ऐसी कमी को पूरा करते हैं जिसे बड़ी ग्लोबल AI लैब ने ज्यादातर नजरअंदाज किया है।

उन्होंने लिखा "मैं सर्वम के बारे में गलत था। जब मैंने एक साल पहले उनके बारे में लिखा था, तो मुझे लगा था कि छोटे भारतीय भाषा मॉडल को ट्रेन करने की दिशा गलत है। लेकिन वाह, उन्होंने तो कमाल कर दिया।" "उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और OCR मॉडल हैं, और यह सच में बहुत कीमती है। कीमत भी बहुत सही है।"

यूजर्स से भी तारीफ मिली है। एक यूजर ने सर्वम के मॉडल्स के साथ अपने अनुभव के बारे में बात की और लिखा, "मैंने इसे कुछ दिन पहले इस्तेमाल किया था! अरे वाह।"

बुलबुल भारतीय भाषाओं में AI वॉयस लेकर आया है OCR टूल के अलावा, सर्वम ने अपना नया AI वॉयस मॉडल बुलबुल V3 भी लॉन्च किया है। यह एक टेक्स्ट-टू-स्पीच AI मॉडल है जिसका मकसद AI का इस्तेमाल करके ऑडियो बनाना है। एक तरह से यह ElevenLabs जैसी कंपनी के AI टूल्स जैसा ही है, जिसे इस फील्ड में सबसे अच्छा माना जाता है।

सर्वम ने एक ब्लॉग पोस्ट में कहा, "आज हम बुलबुल V3 लॉन्च कर रहे हैं, जो हमारा सबसे काबिल टेक्स्ट-टू-स्पीच मॉडल है, जिसे भारतीय भाषाओं के लिए नेचुरल, एक्सप्रेसिव और प्रोडक्शन-रेडी आवाजें देने के लिए डिजाइन किया गया है। बुलबुल V3 फेल होने की संभावनाओं को कम करता है, और भारत के खास यूज केस के लिए जरूरी इनपुट पर कंटेंट के हिसाब से सही, स्टेबल स्पीच देता है।"

अभी, यह टूल 11 भारतीय भाषाओं में 35 से ज्यादा आवाजों को सपोर्ट करता है। कंपनी का कहना है कि उनका प्लान भाषा सपोर्ट को कुल 22 भाषाओं तक बढ़ाने का है।