भारत के सर्वम AI ने गूगल Gemini और ChatGPT को पछाड़ा, इस काम में अव्वल
बेंगलुरु की स्टार्टअप कंपनी Sarvam AI ने दुनियाभर में भारत का नाम रोशन कर दिया है। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है।

Sarvam AI: जब AI मॉडल बनाने की बात आती है, तो आपके दिमाग में भी शायद सबसे पहले अमेरिका या फिर चीन का नाम आएगा। लेकिन आपको यह जानकर गर्व महसूस होगा कि भारत के एक AI मॉडल ने Gemini और ChatGPT जैसे दिग्गज एआई मॉडल्स तक को पछाड़ दिया है। दरअसल, बेंगलुरु की स्टार्टअप कंपनी सर्वम AI के बेहतरीन मॉडल ने यह काम कर दिखाया है। इस हफ्ते इसके दो टूल, सर्वम विजन और बुलबुल, काफी चर्चा में हैं। सर्वम AI ने विजन नाम का एक OCR टूल लॉन्च किया है जो भारतीय भाषाओं में डॉक्यूमेंट पढ़ने के मामले में Gemini और ChatGPT जैसे टूल्स को भी पीछे छोड़ देता है, साथ ही Bulbul V3 भी लॉन्च किया है जो AI वॉयस जेनरेशन में बेहतरीन है। चलिए डिटेल में जानते हैं...
OCR) के कुछ बेंचमार्क में गाड़े झंडे
इंडियाटूडे की रिपोर्ट के अनुसार, सर्वम विजन, ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) के कुछ बेंचमार्क पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और पॉपुलर AI मॉडल को पछाड़ रहा है, जो कि इसका स्पेशलाइजेशन का एरिया है। इसका परफॉर्मेंस इतना अच्छा है कि इसे यूजर्स और एक्सपर्ट्स दोनों से तारीफें मिल रही हैं।
सर्वम AI के को-फाउंडर प्रत्युष कुमार ने हाल ही में एक्स पर कई पोस्ट में कंपनी के इन-हाउस AI मॉडल्स की उपलब्धियों की जानकारी दी है। कंपनी के अनुसार, सर्वम विजन ने olmOCR-Bench पर 84.3 प्रतिशत का एक्यूरेसी स्कोर हासिल किया है। यह स्कोर जेमिनी 3 प्रो और हाल के OCR मॉडल्स जैसे DeepSeek OCR v2 से ज्यादा है, जबकि ChatGPT की रैंकिंग काफी कम थी।
इसके अलावा, सर्वम विजन ने OmniDocBench v1.5 पर भी अच्छा स्कोर किया है, जो एक बेंचमार्क है, जो यह टेस्ट करता है कि AI सिस्टम असल दुनिया के डॉक्यूमेंट्स को कैसे पढ़ते और समझते हैं। इसने कुल मिलाकर 93.28 प्रतिशत स्कोर किया, जिसमें कॉम्प्लेक्स लेआउट, टेक्निकल टेबल और मैथमेटिकल फॉर्मूले में खास तौर पर अच्छे नतीजे मिले। ये वे क्षेत्र हैं जहां पारंपरिक OCR सिस्टम अक्सर खराब फॉर्मेटिंग और घने कंटेंट की वजह से संघर्ष करते हैं।
AI टूल के परफॉर्मेंस ने दुनिया भर का ध्यान खींचा है। सर्वम, जिस पर पहले भारतीय भाषाओं के मॉडल पर फोकस करने के लिए सवाल उठाए गए थे, को अब तारीफें मिल रही है।
टेक कमेंटेटर डीडी दास, जिन्होंने पहले छोटे भारतीय-भाषा मॉडल बनाने की वैल्यू पर सवाल उठाया था, ने हाल ही में माना कि उन्होंने कंपनी को कम आंका था। एक्स पर एक पोस्ट में, दास ने कहा कि सर्वम के भारतीय भाषाओं के लिए OCR और स्पीच मॉडल मजबूत हैं और एक ऐसी कमी को पूरा करते हैं जिसे बड़ी ग्लोबल AI लैब ने ज्यादातर नजरअंदाज किया है।
उन्होंने लिखा "मैं सर्वम के बारे में गलत था। जब मैंने एक साल पहले उनके बारे में लिखा था, तो मुझे लगा था कि छोटे भारतीय भाषा मॉडल को ट्रेन करने की दिशा गलत है। लेकिन वाह, उन्होंने तो कमाल कर दिया।" "उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और OCR मॉडल हैं, और यह सच में बहुत कीमती है। कीमत भी बहुत सही है।"
यूजर्स से भी तारीफ मिली है। एक यूजर ने सर्वम के मॉडल्स के साथ अपने अनुभव के बारे में बात की और लिखा, "मैंने इसे कुछ दिन पहले इस्तेमाल किया था! अरे वाह।"
बुलबुल भारतीय भाषाओं में AI वॉयस लेकर आया है
OCR टूल के अलावा, सर्वम ने अपना नया AI वॉयस मॉडल बुलबुल V3 भी लॉन्च किया है। यह एक टेक्स्ट-टू-स्पीच AI मॉडल है जिसका मकसद AI का इस्तेमाल करके ऑडियो बनाना है। एक तरह से यह ElevenLabs जैसी कंपनी के AI टूल्स जैसा ही है, जिसे इस फील्ड में सबसे अच्छा माना जाता है।
सर्वम ने एक ब्लॉग पोस्ट में कहा, "आज हम बुलबुल V3 लॉन्च कर रहे हैं, जो हमारा सबसे काबिल टेक्स्ट-टू-स्पीच मॉडल है, जिसे भारतीय भाषाओं के लिए नेचुरल, एक्सप्रेसिव और प्रोडक्शन-रेडी आवाजें देने के लिए डिजाइन किया गया है। बुलबुल V3 फेल होने की संभावनाओं को कम करता है, और भारत के खास यूज केस के लिए जरूरी इनपुट पर कंटेंट के हिसाब से सही, स्टेबल स्पीच देता है।"
अभी, यह टूल 11 भारतीय भाषाओं में 35 से ज्यादा आवाजों को सपोर्ट करता है। कंपनी का कहना है कि उनका प्लान भाषा सपोर्ट को कुल 22 भाषाओं तक बढ़ाने का है।
बुलबुल को भी तारीफें मिल रही हैं। KissanAI के फाउंडर प्रतीक देसाई ने एक्स पर लिखा, "हम अपने इंडियन यूज केस के लिए बुलबुल को अपने पसंदीदा TTS मॉडल के तौर पर इस्तेमाल करते हैं, और हर नए रिलीज के साथ यह और बेहतर होता गया है। वहीं, ElevenLabs की कीमत इंडियन या किसी दूसरी भाषा के लिए कभी भी सही नहीं लगी।"
लेखक के बारे में
Arpit Soniअर्पित सोनी को शुरुआत से ही नए-नए गैजेट्स को एक्सप्लोर करने और उन्हें आजमाने का शौक रहा है। अब अर्पित ने अपनी इस हॉबी को ही अपना पेशा बना लिया है। भोपाल के रहने वाले अर्पित को गैजेट्स का रिव्यू करना और उनके बारे में लिखना काफी पसंद है। टेक्नोलॉजी, रोबोट्स और आर्टिफिशियल इंटेलिजेंस और इनसे जुड़ी खबरें लिखना भी इन्हें काफी भाता है। लाइव हिन्दुस्तान में अर्पित पिछले चार साल से बतौर सीनियर कंटेंट प्रोड्यूसर काम कर रहे हैं। इससे पहले वे नवभारत टाइम और दैनिक भास्कर की गैजेट्स बीट में काम कर चुके हैं। अर्पित की स्कूलिंग भोपाल से हुई है और उन्होंने MCU से पोस्ट ग्रेजुएशन करके मीडिया जगत में एंट्री की थी। मीडिया में उन्हें आठ साल से ज्यादा समय हो चुका है और सफर अभी जारी है। गैजेट्स के अलावा, उन्हें घूमने का भी बहुत शौक है।
और पढ़ेंलेटेस्ट Hindi News , बॉलीवुड न्यूज, बिजनेस न्यूज, टेक , ऑटो, करियर , और राशिफल, पढ़ने के लिए Live Hindustan App डाउनलोड करें।


