Google ने भारत के लिए AI और मेटा के थिएटर को विकसित किया है

Gemini Models Featured Image 1782245793572 1782245801220 f2d2cac0 4301 4d86 80ac 2c0d2c6676bd
Spread the love

संज्ञानात्मक वार्मअप. नॉर्वे प्राथमिक विद्यालय के बच्चों द्वारा जेनेरिक एआई उपकरणों के उपयोग पर प्रतिबंध लगाने का इरादा रखता है, प्रधान मंत्री जोनास गहर स्टोएरे ने चेतावनी दी है (सही ढंग से, अगर मैं जोड़ सकता हूं) कि एआई बच्चों को उनकी शिक्षा में महत्वपूर्ण कदम छोड़ने देता है और स्कूलों को उन्हें पढ़ना, लिखना और गणित सिखाने पर ध्यान केंद्रित करना चाहिए। ये दिशानिर्देश अगस्त में किसी समय शुरू होने वाले नए स्कूल वर्ष के साथ लागू किए जाएंगे। इसके दो भाग. ग्रेड 1 से 7 तक के छात्रों को AI का उपयोग करने से पूरी तरह से प्रतिबंधित कर दिया जाएगा, जबकि 14 से 16 वर्ष की आयु के किशोर शिक्षक की देखरेख में जेनरेटर टूल का उपयोग कर सकेंगे। इस पर अभी भी काम चल रहा है; जल्द ही और अधिक सुनने की उम्मीद है।

जेमिनी_मॉडल_विशेष रुप से प्रदर्शित
जेमिनी_मॉडल_विशेष रुप से प्रदर्शित

पहले, न्यूरल डिस्पैच पर

Google DeepMind, और सही इरादा

मैंने बार-बार बताया है कि एआई कंपनियों के सामान्य हंगामे के बीच, एक विरोधाभास मौजूद है। AI को लेकर Google का ध्यान इन दिनों आम AI हंगामा (उपयोग मेट्रिक्स, सभी मानव नौकरियों को बकवास लेना इत्यादि) से कहीं आगे जाता है, जिसका उद्देश्य AI को जनता के लिए प्रासंगिक बनाने में मदद करना है। नहीं, आईफोन चाहने वाले या लालची कॉर्पोरेट बोर्डरूम दर्शक नहीं, बल्कि वे लोग जो वास्तव में मदद कर सकते हैं। हमारे नियमित पाठकों को याद होगा कि कुछ हफ्ते पहले, मैंने Google डीपमाइंड के तीन एआई मॉडल रिलीज़- जेम्मा 4, जेमिनी 3.1 फ्लैश-लाइट और वीओ 3.1 लाइट- के बारे में बात की थी, जो भारत की एआई महत्वाकांक्षा को पूरा करने में मदद करने पर केंद्रित थे। यह ऐसी चीज़ है जो शोर से ज़्यादा प्रभाव पैदा करती है।

Google DeepMind इस मिशन पर धीमा नहीं पड़ रहा है। उनका मानना ​​है कि नए जेमिनी 3.5 लाइव ट्रांसलेशन और जेमिनी 3.1 फ्लैश टेक्स्ट-टू-स्पीच के साथ मदद की गुंजाइश है। गूगल डीपमाइंड के वरिष्ठ निदेशक मनीष गुप्ता कहते हैं, “जो चीज मुझे सबसे ज्यादा उत्साहित करती है, वह है इस नए ऑडियो मॉडल की तरलता और असंरचित तरीके को संभालने की क्षमता, जब हम बोलते हैं तो स्वाभाविक रूप से भाषाएं मिश्रित होती हैं।”

जेमिनी 3.5 लाइव ट्रांसलेशन के साथ, उनका मानना ​​है कि शिक्षा मंच छात्रों के लिए वीडियो और ऑडियो व्याख्यानों का अनुवाद करने के लिए इसे अपने ऑनलाइन शिक्षण मॉड्यूल में एकीकृत कर सकते हैं। जेमिनी 3.5 लाइव ट्रांसलेशन का एक प्रमुख तत्व एक वाक्य के स्वर का अनुवाद करने की क्षमता है, न कि केवल शब्दों का – दूसरे शब्दों में, प्राकृतिक आवाज। इस समय समर्थित भाषाओं में हिंदी, मराठी, तेलुगु, तमिल, गुजराती, मलयालम और अंग्रेजी (भारत) शामिल हैं।

फिर जेमिनी 3.1 फ्लैश टीटीएस, नवीनतम टेक्स्ट-टू-स्पीच मॉडल है, जो संभावित रूप से अगली पीढ़ी के एआई-स्पीच अनुप्रयोगों की नींव बन सकता है। नवीनतम संस्करण प्राकृतिक स्वर और अभिव्यक्तियों पर ध्यान केंद्रित करते हुए समग्र भाषण गुणवत्ता में सुधार करता है। उपयोग के मामलों में से एक Google डीपमाइंड स्क्रिप्ट लेखन में जेमिनी 3.1 फ्लैश टीटीएस के उपयोग की ओर इशारा करता है, जो मल्टी-कास्ट ऑडियो सामग्री उत्पन्न करने में मदद कर सकता है। भारतीय भाषा समर्थन दायरे में हिंदी, तमिल, तेलुगु, मराठी, गुजराती, बंगाली, कन्नड़, मलयालम और उर्दू शामिल हैं। विशेष रूप से, हिंदी भाषा मॉडल वास्तव में इससे बेहतर नहीं हो सकते।

Google DeepMind यह स्पष्ट करता है कि इन मॉडलों द्वारा उत्पन्न सभी ऑडियो को SynthID का उपयोग करके वॉटरमार्क किया जाएगा, जो मशीनों का पता लगाने के लिए सीधे ऑडियो आउटपुट में बुना जाता है, और इस तरह AI-उत्पन्न को मानव आवाज से अलग करता है।

इंडिक भाषाओं को एक एआई आवाज देना

Google और भारतीय विज्ञान संस्थान (IISc) के बीच एक सहयोग ने हमें प्रोजेक्ट वाणी नाम की चीज़ दी है। इंडिक भाषाओं के लिए एक ओपन-सोर्स स्पीच डेटासेट बनाने का इरादा अब सफलतापूर्वक चरण 2 पूरा कर चुका है। Google का कहना है कि यह 31 राज्यों और केंद्रशासित प्रदेशों की 109 इंडिक भाषाओं के लिए स्पीच और इमेज डेटासेट की ओपन सोर्सिंग का प्रतीक है, जिसमें 1,56,000 वक्ता शामिल हैं।

वे भारतीय पारिस्थितिकी तंत्र में तीन कार्यान्वयनों का विवरण देते हैं। शिलांग स्थित एमवायर लैब्स गारो के लिए अत्यधिक सटीक आवाज-पहचान प्रणाली को प्रशिक्षित करने के लिए प्रोजेक्ट वाणी के प्राकृतिक संवादी भाषण डेटासेट का उपयोग कर रही है, जो पारंपरिक रूप से प्रमुख एआई मॉडल से बाहर रखी गई कम संसाधन वाली भाषा है। गारो एक तिब्बती-बर्मन भाषा है जो पूर्वोत्तर भारत और बांग्लादेश में लगभग 1.2 मिलियन लोगों द्वारा बोली जाती है, और दिलचस्प बात यह है कि इसके लिए कोई डिजिटल भाषण उपकरण नहीं हैं।

एक और उदाहरण जहां प्रोजेक्ट वाणी के डेटासेट अधिक निर्माण ब्लॉकों के लिए बिल्डिंग ब्लॉक साबित हो रहे हैं, वह भारतीय तकनीकी कंपनी शून्य लैब्स के साथ है – उन्होंने इस डेटासेट का उपयोग वॉयस एआई मॉडल बनाने के लिए किया है जो 200 से अधिक भाषाओं में भाषण-से-पाठ सटीकता पर जोर देता है और स्वाभाविक रूप से मिश्रित भाषा के भाषण को समझता है। डेवलपर्स के लिए, इस तथ्य को कम करके नहीं आंका जा सकता है कि यह विधि एआई प्रशिक्षण समय और कंप्यूटिंग लागत को 1,000 गुना कम कर देती है।

गुप्ता कहते हैं, “मुझे इस बात पर अविश्वसनीय रूप से गर्व है कि कैसे इंडिक भाषा अनुसंधान में हमारा दीर्घकालिक निवेश स्थानीय नवप्रवर्तकों को सशक्त बना रहा है, और स्थानीय भाषा मॉडल के लिए आधार तैयार करने में मदद कर रहा है। भारतीय पारिस्थितिकी तंत्र वैश्विक एआई नेतृत्व को चलाने के लिए विशिष्ट रूप से तैनात है, और हम यह देखने के लिए उत्साहित हैं कि आप आगे क्या बनाते हैं।”

नवीनतम, वायर्ड ज्ञान पर

मेटा का बेतुका रंगमंच

उन्होंने संभवतः वाइब कोडिंग के साथ सभी वाइब टोकन खर्च कर दिए हैं, और अब मेटा पर वाइब्स पूरी तरह से बंद हैं। मेटा के मुख्य प्रौद्योगिकी अधिकारी एंड्रयू “बोज़” बोसवर्थ ने हाल ही में कर्मचारियों के साथ एक आंतरिक बातचीत के दौरान कहा कि मनोबल “शायद यहां 20 वर्षों में अब तक का सबसे खराब नहीं है, लेकिन यह संभवतः वहां है। यह निश्चित रूप से वहां पर है।” यह उन लोगों द्वारा साझा किया गया है जो कथित तौर पर कर्मचारियों के साथ उस कॉल पर थे।

संस्कृति के फिर से ऐतिहासिक निम्न स्तर पर होने के कुछ कारण हैं (वैसे, सभी मेटा कर रहे हैं)। यदि आप बारीकी से देखें तो यह सब एक साथ बुना हुआ है। मेटा ने इस वर्ष पहले ही अपने वैश्विक कार्यबल के 10% को जाने दिया। द रीज़न? माना जाता है कि अरबों डॉलर के ‘एआई निवेश’ को अब संतुलित करने की आवश्यकता है, क्योंकि वह ट्रेन तेजी से कहीं नहीं पहुंच रही है। इसके बाद मेटा ने फाउंडेशन मॉडल को प्रशिक्षित करने के लिए अपने नव निर्मित एप्लाइड एआई डिवीजन में लगभग 7,000 मौजूदा इंजीनियरों को फिर से नियुक्त किया है, जिसके बारे में माना जाता है कि कर्मचारियों ने इसे अधूरे, छोटे डेटा-लेबलिंग कार्यों को करने के लिए एक “ड्राफ्ट” के रूप में वर्णित किया है, कुछ ने यूनिट को ‘गुलाग’ कहा है।

हाल ही में, यह बताया गया था कि मेटा अपने एआई मॉडल को प्रशिक्षित करने के लिए कथित डेटा में कर्मचारी कुंजी स्ट्रोक और माउस आंदोलनों की निगरानी कर रहा है। और फिर, मेटा ने 2026 की पहली तिमाही में $56.31 बिलियन का राजस्व और $26.8 बिलियन का लाभ दर्ज किया, और इसके तुरंत बाद उपरोक्त नौकरी में कटौती हुई। मैंने पहले भी कहा था कि कॉर्पोरेट लालच एक बीमारी है।

(टैग्सटूट्रांसलेट)एआई(टी)मॉडल(टी)एआई भाषाएं(टी)मेटा(टी)एआई वॉयस(टी)एआई-स्पीच


Discover more from Star News 24 Live

Subscribe to get the latest posts sent to your email.

Leave a Reply

Your email address will not be published. Required fields are marked *

Discover more from Star News 24 Live

Subscribe now to keep reading and get access to the full archive.

Continue reading