एआई को विकसित करना और चलाना लगातार महंगा होता जा रहा है। ओपनएआई की एआई संचालन लागत इस साल 7 अरब डॉलर तक पहुंच सकती है, जबकि एंथ्रोपिक के सीईओ ने हाल ही में सुझाव दिया था कि 10 अरब डॉलर से अधिक लागत वाले मॉडल जल्द ही आ सकते हैं।
इसलिए एआई को सस्ता बनाने के तरीकों की तलाश जारी है।
गोयल ने टेकक्रंच को बताया, “हमारा मानना है कि वास्तव में उपयोगी एआई मॉडल बनाने के लिए नए मॉडल आर्किटेक्चर आवश्यक हैं।” “एआई उद्योग एक प्रतिस्पर्धी स्थान है, वाणिज्यिक और खुला स्रोत दोनों, और सर्वोत्तम मॉडल का निर्माण सफलता के लिए महत्वपूर्ण है।”
शैक्षणिक जड़ें
कार्टेसिया में शामिल होने से पहले, गोयल पीएच.डी. थे। स्टैनफोर्ड की एआई लैब में उम्मीदवार, जहां उन्होंने अन्य लोगों के अलावा कंप्यूटर वैज्ञानिक क्रिस्टोफर रे की देखरेख में काम किया। स्टैनफोर्ड में रहते हुए, गोयल की मुलाकात साथी पीएच.डी. अल्बर्ट गु से हुई। प्रयोगशाला में उम्मीदवार, और दोनों ने रूपरेखा तैयार की कि एसएसएम क्या बनेगा।
गोयल ने अंततः स्नोर्कल एआई, फिर सेल्सफोर्स में नौकरी की, जबकि गु कार्नेगी मेलन में सहायक प्रोफेसर बन गए। लेकिन गु और गोयल ने एसएसएम का अध्ययन जारी रखा और वास्तुकला पर कई महत्वपूर्ण शोध पत्र जारी किए।
2023 में, गु और गोयल – अपने दो पूर्व स्टैनफोर्ड साथियों, अर्जुन देसाई और ब्रैंडन यांग के साथ – ने अपने शोध का व्यावसायीकरण करने के लिए कार्टेसिया को लॉन्च करने के लिए सेना में शामिल होने का फैसला किया।
कार्टेसिया, जिसकी संस्थापक टीम में आरई भी शामिल है, मांबा के कई डेरिवेटिव के पीछे है, जो शायद आज सबसे लोकप्रिय एसएसएम है। गु और प्रिंसटन के प्रोफेसर त्रि दाओ ने पिछले दिसंबर में एक खुली शोध परियोजना के रूप में मांबा की शुरुआत की और बाद के रिलीज के माध्यम से इसे परिष्कृत करना जारी रखा।
कार्टेसिया अपने स्वयं के एसएसएम को प्रशिक्षित करने के अलावा मांबा के शीर्ष पर निर्माण करता है। सभी एसएसएम की तरह, कार्टेसिया एआई को एक कार्यशील मेमोरी की तरह कुछ देता है, जिससे मॉडल तेज हो जाते हैं – और संभावित रूप से अधिक कुशल – वे कंप्यूटिंग शक्ति कैसे प्राप्त करते हैं।
एसएसएम बनाम ट्रांसफार्मर
चैटजीपीटी से लेकर सोरा तक आज अधिकांश एआई ऐप्स ट्रांसफॉर्मर आर्किटेक्चर वाले मॉडल द्वारा संचालित होते हैं। जैसे ही एक ट्रांसफॉर्मर डेटा को संसाधित करता है, यह जो कुछ भी संसाधित करता है उसे “याद रखने” के लिए “छिपी हुई स्थिति” नामक चीज़ में प्रविष्टियाँ जोड़ता है। उदाहरण के लिए, यदि मॉडल किसी पुस्तक के माध्यम से अपना काम कर रहा है, तो छिपे हुए राज्य मान पुस्तक में शब्दों का प्रतिनिधित्व हो सकते हैं।
छुपी हुई स्थिति ट्रांसफार्मर के इतने शक्तिशाली होने का एक कारण है। लेकिन यही उनकी अकुशलता का कारण भी है. किसी पुस्तक के बारे में एक शब्द भी “कहने” के लिए जिसे ट्रांसफार्मर ने अभी-अभी ग्रहण किया है, मॉडल को उसकी संपूर्ण छिपी हुई स्थिति को स्कैन करना होगा – कम्प्यूटेशनल रूप से पूरी पुस्तक को फिर से पढ़ने जितना कठिन कार्य।
इसके विपरीत, एसएसएम प्रत्येक पूर्व डेटा बिंदु को उन सभी चीज़ों के सारांश में संपीड़ित करता है जो उन्होंने पहले देखी हैं। जैसे ही नया डेटा स्ट्रीम होता है, मॉडल की “स्थिति” अपडेट हो जाती है, और एसएसएम अधिकांश पिछले डेटा को हटा देता है।
नतीजा? एसएसएम कुछ डेटा उत्पादन कार्यों पर ट्रांसफार्मर से बेहतर प्रदर्शन करते हुए बड़ी मात्रा में डेटा को संभाल सकते हैं। अनुमानित लागत जिस तरह से चल रही है, वह वास्तव में एक आकर्षक प्रस्ताव है।
नैतिक चिंताएँ
कार्टेसिया एक सामुदायिक अनुसंधान प्रयोगशाला की तरह काम करती है, जो बाहरी संगठनों के साथ-साथ घरेलू संगठनों के साथ साझेदारी में एसएसएम विकसित करती है। सोनिक, कंपनी का नवीनतम प्रोजेक्ट, एक एसएसएम है जो किसी व्यक्ति की आवाज़ को क्लोन कर सकता है या एक नई आवाज़ उत्पन्न कर सकता है और रिकॉर्डिंग में स्वर और ताल को समायोजित कर सकता है।
गोयल का दावा है कि सोनिक, जो एपीआई और वेब डैशबोर्ड के माध्यम से उपलब्ध है, अपनी श्रेणी में सबसे तेज़ मॉडल है। उन्होंने कहा, “सोनिक इस बात का प्रदर्शन है कि जब स्थिरता और सटीकता की बात आती है तो एसएसएम ऑडियो जैसे लंबे-संदर्भ डेटा पर उच्चतम प्रदर्शन बार बनाए रखते हुए कैसे उत्कृष्टता प्राप्त करते हैं।”
जबकि कार्टेसिया उत्पादों को तेजी से शिप करने में कामयाब रहा है, यह उन्हीं नैतिक नुकसानों में से एक में फंस गया है जिसने अन्य एआई मॉडल-निर्माताओं को परेशान किया है।
कार्टेसिया ने कम से कम अपने कुछ एसएसएम को द पाइल पर प्रशिक्षित किया, जो एक खुला डेटा सेट है जिसमें बिना लाइसेंस वाली कॉपीराइट वाली किताबें शामिल हैं। कई एआई कंपनियों का तर्क है कि उचित उपयोग सिद्धांत उन्हें उल्लंघन के दावों से बचाता है। लेकिन इसने लेखकों को कथित तौर पर द पाइल पर मॉडलों को प्रशिक्षण देने के लिए मेटा और माइक्रोसॉफ्ट तथा अन्य पर मुकदमा करने से नहीं रोका है।
और कार्टेसिया के पास अपने सोनिक-संचालित वॉयस क्लोनर के लिए कुछ स्पष्ट सुरक्षा उपाय हैं। कुछ हफ़्ते पहले, मैं अभियान भाषणों का उपयोग करके पूर्व उपराष्ट्रपति कमला हैरिस की आवाज़ का क्लोन बनाने में सक्षम था (नीचे सुनें)। कार्टेसिया के टूल के लिए केवल यह आवश्यक है कि आप एक बॉक्स को चेक करें जो दर्शाता है कि आप स्टार्टअप के ToS का पालन करेंगे।
जरूरी नहीं कि इस संबंध में कार्टेसिया बाजार में उपलब्ध अन्य वॉयस क्लोनिंग टूल से भी बदतर हो। हालाँकि, वॉयस क्लोन द्वारा बैंक सुरक्षा जांच को मात देने की रिपोर्ट के साथ, प्रकाशिकी आश्चर्यजनक नहीं है।
गोयल यह नहीं कहेंगे कि कार्टेसिया अब द पाइल पर मॉडलों को प्रशिक्षण नहीं दे रहा है। लेकिन उन्होंने टेकक्रंच को बताते हुए मॉडरेशन के मुद्दों को संबोधित किया कि कार्टेसिया में “स्वचालित और मैन्युअल समीक्षा” सिस्टम हैं और वह “आवाज सत्यापन और वॉटरमार्किंग के लिए सिस्टम पर काम कर रहा है।”
गोयल ने कहा, “हमारे पास तकनीकी प्रदर्शन, दुरुपयोग और पूर्वाग्रह जैसे पहलुओं के लिए परीक्षण करने वाली समर्पित टीमें हैं।” “हम अपने मॉडलों की सुरक्षा और विश्वसनीयता का अतिरिक्त स्वतंत्र सत्यापन प्रदान करने के लिए बाहरी लेखा परीक्षकों के साथ साझेदारी भी स्थापित कर रहे हैं… हम मानते हैं कि यह एक सतत प्रक्रिया है जिसमें निरंतर सुधार की आवश्यकता होती है।”
उभरता हुआ व्यवसाय
गोयल का कहना है कि “सैकड़ों” ग्राहक सोनिक एपीआई एक्सेस, कार्टेसिया की राजस्व की प्राथमिक लाइन, जिसमें स्वचालित कॉलिंग ऐप गुडकॉल भी शामिल है, के लिए भुगतान कर रहे हैं। कार्टेसिया की एपीआई 100,000 अक्षरों तक जोर से पढ़ने के लिए मुफ़्त है, सबसे महंगी योजना 8 मिलियन अक्षरों के लिए 299 डॉलर प्रति माह की है। (कार्टेसिया समर्पित समर्थन और कस्टम सीमाओं के साथ एक एंटरप्राइज़ स्तर भी प्रदान करता है।)
डिफ़ॉल्ट रूप से, कार्टेसिया अपने मॉडलों को प्रशिक्षित करने के लिए ग्राहक डेटा का उपयोग करता है – एक अनसुनी नीति नहीं, लेकिन गोपनीयता के प्रति जागरूक उपयोगकर्ताओं के साथ अच्छी तरह से बैठने की संभावना नहीं है। लक्ष्य नोट करता है कि यदि उपयोगकर्ता चाहें तो बाहर निकल सकते हैं, और कार्टेसिया बड़े संगठनों के लिए कस्टम प्रतिधारण नीतियां प्रदान करता है।
ऐसा प्रतीत नहीं होता है कि कार्टेसिया की डेटा प्रथाएं व्यवसाय को नुकसान पहुंचा रही हैं, क्योंकि यह इसके लायक है – कम से कम नहीं, जबकि कार्टेसिया के पास तकनीकी लाभ है। गुडकॉल के सीईओ बॉब समर्स का कहना है कि उन्होंने सोनिक को चुना क्योंकि यह 90 मिलीसेकंड से कम विलंबता वाला एकमात्र वॉयस जेनरेशन मॉडल था।
“[It] समर्स ने कहा, “अपने अगले सर्वश्रेष्ठ विकल्प से चार गुना बेहतर प्रदर्शन किया।”
आज, सोनिक का उपयोग गेमिंग, वॉयस डबिंग और बहुत कुछ के लिए किया जा रहा है। लेकिन गोयल को लगता है कि एसएसएम क्या कर सकते हैं, यह केवल सतह को खरोंचने जैसा है।
उनका दृष्टिकोण ऐसे मॉडल हैं जो किसी भी डिवाइस पर चलते हैं और डेटा के किसी भी रूप – पाठ, चित्र, वीडियो इत्यादि को लगभग तुरंत समझते हैं और उत्पन्न करते हैं। इस दिशा में एक छोटे से कदम में, कार्टेसिया ने इस गर्मी में सोनिक ऑन-डिवाइस का एक बीटा लॉन्च किया, जो वास्तविक समय अनुवाद जैसे अनुप्रयोगों के लिए फोन और अन्य मोबाइल उपकरणों पर चलने के लिए अनुकूलित सोनिक का एक संस्करण है।
सोनिक ऑन-डिवाइस के साथ, कार्टेसिया ने एज, विभिन्न हार्डवेयर कॉन्फ़िगरेशन के लिए एसएसएम को अनुकूलित करने के लिए एक सॉफ्टवेयर लाइब्रेरी, और रेने, एक कॉम्पैक्ट भाषा मॉडल प्रकाशित किया।
गोयल ने कहा, “हमारे पास हर डिवाइस के लिए मल्टीमॉडल फाउंडेशन मॉडल बनने का एक बड़ा, दीर्घकालिक दृष्टिकोण है।” “हमारे दीर्घकालिक रोडमैप में मल्टीमॉडल एआई मॉडल विकसित करना शामिल है, जिसका लक्ष्य वास्तविक समय की बुद्धिमत्ता बनाना है जो बड़े पैमाने पर संदर्भों पर तर्क कर सके।”
यदि ऐसा होना है, तो कार्टेसिया को संभावित नए ग्राहकों को यह विश्वास दिलाना होगा कि इसकी वास्तुकला सीखने की अवस्था में रहने लायक है। इसे ट्रांसफार्मर के विकल्पों के साथ प्रयोग करने वाले अन्य विक्रेताओं से भी आगे रहना होगा।
स्टार्टअप ज़ेफिरा, मिस्ट्रल और एआई21 लैब्स ने हाइब्रिड माम्बा-आधारित मॉडल को प्रशिक्षित किया है। अन्यत्र, रोबोटिक्स के दिग्गज डेनिएला रस के नेतृत्व में लिक्विड एआई, अपनी स्वयं की वास्तुकला विकसित कर रहा है।
गोयल का दावा है कि 26-कर्मचारी कार्टेसिया सफलता के लिए तैयार हैं – नए नकदी प्रवाह के लिए धन्यवाद। कंपनी ने इस महीने इंडेक्स वेंचर्स के नेतृत्व में $22 मिलियन का फंडिंग राउंड बंद कर दिया, जिससे कार्टेसिया की कुल राशि $27 मिलियन हो गई।
इंडेक्स वेंचर्स के पार्टनर शार्दुल शाह, ग्राहक सेवा, बिक्री और विपणन, रोबोटिक्स, सुरक्षा और बहुत कुछ के लिए कार्टेसिया की तकनीकी वन-डे ड्राइविंग ऐप्स देखते हैं।
उन्होंने कहा, “ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर पारंपरिक निर्भरता को चुनौती देकर, कार्टेसिया ने वास्तविक समय, लागत प्रभावी और स्केलेबल एआई अनुप्रयोगों के निर्माण के नए तरीके खोले हैं।” “बाज़ार तेज़, अधिक कुशल मॉडल की मांग कर रहा है जो डेटा सेंटर से लेकर डिवाइस तक कहीं भी चल सकें। कार्टेसिया की तकनीक इस वादे को पूरा करने और एआई नवाचार की अगली लहर को चलाने के लिए विशिष्ट रूप से तैयार है।
ए* कैपिटल, कन्विक्शन, जनरल कैटलिस्ट, लाइटस्पीड और एसवी एंजेल ने भी सैन फ्रांसिस्को स्थित कार्टेसिया के नवीनतम फंडिंग राउंड में भाग लिया।
Hey, I am a multifaceted professional excelling in the realms of blogging, YouTube content creation, and entrepreneurship.
With a passion for sharing knowledge and inspiring others, I established a strong presence in the digital sphere through his captivating blog articles and engaging video content.