Cartesia Claims Its AI Is Efficient Enough To Run Pretty Much Anywhere

एआई को विकसित करना और चलाना लगातार महंगा होता जा रहा है। ओपनएआई की एआई संचालन लागत इस साल 7 अरब डॉलर तक पहुंच सकती है, जबकि एंथ्रोपिक के सीईओ ने हाल ही में सुझाव दिया था कि 10 अरब डॉलर से अधिक लागत वाले मॉडल जल्द ही आ सकते हैं।

इसलिए एआई को सस्ता बनाने के तरीकों की तलाश जारी है।

गोयल ने टेकक्रंच को बताया, “हमारा मानना ​​है कि वास्तव में उपयोगी एआई मॉडल बनाने के लिए नए मॉडल आर्किटेक्चर आवश्यक हैं।” “एआई उद्योग एक प्रतिस्पर्धी स्थान है, वाणिज्यिक और खुला स्रोत दोनों, और सर्वोत्तम मॉडल का निर्माण सफलता के लिए महत्वपूर्ण है।”

शैक्षणिक जड़ें

कार्टेसिया में शामिल होने से पहले, गोयल पीएच.डी. थे। स्टैनफोर्ड की एआई लैब में उम्मीदवार, जहां उन्होंने अन्य लोगों के अलावा कंप्यूटर वैज्ञानिक क्रिस्टोफर रे की देखरेख में काम किया। स्टैनफोर्ड में रहते हुए, गोयल की मुलाकात साथी पीएच.डी. अल्बर्ट गु से हुई। प्रयोगशाला में उम्मीदवार, और दोनों ने रूपरेखा तैयार की कि एसएसएम क्या बनेगा।

गोयल ने अंततः स्नोर्कल एआई, फिर सेल्सफोर्स में नौकरी की, जबकि गु कार्नेगी मेलन में सहायक प्रोफेसर बन गए। लेकिन गु और गोयल ने एसएसएम का अध्ययन जारी रखा और वास्तुकला पर कई महत्वपूर्ण शोध पत्र जारी किए।

2023 में, गु और गोयल – अपने दो पूर्व स्टैनफोर्ड साथियों, अर्जुन देसाई और ब्रैंडन यांग के साथ – ने अपने शोध का व्यावसायीकरण करने के लिए कार्टेसिया को लॉन्च करने के लिए सेना में शामिल होने का फैसला किया।

काटीज़ियनकाटीज़ियन
कार्टेसिया की संस्थापक टीम। बाएं से दाएं: ब्रैंडन यांग, करण गोयल, अल्बर्ट गु, और अर्जुन देसाई। छवि क्रेडिट:काटीज़ियन

कार्टेसिया, जिसकी संस्थापक टीम में आरई भी शामिल है, मांबा के कई डेरिवेटिव के पीछे है, जो शायद आज सबसे लोकप्रिय एसएसएम है। गु और प्रिंसटन के प्रोफेसर त्रि दाओ ने पिछले दिसंबर में एक खुली शोध परियोजना के रूप में मांबा की शुरुआत की और बाद के रिलीज के माध्यम से इसे परिष्कृत करना जारी रखा।

कार्टेसिया अपने स्वयं के एसएसएम को प्रशिक्षित करने के अलावा मांबा के शीर्ष पर निर्माण करता है। सभी एसएसएम की तरह, कार्टेसिया एआई को एक कार्यशील मेमोरी की तरह कुछ देता है, जिससे मॉडल तेज हो जाते हैं – और संभावित रूप से अधिक कुशल – वे कंप्यूटिंग शक्ति कैसे प्राप्त करते हैं।

एसएसएम बनाम ट्रांसफार्मर

चैटजीपीटी से लेकर सोरा तक आज अधिकांश एआई ऐप्स ट्रांसफॉर्मर आर्किटेक्चर वाले मॉडल द्वारा संचालित होते हैं। जैसे ही एक ट्रांसफॉर्मर डेटा को संसाधित करता है, यह जो कुछ भी संसाधित करता है उसे “याद रखने” के लिए “छिपी हुई स्थिति” नामक चीज़ में प्रविष्टियाँ जोड़ता है। उदाहरण के लिए, यदि मॉडल किसी पुस्तक के माध्यम से अपना काम कर रहा है, तो छिपे हुए राज्य मान पुस्तक में शब्दों का प्रतिनिधित्व हो सकते हैं।

छुपी हुई स्थिति ट्रांसफार्मर के इतने शक्तिशाली होने का एक कारण है। लेकिन यही उनकी अकुशलता का कारण भी है. किसी पुस्तक के बारे में एक शब्द भी “कहने” के लिए जिसे ट्रांसफार्मर ने अभी-अभी ग्रहण किया है, मॉडल को उसकी संपूर्ण छिपी हुई स्थिति को स्कैन करना होगा – कम्प्यूटेशनल रूप से पूरी पुस्तक को फिर से पढ़ने जितना कठिन कार्य।

इसके विपरीत, एसएसएम प्रत्येक पूर्व डेटा बिंदु को उन सभी चीज़ों के सारांश में संपीड़ित करता है जो उन्होंने पहले देखी हैं। जैसे ही नया डेटा स्ट्रीम होता है, मॉडल की “स्थिति” अपडेट हो जाती है, और एसएसएम अधिकांश पिछले डेटा को हटा देता है।

नतीजा? एसएसएम कुछ डेटा उत्पादन कार्यों पर ट्रांसफार्मर से बेहतर प्रदर्शन करते हुए बड़ी मात्रा में डेटा को संभाल सकते हैं। अनुमानित लागत जिस तरह से चल रही है, वह वास्तव में एक आकर्षक प्रस्ताव है।

नैतिक चिंताएँ

कार्टेसिया एक सामुदायिक अनुसंधान प्रयोगशाला की तरह काम करती है, जो बाहरी संगठनों के साथ-साथ घरेलू संगठनों के साथ साझेदारी में एसएसएम विकसित करती है। सोनिक, कंपनी का नवीनतम प्रोजेक्ट, एक एसएसएम है जो किसी व्यक्ति की आवाज़ को क्लोन कर सकता है या एक नई आवाज़ उत्पन्न कर सकता है और रिकॉर्डिंग में स्वर और ताल को समायोजित कर सकता है।

गोयल का दावा है कि सोनिक, जो एपीआई और वेब डैशबोर्ड के माध्यम से उपलब्ध है, अपनी श्रेणी में सबसे तेज़ मॉडल है। उन्होंने कहा, “सोनिक इस बात का प्रदर्शन है कि जब स्थिरता और सटीकता की बात आती है तो एसएसएम ऑडियो जैसे लंबे-संदर्भ डेटा पर उच्चतम प्रदर्शन बार बनाए रखते हुए कैसे उत्कृष्टता प्राप्त करते हैं।”

काटीज़ियनकाटीज़ियन
कार्टेसिया का सोनिक मॉडल PROSODY सहित भाषण को काफी हद तक अनुकूलित कर सकता है। छवि क्रेडिट:काटीज़ियन

जबकि कार्टेसिया उत्पादों को तेजी से शिप करने में कामयाब रहा है, यह उन्हीं नैतिक नुकसानों में से एक में फंस गया है जिसने अन्य एआई मॉडल-निर्माताओं को परेशान किया है।

कार्टेसिया ने कम से कम अपने कुछ एसएसएम को द पाइल पर प्रशिक्षित किया, जो एक खुला डेटा सेट है जिसमें बिना लाइसेंस वाली कॉपीराइट वाली किताबें शामिल हैं। कई एआई कंपनियों का तर्क है कि उचित उपयोग सिद्धांत उन्हें उल्लंघन के दावों से बचाता है। लेकिन इसने लेखकों को कथित तौर पर द पाइल पर मॉडलों को प्रशिक्षण देने के लिए मेटा और माइक्रोसॉफ्ट तथा अन्य पर मुकदमा करने से नहीं रोका है।

और कार्टेसिया के पास अपने सोनिक-संचालित वॉयस क्लोनर के लिए कुछ स्पष्ट सुरक्षा उपाय हैं। कुछ हफ़्ते पहले, मैं अभियान भाषणों का उपयोग करके पूर्व उपराष्ट्रपति कमला हैरिस की आवाज़ का क्लोन बनाने में सक्षम था (नीचे सुनें)। कार्टेसिया के टूल के लिए केवल यह आवश्यक है कि आप एक बॉक्स को चेक करें जो दर्शाता है कि आप स्टार्टअप के ToS का पालन करेंगे।

जरूरी नहीं कि इस संबंध में कार्टेसिया बाजार में उपलब्ध अन्य वॉयस क्लोनिंग टूल से भी बदतर हो। हालाँकि, वॉयस क्लोन द्वारा बैंक सुरक्षा जांच को मात देने की रिपोर्ट के साथ, प्रकाशिकी आश्चर्यजनक नहीं है।

गोयल यह नहीं कहेंगे कि कार्टेसिया अब द पाइल पर मॉडलों को प्रशिक्षण नहीं दे रहा है। लेकिन उन्होंने टेकक्रंच को बताते हुए मॉडरेशन के मुद्दों को संबोधित किया कि कार्टेसिया में “स्वचालित और मैन्युअल समीक्षा” सिस्टम हैं और वह “आवाज सत्यापन और वॉटरमार्किंग के लिए सिस्टम पर काम कर रहा है।”

गोयल ने कहा, “हमारे पास तकनीकी प्रदर्शन, दुरुपयोग और पूर्वाग्रह जैसे पहलुओं के लिए परीक्षण करने वाली समर्पित टीमें हैं।” “हम अपने मॉडलों की सुरक्षा और विश्वसनीयता का अतिरिक्त स्वतंत्र सत्यापन प्रदान करने के लिए बाहरी लेखा परीक्षकों के साथ साझेदारी भी स्थापित कर रहे हैं… हम मानते हैं कि यह एक सतत प्रक्रिया है जिसमें निरंतर सुधार की आवश्यकता होती है।”

उभरता हुआ व्यवसाय

गोयल का कहना है कि “सैकड़ों” ग्राहक सोनिक एपीआई एक्सेस, कार्टेसिया की राजस्व की प्राथमिक लाइन, जिसमें स्वचालित कॉलिंग ऐप गुडकॉल भी शामिल है, के लिए भुगतान कर रहे हैं। कार्टेसिया की एपीआई 100,000 अक्षरों तक जोर से पढ़ने के लिए मुफ़्त है, सबसे महंगी योजना 8 मिलियन अक्षरों के लिए 299 डॉलर प्रति माह की है। (कार्टेसिया समर्पित समर्थन और कस्टम सीमाओं के साथ एक एंटरप्राइज़ स्तर भी प्रदान करता है।)

डिफ़ॉल्ट रूप से, कार्टेसिया अपने मॉडलों को प्रशिक्षित करने के लिए ग्राहक डेटा का उपयोग करता है – एक अनसुनी नीति नहीं, लेकिन गोपनीयता के प्रति जागरूक उपयोगकर्ताओं के साथ अच्छी तरह से बैठने की संभावना नहीं है। लक्ष्य नोट करता है कि यदि उपयोगकर्ता चाहें तो बाहर निकल सकते हैं, और कार्टेसिया बड़े संगठनों के लिए कस्टम प्रतिधारण नीतियां प्रदान करता है।

ऐसा प्रतीत नहीं होता है कि कार्टेसिया की डेटा प्रथाएं व्यवसाय को नुकसान पहुंचा रही हैं, क्योंकि यह इसके लायक है – कम से कम नहीं, जबकि कार्टेसिया के पास तकनीकी लाभ है। गुडकॉल के सीईओ बॉब समर्स का कहना है कि उन्होंने सोनिक को चुना क्योंकि यह 90 मिलीसेकंड से कम विलंबता वाला एकमात्र वॉयस जेनरेशन मॉडल था।

“[It] समर्स ने कहा, “अपने अगले सर्वश्रेष्ठ विकल्प से चार गुना बेहतर प्रदर्शन किया।”

बढ़िया कॉलबढ़िया कॉल
गुडकॉल की एआई “एजेंट” सेवा कार्टेसिया के सोनिक एपीआई पर निर्भर करती है। छवि क्रेडिट:बढ़िया कॉल

आज, सोनिक का उपयोग गेमिंग, वॉयस डबिंग और बहुत कुछ के लिए किया जा रहा है। लेकिन गोयल को लगता है कि एसएसएम क्या कर सकते हैं, यह केवल सतह को खरोंचने जैसा है।

उनका दृष्टिकोण ऐसे मॉडल हैं जो किसी भी डिवाइस पर चलते हैं और डेटा के किसी भी रूप – पाठ, चित्र, वीडियो इत्यादि को लगभग तुरंत समझते हैं और उत्पन्न करते हैं। इस दिशा में एक छोटे से कदम में, कार्टेसिया ने इस गर्मी में सोनिक ऑन-डिवाइस का एक बीटा लॉन्च किया, जो वास्तविक समय अनुवाद जैसे अनुप्रयोगों के लिए फोन और अन्य मोबाइल उपकरणों पर चलने के लिए अनुकूलित सोनिक का एक संस्करण है।

सोनिक ऑन-डिवाइस के साथ, कार्टेसिया ने एज, विभिन्न हार्डवेयर कॉन्फ़िगरेशन के लिए एसएसएम को अनुकूलित करने के लिए एक सॉफ्टवेयर लाइब्रेरी, और रेने, एक कॉम्पैक्ट भाषा मॉडल प्रकाशित किया।

गोयल ने कहा, “हमारे पास हर डिवाइस के लिए मल्टीमॉडल फाउंडेशन मॉडल बनने का एक बड़ा, दीर्घकालिक दृष्टिकोण है।” “हमारे दीर्घकालिक रोडमैप में मल्टीमॉडल एआई मॉडल विकसित करना शामिल है, जिसका लक्ष्य वास्तविक समय की बुद्धिमत्ता बनाना है जो बड़े पैमाने पर संदर्भों पर तर्क कर सके।”

यदि ऐसा होना है, तो कार्टेसिया को संभावित नए ग्राहकों को यह विश्वास दिलाना होगा कि इसकी वास्तुकला सीखने की अवस्था में रहने लायक है। इसे ट्रांसफार्मर के विकल्पों के साथ प्रयोग करने वाले अन्य विक्रेताओं से भी आगे रहना होगा।

स्टार्टअप ज़ेफिरा, मिस्ट्रल और एआई21 लैब्स ने हाइब्रिड माम्बा-आधारित मॉडल को प्रशिक्षित किया है। अन्यत्र, रोबोटिक्स के दिग्गज डेनिएला रस के नेतृत्व में लिक्विड एआई, अपनी स्वयं की वास्तुकला विकसित कर रहा है।

गोयल का दावा है कि 26-कर्मचारी कार्टेसिया सफलता के लिए तैयार हैं – नए नकदी प्रवाह के लिए धन्यवाद। कंपनी ने इस महीने इंडेक्स वेंचर्स के नेतृत्व में $22 मिलियन का फंडिंग राउंड बंद कर दिया, जिससे कार्टेसिया की कुल राशि $27 मिलियन हो गई।

इंडेक्स वेंचर्स के पार्टनर शार्दुल शाह, ग्राहक सेवा, बिक्री और विपणन, रोबोटिक्स, सुरक्षा और बहुत कुछ के लिए कार्टेसिया की तकनीकी वन-डे ड्राइविंग ऐप्स देखते हैं।

उन्होंने कहा, “ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर पारंपरिक निर्भरता को चुनौती देकर, कार्टेसिया ने वास्तविक समय, लागत प्रभावी और स्केलेबल एआई अनुप्रयोगों के निर्माण के नए तरीके खोले हैं।” “बाज़ार तेज़, अधिक कुशल मॉडल की मांग कर रहा है जो डेटा सेंटर से लेकर डिवाइस तक कहीं भी चल सकें। कार्टेसिया की तकनीक इस वादे को पूरा करने और एआई नवाचार की अगली लहर को चलाने के लिए विशिष्ट रूप से तैयार है।

ए* कैपिटल, कन्विक्शन, जनरल कैटलिस्ट, लाइटस्पीड और एसवी एंजेल ने भी सैन फ्रांसिस्को स्थित कार्टेसिया के नवीनतम फंडिंग राउंड में भाग लिया।

Leave a Comment

You cannot copy content of this page