शाओमीने मंगळवारी एक मुक्त-स्त्रोत तर्क-केंद्रित कृत्रिम बुद्धिमत्ता (एआय) मॉडेल जाहीर केला. डब केलेले मिमो, तर्क मॉडेलचे कुटुंब तुलनेने लहान पॅरामीटर आकारात तर्कशक्तीच्या क्षमतेचे ऑप्टिमायझेशन नवीन करते. टेक जायंटचे हे पहिले मुक्त-स्त्रोत तर्क मॉडेल देखील आहे आणि ते दीपसेक आर 1 आणि अलिबाबा च्या क्वेन क्यूडब्ल्यूक्यू -32 बी सारख्या चिनी मॉडेल्स आणि ओपनईच्या ओ 1 आणि गूगलच्या जीमिनी 2.0 फ्लॅश थिंकिंगसह जागतिक तर्क मॉडेल्सशी स्पर्धा करते. एमआयएमओ कुटुंबात चार भिन्न मॉडेल्स आहेत, प्रत्येक अद्वितीय वापर प्रकरणांसह.
दीपसेक आर 1 सह स्पर्धा करण्यासाठी शाओमीचे एमआयएमओ रिझर्व्हिंग एआय मॉडेल
एआय मॉडेल्सच्या एमआयएमओ मालिकेसह, झिओमी संशोधकांनी एआय मॉडेल्सच्या युक्तिवादाच्या आकाराची समस्या सोडविण्याचे उद्दीष्ट ठेवले. तर्क मॉडेल्स (कमीतकमी मोजले जाऊ शकतात) मध्ये सुमारे 24 अब्ज किंवा त्याहून अधिक पॅरामीटर्स आहेत. मोठ्या भाषेच्या मॉडेल्सच्या कोडिंग आणि गणिताच्या दोन्ही क्षमतांमध्ये एकसमान आणि एकाचवेळी सुधारणा साध्य करण्यासाठी मोठ्या आकारात ठेवले जाते, जे लहान मॉडेलसह साध्य करणे कठीण मानले जाते.
त्या तुलनेत, एमआयएमओमध्ये सात अब्ज पॅरामीटर्स आहेत आणि झिओमीचा असा दावा आहे की त्याची कामगिरी ओपनईच्या ओ 1-मिनीशी जुळते आणि 32 अब्ज पॅरामीटर्ससह अनेक तर्क मॉडेल्सला मागे टाकते. संशोधकांनी असा दावा केला की बेस एआय मॉडेल 25 ट्रिलियन टोकनवर पूर्व-प्रशिक्षित आहे.
संशोधकांनी असा दावा केला आहे की डेटा प्रीप्रोसेसिंग पाइपलाइन ऑप्टिमाइझ करून, मजकूर एक्सट्रॅक्शन टूलकिट वाढवून आणि बहुआयामी डेटा फिल्टरिंग लागू करून अशी कार्यक्षमता प्राप्त केली गेली. पुढे, एमआयएमओच्या पूर्व-प्रशिक्षणात तीन-चरण डेटा मिश्रण रणनीती समाविष्ट आहे.
अंतर्गत चाचणीच्या आधारे, शाओमी संशोधकांचा असा दावा आहे की एमआयएमओ -7 बी-बेसने तर्क क्षमतेसाठी बिग-बेंच हार्ड (बीबीएच) बेंचमार्कवर 75.2 गुण मिळविला आहे. शून्य-शॉट मजबुतीकरण शिक्षण (आरएल) -बेस्ड एमआयएमओ -7 बी-आरएल-झेरो गणित आणि कोडिंग-संबंधित कार्यांमध्ये उत्कृष्ट कामगिरी करण्याचा दावा केला गेला आहे आणि एआयएम बेंचमार्कवर 55.4 गुण मिळविण्याचा दावा आहे, ओ 1-मिनीला 4.7 गुणांनी मागे टाकले आहे.
मिमो हे एक मुक्त-स्रोत एआय मॉडेल असल्याने, झिओमीच्या सूचीवरुन ते डाउनलोड केले जाऊ शकते गीथब आणि मिठी मारणारा चेहरा? तांत्रिक कागद मॉडेलच्या आर्किटेक्चर तसेच प्री-ट्रेनिंग आणि प्रशिक्षणानंतरच्या प्रक्रियेचा तपशील. हे एक मजकूर-आधारित मॉडेल आहे आणि त्यात मल्टीमोडल क्षमता नाही. बहुतेक ओपन-सोर्स रिलीझ प्रमाणेच, मॉडेलच्या डेटासेटबद्दलचा तपशील माहित नाही.