NExT-GPT: MFUMO WA LUGHA WA AKILI BANDIA UNAOKUPA MAJIBU KWA MAANDISHI, PICHA, SAUTI NA PICHA MJONGEO
Picha hii imetengenezwa kwa Akili Bandia na Decrypt. |
Katika uwanda mpana wa teknolojia unaotawaliwa na makampuni makubwa kama OpenAI na Google, NExT-GPT ambao ni mfumo huria wa lugha pana ya Akili Bandia (AI) [Large Language M odel (LLM)] unaweza kuwa na kile kinachohitajika ili kushindana na miamba hii miwili katika teknolojia.
ChatGPT imeusisimua ulimwengu kwa uwezo wake wa kuelewa maswali katika lugha asilia na kutoa majibu kama ya binadamu. Lakini wakati Akili Bandia inaendelea kusonga mbele kwa kasi ya umeme, watu wametaka kuwepo na maendeleo zaidi. Zama za maandishi pekee zimekwisha sasa mifumo ya lugha ya Akili Bandia imeanza kuwa mingi kuleta ushindani.
NExT-GPT imetengenezwa kwa ushirikiano kati ya Chuo Kikuu cha taifa cha Singapore (NUS) na Chuo Kikuu cha Tsinghua. Inaweza kuchakata na kutoa majibu kwa kuchanganya maandishi, picha, sauti na picha mjongeo (video). Hii inaruhusu majibizano ya asili zaidi kuliko miundo ya maandishi pekee kama ilivyo kwenye ChatGPT.
Timu iliyoiunda inabainisha NExT-GPT kama mfumo wa "yoyote-kwa-yoyote" (any-to-any system) kumaanisha kuwa inaweza kukubali maswali kwa njia yoyote kati ya picha, sauti, maandishi na video na kutoa majibu kwa namna inayofaa. Tazama video hapa chini:
Maendeleo ya teknolojia yanatokea kwa haraka. Kama muundo wa chanzo huria (open source), NExT-GPT inaweza kuboreshwa na watumiaji ili kukidhi mahitaji yao mahususi. Hii inaweza kupelekea maboresho makubwa zaidi ya mfumo wa awali, kama yaliyotokea katika chanzo huria cha Stable Diffusion na toleo lake la awali. Uhuru wa kuboresha kifaa hiki huwaruhusu wagunduzi kukiboresha kwa ufanisi zaidi.
Kwa hivyo NExT-GPT inafanyaje kazi?
Kama ilivyoelezwa katika matokeo ya utafiti, mfumo huu una miundo tofauti ya kutafsiri maingizo kama vile picha na sauti katika maandishi ambapo muundo wa lugha msingi unaweza kuchakata. Yani unaweza kuweka picha na kuuliza kuhusu picha hiyo na mfumo ukakupa majibu. Mathalani, unaweza kuweka picha yako katika mfumo na kuuliza kuhusu picha hiyo na mfumo ukakujibu.
Watafiti walianzisha mbinu inayoitwa "utaratibu wa kubadili maagizo" (modality-switching instruction tuning) kuboresha uwezo wa kuchanganua, hii namna ambayo mfumo unachakata aina tofauti za maingizo kama muundo mmoja madhubuti. Uboreshaji huu unaifanya NExT-GPT kubadili kwa urahisi namna ya kuchakata taarifa anazotafuta mtumiaji wakati wa mazungumzo.
Ili kushughulikia ingizo linatafutwa NExT-GPT hutumia tokeni za kipekee kama vile kwa picha, kwa sauti na kwa video. Kila aina ya ingizo hubadilishwa kuwa upachikaji ambao muundo wa lugha unauelewa. Kisha muundo wa lugha unaweza kutoa majibu ya maandishi pamoja na ishara maalum za kuanzisha utoaji wa majibu katika mbinu nyingine.
Mfumo wa kutoa majibu kwa nyia ya video huelekeza video kutolewa. Utumiaji wa mfumo wa tokeni zilizolengwa kwa kila muundo wa ingizo na utoaji huruhusu ubadilishaji wowote.
Muundo wa lugha kisha hutoa tokeni maalum ili kuashiria wakati matokeo yasiyo ya maandishi kama vile picha yanapaswa kuzalishwa. Ving'amuzi tofauti huunda matokeo kwa namna tofauti: Stable Diffusion kama kifaa cha kutengeneza picha, AudioLDM kama kifaa cha kutengeneza sauti, na Zeroscope kama kitengeneza video. Pia hutumia Vicuna kama LLM msingi na ImageBind kutafsiri kinachotafutwa.
Kimsingi NExT-GPT ni mfumo wa lugha unaounganisha uwezo wa mifumo tofauti ya Akili Bandia ili kuwa kuwa na mfumo moja wa lugha wenye kila kitu (all-in-one super AI). Badala ya kutumia mfumo wa picha pekee, video pekee ama maandishi pekee mtumiaji atatumia NExT-GPT kukamilisha utafutaji wake iwe kwa picha, maandishi, sauti ama picha mjongeo (video)
NExT-GPT inafanikisha urahisishaji huu wa "yoyote-kwa-yoyote" huku ikifunza1% tu ya vigezo vya jumla vya utafutaji (searching). Vigezo vingine vya utafutaji havibadiliki (frozen parameters). Mfumo huu umepata sifa kutoka kwa watafiti kwa namna ulivyofunzwa.
Tovuti ya majaribio imeanzishwa ili kuruhusu watu kufanya majaribio ya NExT-GPT lakini bado majaribio yanapatikana kwa nyakati tofauti. Kuifikia tovuti hiyo bofya hapa 👉🏿 NExT-GPT DEMO SITE.
Huku makampuni makubwa ya kiteknolojia kama Google na OpenAI wakizindua mifumo yao ya aina hii, NExT-GPT inakua ni mfumo huria mbadala kwa wagunduzi kuuendeleza. Mifumo hii yenye kufanya mambo yote ni muhimu kwa mwingiliano na watumiaji. Na kwa kutumia NExT-GPT kutengeneza mfumo mwingine wa namna hii, watafiti wanatoa chachu kwa jamii kuiendeleza Akili Bandia kufikia hatua bora zaidi.
Makala hii imeandikwa na Jose Antonio Lanz kwenye Decrypt na kusimuliwa kwa Kiswahili na Venance Gilbert.
Septemba 28, 2023.
Mwandishi wa kisomi upo vizuri
ReplyDelete