چالشهای پیش روی هوش مصنوعی فارسی: از کمبود داده تا ملاحظات فرهنگی
در عصری که ابزارهای ارتباطی مبتنی بر هوش مصنوعی در حال تغییر نحوه تعامل کسبوکارها و افراد هستند، چتباتهای فارسی بهعنوان تغییردهنده بازی در بازار سرویسهای فارسیزبان ظاهر شدهاند. از بهبود تجربه خدمات مشتری گرفته تا خودکارسازی وظایف معمول، این چتباتها شروع به تغییر شکل بخشهای مختلف کردهاند.
به گزارش پیوست، با توجه به دسترسی محدود منابع فارسی چالشهای چتباتهای فارسی و اخرین محصولاتی که در این حوزه ارائه شده است بررسی میشود. تا برای پاسخگویی به تقاضای رو به رشد زبان فارسی به نوآوریهای پیشرفته این مدلهای زبانی پرداخته شود. راهحلهای بومیسازی شده و هوشمند در محیطهای شخصی و حرفهای این مدلها به عنوان راهکار عملی برای حل چالشهای زبان فارسی طراحی شده است.
حوزه آموزشدیده مدلهای زبانی فارسی و وجه تمایز آنها
امیرمحمد صالحاوف، مدیر تیم پردازش زبان طبیعی در مرکز تحقیقات هوش مصنوعی پارت
امیرمحمد صالحاوف، مدیر تیم پردازش زبان طبیعی در مرکز تحقیقات هوش مصنوعی پارت، گفت: «تمرکز ما در ابتدا روی مدل عمومی زبان فارسی است و بعضاً از دادههای تخصصی نیز در آموزش این مدل استفاده شده است. هدف این است که کاربر بتواند در وهله اول سؤالات عمومی را از مدل بپرسد و جواب خود را دریافت کند.»
مرکز هوش مصنوعی پارت با این هدف مدل زبانی «توکا» با حجم داده ۵۰۰ گیگابایت معادل ۹۰ میلیارد توکن، مبتنی بر BERT large را توسعه داده و به صورت متن باز در اختیار کاربران قرار گرفته است. از طرف دیگر مدل زبانی بزرگ هشت میلیارد پارامتری از گروه دُرنا نیز آموزشدیده و در میان LLMهای فارسی عملکرد مطلوبی داشته است. از مزایای این مدل زبانی، استفاده از معماری جدید و فناوریهای بهروز دنیا، و نیز دادههای باکیفیت در آموزش این مدل است. همچنین در تعاملات زبان بومی و پسزمینههای فرهنگی ایرانی و فارسی، عملکرد بهتری نسبت به محصولات مشابه خارجی دارد.
صالحاوف در مورد توسعه تخصصی مدلها اشاره کرد: «توسعه مدلهای تخصصی در برنامه بلندمدت ما قرار دارد تا در صورت نیاز بتوانیم مدلهای زبانی تخصصی هر حوزه مانند حقوقی، پزشکی، مهندسی و… را توسعه بدهیم. در حال حاضر اولویت ما توسعه یک مدل پایه زبانی است؛ چراکه همین مدل پایه سبب میشود مدلهای تخصصی هم بتوانند قدرت و کیفیت خود را بهخوبی به نمایش بگذارند. این مدلها، به دلیل درک عمیق از زبان و فرهنگ فارسی، امکان ارائه خدمات با کیفیت و دقت بالاتر را به مشاغل فارسیزبان میدهند و در زمینههایی که مدلهای جهانی ضعف دارند، عملکرد بهتری دارند.»
محدودیتهای زیرساختی در توسعه مدلهای زبانی
آرش امینی، مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی در مجموعه MCINext در مورد مدلهای زبانی که همراه اول ارائه کرده است، گفت: «با توجه به زیرساختهایی محدودی که در کشور داریم، تولید مدلهای زبانی خیلی بزرگ عملاً مقدور نیست. به علاوه، سرور کردن چنین مدلهایی نیز بسیار پرهزینه است. رویکرد مجموعه ما تولید یا بهینهسازی مدلهای زبانی کوچک برای استفادههای مختلف در زبان فارسی است.»
امینی در مورد مدلهای زبانی همراه اول توضیح داد: «مدل “سیلک” با ۱.۳ میلیارد پارامتر که از پایه (from scratch) در مجموعه خودمان تولید شده است، بسیار کوچک و در نتیجه با قابلیت خدمت آسان، اما محدود به زبان فارسی، با دانش نسبتاً کم است. مدل “آهوران” بر پایه Llama 3 با هشت میلیارد پارامتر به صورت continual pretraining آموزش دیده است. این مدل چند زبانی دانش گستردهتری دارد و برای نیاز به متقاضیان فارسی زبان بهینهسازی شده است.»
همچنین او اضافه کرد: «مدل “آوا” بر پایه مدل ۱۳ میلیارد پارامتری Aya به صورت fine tune ایجاد شده است. دو مدل اول مدلهای زبانی کلی (general) هستند اما مدل سوم به منظور استفاده در حالت RAG بهینه شده است. مدل آوا برای کاربردهایی در نظر گرفته شده است که پاسخ به سوالات کاربر باید از یک مجموعه داده مشخص (مانند مجموعه سوالات و جوابهای رایج یک شرکت) استخراج شود.»
امینی گفت: «دادههای استفادهشده برای آموزش این مدل را تیم خودمان جمعآوری و تمیز کرده است و شامل بخشهای مختلفی از جمله دادههای web، کتاب، سوال و جوابهای مختلف میشود. در ابتدا مدلها بدون جهتگیری نسبت به سوالات نامناسب ارائه شده بودند؛ اکنون مدلها پس از فرایند DPO (برای جلوگیری از پاسخ به سوالات نامناسب) دوباره جایگزین شدند و به صورت رایگان در دسترس کاربران هستند.»
راهکار برای چالش گویشها و تنوع ساختار فارسی
امیرمحمد صالحاوف توضیح داد: «زبان فارسی به طور کلی جزو زبانهای Low-resource دنیا محسوب نمیشود و زبانی است که تعداد گویندههایش و کسانی که از این زبان استفاده میکنند، کم نیست. در نتیجه، منبعهای خوبی از زبان فارسی در دسترس است. ولی در واقعیت، کلیت زبان به شکلی نیست که این منابع بهراحتی در دسترس محققان باشد.»
او اشاره کرد: «ما با توجه به تجربیاتی که در هوش مصنوعی پیدا کردیم، به این نتیجه رسیدیم که باید ابتدا روی گویش اصلی فارسی (که به معنای گویش معیار فارسی است) تمرکز کنیم و آن را به کیفیت مطلوبی برسانیم. در اولویت بعدی میتوانیم به سراغ دیگر گویشها برویم و درباره آنها تصمیمگیری کنیم.»
مدیر تیم پردازش زبان طبیعی مرکز هوش مصنوعی پارت اضافه کرد: «درباره ساختار زبانی، دادههایی که جمعآوری شده هر دو ساختار محاوره و رسمی را دربر میگیرد. در نتیجه در مدلهایی که آموزش و توسعه دادهایم، از نظر گویش، گویش رسمی و از نظر تنوع ساختار، هر دو ساختار رسمی و محاوره را پشتیبانی میکنیم.»
آرش امینی،مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی در مجموعه MCINext و مدیر فنی مجموعه MCILab
امینی، مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی همراه اول، گفت: «در حال حاضر، مدل ما تنها به صورت متنی مورد استفاده قرار میگیرد؛ در نتیجه، گویش تاثیری در آن ندارد. هنوز مدل ما با ASR ترکیب نشده است، اما تولید ASR در مجموعه نیز در مراحل انتهایی است. در خصوص فهم ساختارهای مختلف زبان، از متون موجود در اینترنت استفاده کردیم و بهویژه از پرسش و پاسخهایی که در سایتهای مختلف وجود دارد بهره بردیم. هنگامی که دادههای آموزش تنوع زیادی از ساختارهای زبانی را دربر داشته باشند، مدل نیز به صورت خودکار ساختارها را یاد میگیرد. البته، در مدلهای آهوران و آوا، به دلیل استفاده از مدلهای اولیه آموزشدیده با زبانهای مختلف کار راحتتر بود.»
ملاحظات آموزش مدلهای زبانی
صالحاوف در مورد مدلهای زبانی پارت توضیح داد: «مجموعه دادههایی که برای توسعه مدل زبانی استفاده شده شامل دیتاهای مختلفی است. این دادهها شامل دیتاهای متنباز (Open-source) است که به طور عمومی در دسترس قرار دارد و همچنین دادههای اختصاصی که تیم ما جمعآوری کرده است. نکته شایان توجه این است که دادههای مورد استفاده برای آموزش مدل به طور خام قابل استفاده نیستند و نیاز به تحلیل و بررسی دقیق دارند. بعضی از پیشپردازشها نیاز است به یک مدل باکیفیت دست پیدا کنیم.»
پیرامون بحث ملاحظات او ادامه داد: «شکی نیست که برخی ملاحظات باید در ساختار مدل زبانی فارسی لحاظ شود. یک دسته از ملاحظات شامل مواردی است که مختص فرهنگ و سیاست کشور ماست. هر کشور با توجه به قوانین خود، مباحث خاصی را مد نظر دارد که میبایست در مدلهای زبانی رعایت شود. این موارد شامل مباحث سیاسی، اخلاقی و… است تا به سوالات مطرحشده از مدل زبانی با توجه به سیاستهای آن کشور پاسخ داده شود.»
امینی گفت: «در زمان تولید مدلهای زبانی همراه اول، مجموعه دادههای مناسبی مانند ترگمان وجود نداشت و خودمان شروع به جمعآوری و تمیز کردن دادههای وب کردیم. در کنار آن اقدام به تهیه و خرید داده از مجموعههای مختلف هم کردیم. پس از آن، چندین مرحله آموزش مدل انجام دادیم و هربار با مشاهده جوابهای نامناسب به مشکلاتی در دادههای آموزش پی میبردیم و دوباره عیوب دادهها را برطرف میکردیم. اما واقعیت اینکه هیچگاه به داده کاملاً ایدهآل نرسیدیم.»
او گفت: «در نهایت حتی وقتی مدلها را رونمایی کردیم، در مواجهه با برخی از سوالات چالشی سیاسی، مذهبی، ملی، اخلاقی و… با پاسخهایی نامناسب مواجه میشدیم. مثلاً از مدل توقع میرود در پاسخ به سوالاتی در خصوص راهنمایی برای دزدی پاسخ مشخصی ندهد. اما مدل ما در ابتدا چنین نبود. در مرحله بعد، فرایند مفصلی برای همراستاسازی (alignment) مدلها طی کردیم تا به شرایط نسبتاً مطلوب فعلی رسیدیم. اما نکته منفی این روش این است که دقت مدلها در پاسخ به سوالات مناسب نیز اندکی کاهش مییابد. در حال حاضر، مشغول تولید یک دیتاست جدید برای آموزش مدلها هستیم که تا حد زیادی از مشکلات قبلی عاری باشد.»
آینده مدلهای فارسی زبان
صالحاوف درمورد این موضوع گفت: «ما آینده مدلهای زبانی فارسی را بسیار مثبت میبینیم. در داخل کشور، شاهد تلاشهای خوبی در این حوزه هستیم و مجموعههای مختلفی به فراخور امکانات و استعدادهای خود در زمینه آموزش مدلهای زبانی مشغول فعالیت هستند. این مجموعهها در بخشهای متنوعی مانند زبانشناسی، مدلسازی، جمعآوری داده و… متمرکز هستند. به طور کلی، آینده مدلهای زبانی فارسی از نظر ما بسیار درخشان است؛ زیرا فعالیتهایی که امروزه در داخل کشور در حال انجام است نسبت به دیگر کشورهای منطقه، بسیار امیدوارکننده است و بعضاً شاهد فعالیتها و نوآوریهایی هستیم که در سطح دنیا انجام میشود.»
امینی در این باره توضیح داد: «تمرکز مجموعه هوش مصنوعی همراه اول، در حال حاضر تولید مدلهای زبانی کوچک بومی است که بهراحتی (حتی در edge deviceها) قابل بهرهبرداری باشد. به عنوان مثال، یک مدل دو میلیاردی با سه زبان توسعه داده شده است که در حال طی مراحل تست و بررسی است. همچنین، تولید یک مدل سه میلیاردی با دانش فارسی بسیار وسیعتر نیز در دست پیگیری است.»
گسترش قابلیتهایی مانند یکپارچهسازی صدا یا مدیریت بهتر گویشهای منطقهای
صالحاوف گفت: «درباره گسترش قابلیت دسترسیپذیری مدل و افزایش کاربردهای آن برای عموم افراد، میتوانم به اپلیکیشن ویرا اشاره کنم که اخیراً از سپی مجموعه پارت توسعه یافته و در دسترس همه مردم قرار گرفته است. این اپلیکیشن که کمتر از یک سال از عرضه آن میگذرد، با استقبال گستردهای نیز از جانب کاربران همراه بوده است. در داخل این اپ، سرویسهای generative یا مولد ما قرار دارند که از جذابیت ویژهای برای کاربران عادی برخوردار هستند.»
او همچنین اضافه کرد: «دیگر سرویسهای ما از جمله صوت، ویژن و NLP نیز در داخل اپ ویرا در دسترس است. در کنار این موارد، سرویس چتبات «دانیار» نیز هماکنون در اپ ویرا قابل استفاده است که برای پاسخدهی به سوالات از مدل زبانی «درنا» بهره میبرد.»
مدیر توسعه مرکز AI پارت ادامه داد: «ما برنامه داریم که به منظور گسترش فعالیتها، سرویسهای صوت به متن و متن به صوت خود را با سرویس دانیار ترکیب کنیم. از این طریق، میتوانیم قابلیت برقراری ارتباط صوتی با چتبات را برای کاربران فراهم کنیم و در جهت بهبود تجربه کاربری آنها گام برداریم.»
امینی در آخر گفت: «اضافه کردن قابلیتهای صوتی نیز به صورت موازی در مجموعه و آزمایشگاه هوش مصنوعی همراه اول در حال انجام است و احتمالاً تا چند وقت دیگر با مدل زبانی ترکیب خواهد شد. البته، چالش گویش در توسعه مدل زبانی فارسی سد بزرگی محسوب میشود. نکته قابل ذکر دیگر، شروع فعالیت روی مدلهای چندحالتی (multimodal) است که قابلیت تولید تصویر، صدا یا ویدئو نیز دارند. البته تا رسیدن به نتیجه مطلوب در این بخش راه درازی در پیش است.»