یادگیری ماشینی توانایی رونویسی گفتار عربی را بهبود می بخشد

[ad_1]

به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امید است که روزی بتوانید از دستیار مجازی خود بپرسید که بهترین مواد برای سالاد چیست. در حال حاضر، این امکان وجود دارد که از گجت خانگی خود بخواهید موسیقی پخش کند یا آن را با دستورات صوتی باز کند، این ویژگی قبلاً در بسیاری از دستگاه ها یافت شده است.

اگر به لهجه های مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجه های عربی دیگر صحبت می کنید که در برخی مناطق که برخی از آنها همدیگر را نمی فهمند بسیار متنوع هستند، موضوع متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شده‌اید.

این ساخت و سازهای پیچیده احمدعلی را مشتاق یافتن راه حلی کرد. او مهندس پیشرو در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر و بنیانگذار گفتار عربی است، جامعه ای که به نفع علم گفتار و گفتار عربی وجود دارد. فناوری گفتار

علی چندین سال پیش در IBM مجذوب ایده صحبت کردن با ماشین‌ها، لوازم خانگی و وسایل بود. آیا می‌توانیم ماشین‌هایی بسازیم که قادر به درک لهجه‌های مختلف باشند، مانند پزشکان اطفال مصری برای خودکار کردن نسخه‌ها، یک معلم سوری که بچه‌ها را قسمت اصلی درس‌هایشان را بپذیرد، یا سرآشپزهای مراکشی بهترین دستور العمل‌های کوسکوس را توصیف می‌کنند؟» او می گوید. با این حال، الگوریتم‌هایی که این دستگاه‌ها را نیرو می‌دهند، نمی‌توانند تقریباً در 30 نوع از زبان عربی اجرا شوند. امروزه اکثر ابزارهای تشخیص تلفظ فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.

Coronavirus (اپیدمی) در سراسر کشور (یا قاره) بیماری (اپیدمی) در سراسر کشور (یا در سراسر قاره) در حال حاضر اتکای رو به رشدی به فناوری صدا وجود دارد، جایی که فناوری پردازش زبان طبیعی به افراد اجازه می‌دهد دستورالعمل‌های خانه و فاصله فیزیکی را دنبال کنند. کمک کرده است. با این حال، از آنجایی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، برنامه های کاربردی بیشتری در آینده وجود خواهد داشت.

میلیون‌ها نفر در سراسر جهان از دوره گسترده آنلاین باز (MOOC) برای دسترسی آزاد و مشارکت نامحدود آن استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی MOOC است که در آن دانش‌آموزان می‌توانند بخش‌های خاصی از برنامه درسی گفتاری را جستجو کنند و ترجمه را از طریق زیرنویس‌ها فعال کنند. فن آوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دانشگاه امکان پذیر می کند.

بر اساس مقاله اخیر در مجله فناوری گفتار، پیش بینی می شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون ها مصرف کننده و شرکت در سراسر جهان برای برقراری ارتباط با تجهیزات یا اتومبیل خود تنها به ربات های صوتی متکی هستند. بهبود خدمات مشتری، هدایت نوآوری در مراقبت های بهداشتی و بهبود دسترسی و فراگیری برای افرادی که دارای آسیب های شنوایی، گفتاری یا حرکتی هستند.

در یک نظرسنجی در سال 2019، Capgemini پیش بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف کننده به جای مراجعه به فروشگاه ها یا شعب بانک ها، دستیار صوتی را انتخاب خواهند کرد. پیش‌بینی می‌شود زندگی‌ها و مشاغل دور از خانه در خانه و از نظر فیزیکی که بیش از یک سال و نیم درگیر این همه‌گیری بوده‌اند، به طور تصاعدی رشد کنند.

با این حال، داشتن یکی از آنها هنوز از توان یک فرد معمولی خارج است. برای آن 30 نوع عرب و میلیون ها نفر، این فرصت مهمی است که از دست رفته است.

عربی برای ماشین

ربات های صوتی انگلیسی یا فرانسوی زبان کامل نیستند. با این حال، آموزش ماشین‌ها برای درک زبان عربی به دلایلی دشوار است. در اینجا سه چالش رایج وجود دارد:

عدم وجود نشانه ها. لهجه های عربی عمدتاً زبان های گفتاری هستند. بیشتر متن موجود رمزگشایی نشده است، به این معنی که حاوی لهجه هایی مانند حاد (´) یا انتقادی (`) نیست که مقادیر صوتی حروف را نشان می دهد. بنابراین تعیین اینکه حروف صدادار کجا می روند دشوار است.
کمبود منابع. فقدان اطلاعات برچسب گذاری شده برای لهجه های مختلف عربی. در مجموع، آنها قوانین املایی استانداردی ندارند که نحوه نوشتن یک زبان را تعیین کند، از جمله معیارها یا املا، خط فاصله، حجم کلمه و تاکید. این واقعیت که این منابع برای آموزش مدل های کامپیوتری مهم هستند و تعداد بسیار کمی از آنها وجود دارد، مانع توسعه تشخیص تلفظ عربی شده است.
پیچیدگی مورفولوژیکی بسیاری از عربی زبانان در تغییر کد نقش دارند. به عنوان مثال، گویش‌های فرانسوی-شمال آفریقا، مراکش، الجزایر و مناطق پرجمعیت تونس حاوی کلمات فرانسوی زیادی هستند. در نتیجه تعداد کلمات به اصطلاح غیرکلامی زیاد است که به دلیل عربی نبودن این کلمات، تکنیک تشخیص تلفظ را نمی فهمند.

علی می گوید: «اما مزرعه با سرعت برق در حال حرکت است. این تلاش مشترک بسیاری از محققان برای حرکت سریعتر آن است. آزمایشگاه فناوری زبان عربی علی رهبری پروژه گفتار عربی را بر عهده دارد که ترجمه های عربی را با گویش اصلی هر منطقه گرد هم می آورد. به عنوان مثال، گویش عربی را می توان به چهار گویش منطقه ای تقسیم کرد: آفریقای شمالی، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها به مرزها پایبند نیستند، می تواند به زیبایی یک گویش هر شهر باشد. به عنوان مثال، یک زبان مادری مصری می تواند گویش اسکندریه خود را از همشهریان خود در اسوان متمایز کند (فاصله 1000 کیلومتری روی نقشه).

ایجاد آینده ای با فناوری برای همه

در این مرحله، ماشین‌ها به لطف پیشرفت‌های شبکه‌های عصبی عمیق، زیرشاخه‌ای از یادگیری ماشینی هوش مصنوعی که بر الگوریتم‌هایی الهام‌گرفته از نحوه عملکرد بیولوژیکی و عملکردی مغز انسان تکیه دارد، به اندازه رونویس‌کنندگان انسان دقیق هستند. با این حال، تا همین اواخر، تشخیص گفتار تا حدودی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ایجاد واژگان و مدل سازی زبان دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدل‌هایی را آموزش می‌دهند که ویژگی‌های صوتی را مستقیماً به رونویسی متن تبدیل می‌کنند و به طور بالقوه همه قسمت‌ها را برای کار نهایی بهینه می‌کنند.

با این پیشرفت، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی بومی خود دستورات صوتی بدهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌های لهجه‌ام صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما دستگاه چندگویش زبان عربی هنوز شناسایی نشده است.

این محور کار علی است که در اولین ترانسفورماتور برای شناخت تلفظ عربی و لهجه های آن شکست خورده است. که تاکنون کارهای بی نظیری انجام داده است. این فناوری که سیستم رونویسی پیشرفته QCRI نام دارد، در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای ترجمه آنلاین محتوا استفاده می شود.

دلایل مختلفی وجود دارد که علی و تیمش اکنون قادر به ساخت این موتور گفتار هستند. او در درجه اول می گوید: «همه لهجه ها باید منابع داشته باشند. ما باید منابعی بسازیم تا بتوانیم الگو را آموزش دهیم. پیشرفت در پردازش کامپیوتری به این معناست که یادگیری ماشین فشرده کامپیوتری اکنون در واحد پردازش گرافیکی انجام می شود که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی گفت: “ما معماری عالی داریم، ماژول های خوبی داریم و داده های واقعی داریم.”

محققان QCRI و Kanari AI اخیراً مدل‌هایی را توسعه داده‌اند که می‌توانند به شباهت‌های انسانی در اخبار پخش عربی دست یابند. این سیستم تأثیر عناوین فرعی گزارش های روزانه الجزیره را منعکس می کند. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، می تواند تا 10 درصد برسد. به لطف یادگیری عمیق و پیشرفت‌های اخیر در معماری سرتاسر، موتور تشخیص گفتار عربی در اخبار پخش بهتر از سخنرانان محلی پیشی می‌گیرد.

در حالی که به نظر می رسد تشخیص گفتار استاندارد عربی مدرن به خوبی کار می کند، محققان QCRI و Kanari AI مشغول بررسی مرزهای فرآیند دیالکتیکی و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، دستیاران صوتی ما باید به گویش توجه کنند تا ما را قادر به درک آن کنند.

این مقاله توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.

[ad_2]