[ad_1]
به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امید است که روزی بتوانید از دستیار مجازی خود بپرسید که بهترین مواد برای سالاد چیست. در حال حاضر، این امکان وجود دارد که از گجت خانگی خود بخواهید موسیقی پخش کند یا آن را با دستورات صوتی باز کند، این ویژگی قبلاً در بسیاری از دستگاه ها یافت شده است.
اگر به لهجه های مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجه های عربی دیگر صحبت می کنید که در برخی مناطق که برخی از آنها همدیگر را نمی فهمند بسیار متنوع هستند، موضوع متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شدهاید.
این ساخت و سازهای پیچیده احمدعلی را مشتاق یافتن راه حلی کرد. او مهندس پیشرو در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر و بنیانگذار گفتار عربی است، جامعه ای که به نفع علم گفتار و گفتار عربی وجود دارد. فناوری گفتار
علی چندین سال پیش در IBM مجذوب ایده صحبت کردن با ماشینها، لوازم خانگی و وسایل بود. آیا میتوانیم ماشینهایی بسازیم که قادر به درک لهجههای مختلف باشند، مانند پزشکان اطفال مصری برای خودکار کردن نسخهها، یک معلم سوری که بچهها را قسمت اصلی درسهایشان را بپذیرد، یا سرآشپزهای مراکشی بهترین دستور العملهای کوسکوس را توصیف میکنند؟» او می گوید. با این حال، الگوریتمهایی که این دستگاهها را نیرو میدهند، نمیتوانند تقریباً در 30 نوع از زبان عربی اجرا شوند. امروزه اکثر ابزارهای تشخیص تلفظ فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.
Coronavirus (اپیدمی) در سراسر کشور (یا قاره) بیماری (اپیدمی) در سراسر کشور (یا در سراسر قاره) در حال حاضر اتکای رو به رشدی به فناوری صدا وجود دارد، جایی که فناوری پردازش زبان طبیعی به افراد اجازه میدهد دستورالعملهای خانه و فاصله فیزیکی را دنبال کنند. کمک کرده است. با این حال، از آنجایی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، برنامه های کاربردی بیشتری در آینده وجود خواهد داشت.
میلیونها نفر در سراسر جهان از دوره گسترده آنلاین باز (MOOC) برای دسترسی آزاد و مشارکت نامحدود آن استفاده میکنند. تشخیص گفتار یکی از ویژگیهای اصلی MOOC است که در آن دانشآموزان میتوانند بخشهای خاصی از برنامه درسی گفتاری را جستجو کنند و ترجمه را از طریق زیرنویسها فعال کنند. فن آوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دانشگاه امکان پذیر می کند.
بر اساس مقاله اخیر در مجله فناوری گفتار، پیش بینی می شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون ها مصرف کننده و شرکت در سراسر جهان برای برقراری ارتباط با تجهیزات یا اتومبیل خود تنها به ربات های صوتی متکی هستند. بهبود خدمات مشتری، هدایت نوآوری در مراقبت های بهداشتی و بهبود دسترسی و فراگیری برای افرادی که دارای آسیب های شنوایی، گفتاری یا حرکتی هستند.
در یک نظرسنجی در سال 2019، Capgemini پیش بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف کننده به جای مراجعه به فروشگاه ها یا شعب بانک ها، دستیار صوتی را انتخاب خواهند کرد. پیشبینی میشود زندگیها و مشاغل دور از خانه در خانه و از نظر فیزیکی که بیش از یک سال و نیم درگیر این همهگیری بودهاند، به طور تصاعدی رشد کنند.
با این حال، داشتن یکی از آنها هنوز از توان یک فرد معمولی خارج است. برای آن 30 نوع عرب و میلیون ها نفر، این فرصت مهمی است که از دست رفته است.
عربی برای ماشین
ربات های صوتی انگلیسی یا فرانسوی زبان کامل نیستند. با این حال، آموزش ماشینها برای درک زبان عربی به دلایلی دشوار است. در اینجا سه چالش رایج وجود دارد:
- عدم وجود نشانه ها. لهجه های عربی عمدتاً زبان های گفتاری هستند. بیشتر متن موجود رمزگشایی نشده است، به این معنی که حاوی لهجه هایی مانند حاد (´) یا انتقادی (`) نیست که مقادیر صوتی حروف را نشان می دهد. بنابراین تعیین اینکه حروف صدادار کجا می روند دشوار است.
- کمبود منابع. فقدان اطلاعات برچسب گذاری شده برای لهجه های مختلف عربی. در مجموع، آنها قوانین املایی استانداردی ندارند که نحوه نوشتن یک زبان را تعیین کند، از جمله معیارها یا املا، خط فاصله، حجم کلمه و تاکید. این واقعیت که این منابع برای آموزش مدل های کامپیوتری مهم هستند و تعداد بسیار کمی از آنها وجود دارد، مانع توسعه تشخیص تلفظ عربی شده است.
- پیچیدگی مورفولوژیکی بسیاری از عربی زبانان در تغییر کد نقش دارند. به عنوان مثال، گویشهای فرانسوی-شمال آفریقا، مراکش، الجزایر و مناطق پرجمعیت تونس حاوی کلمات فرانسوی زیادی هستند. در نتیجه تعداد کلمات به اصطلاح غیرکلامی زیاد است که به دلیل عربی نبودن این کلمات، تکنیک تشخیص تلفظ را نمی فهمند.
علی می گوید: «اما مزرعه با سرعت برق در حال حرکت است. این تلاش مشترک بسیاری از محققان برای حرکت سریعتر آن است. آزمایشگاه فناوری زبان عربی علی رهبری پروژه گفتار عربی را بر عهده دارد که ترجمه های عربی را با گویش اصلی هر منطقه گرد هم می آورد. به عنوان مثال، گویش عربی را می توان به چهار گویش منطقه ای تقسیم کرد: آفریقای شمالی، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها به مرزها پایبند نیستند، می تواند به زیبایی یک گویش هر شهر باشد. به عنوان مثال، یک زبان مادری مصری می تواند گویش اسکندریه خود را از همشهریان خود در اسوان متمایز کند (فاصله 1000 کیلومتری روی نقشه).
ایجاد آینده ای با فناوری برای همه
در این مرحله، ماشینها به لطف پیشرفتهای شبکههای عصبی عمیق، زیرشاخهای از یادگیری ماشینی هوش مصنوعی که بر الگوریتمهایی الهامگرفته از نحوه عملکرد بیولوژیکی و عملکردی مغز انسان تکیه دارد، به اندازه رونویسکنندگان انسان دقیق هستند. با این حال، تا همین اواخر، تشخیص گفتار تا حدودی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ایجاد واژگان و مدل سازی زبان دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدلهایی را آموزش میدهند که ویژگیهای صوتی را مستقیماً به رونویسی متن تبدیل میکنند و به طور بالقوه همه قسمتها را برای کار نهایی بهینه میکنند.
با این پیشرفت، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی بومی خود دستورات صوتی بدهد. او میگوید: «سال 2021 است و من هنوز نمیتوانم با بسیاری از دستگاههای لهجهام صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما دستگاه چندگویش زبان عربی هنوز شناسایی نشده است.
این محور کار علی است که در اولین ترانسفورماتور برای شناخت تلفظ عربی و لهجه های آن شکست خورده است. که تاکنون کارهای بی نظیری انجام داده است. این فناوری که سیستم رونویسی پیشرفته QCRI نام دارد، در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای ترجمه آنلاین محتوا استفاده می شود.
دلایل مختلفی وجود دارد که علی و تیمش اکنون قادر به ساخت این موتور گفتار هستند. او در درجه اول می گوید: «همه لهجه ها باید منابع داشته باشند. ما باید منابعی بسازیم تا بتوانیم الگو را آموزش دهیم. پیشرفت در پردازش کامپیوتری به این معناست که یادگیری ماشین فشرده کامپیوتری اکنون در واحد پردازش گرافیکی انجام می شود که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی گفت: “ما معماری عالی داریم، ماژول های خوبی داریم و داده های واقعی داریم.”
محققان QCRI و Kanari AI اخیراً مدلهایی را توسعه دادهاند که میتوانند به شباهتهای انسانی در اخبار پخش عربی دست یابند. این سیستم تأثیر عناوین فرعی گزارش های روزانه الجزیره را منعکس می کند. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، می تواند تا 10 درصد برسد. به لطف یادگیری عمیق و پیشرفتهای اخیر در معماری سرتاسر، موتور تشخیص گفتار عربی در اخبار پخش بهتر از سخنرانان محلی پیشی میگیرد.
در حالی که به نظر می رسد تشخیص گفتار استاندارد عربی مدرن به خوبی کار می کند، محققان QCRI و Kanari AI مشغول بررسی مرزهای فرآیند دیالکتیکی و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، دستیاران صوتی ما باید به گویش توجه کنند تا ما را قادر به درک آن کنند.
این مقاله توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.
[ad_2]