همراه ما باشید
هفته نامه عصر ارتباط
اولیـن و پرتیـراژتـرین هفتـه نـامه ICT کشـور

فیس بوک از سیستم بسیار قدرتمند کانولوشن رونمایی کرد

 فیس بوک از سیستم بسیار قدرتمند کانولوشن رونمایی کرد

وقتی می‌خواهیم در حوزه‌ی زمان، دو سیگنال را در هم ضرب کنیم، همانند روش معمولی ضرب ریاضی اقدام می‌کنیم. ولی در حوزه‌ی فرکانس، برای ضرب دو سیگنال باید ازطریق کانولوشن ۲ سیگنال این عمل را انجام دهیم. کانولوشن (convolution)، یک تکنیک بسیار قدرتمند و کارآمد برای محاسبه پاسخ حالت صفر (یعنی پاسخ به ورودی هنگام شرایط اولیه صفر) یک سیستم به هر ورودی دلخواه با استفاده از پاسخ ضربه است. کانولوشن، خاصیت خطی و جمع آثار (یا برهم‌نهی) دارد. علاوه‌بر این، این رویکرد از سیستم متن بازی به‌نام flashlight، کتابخانه استاندارد ++C برای یادگیری ماشین و نیز ++Wav2letter به‌عنوان سریع‌ترین سرویس پیشرفته تشخیص گفتار سرتاسری یا end-to-end برخوردار است. سیستم تشخیص گفتار سرتاسری به این معنا است که ترجمه‌ای غیرمنفعل و غیرخطی ارائه می‌شود که می‌تواند برای کاربران از جذابیت بالاتری نسبت به ترجمه‌ی واژه‌به‌واژه و بدون توجه به لحن گوینده برخوردار باشد. باتوجه به اینکه هیچ‌گونه توقفی برای انجام فعالیت‌ها و وظایف بعدی در سیستم مبتنی‌بر هوش مصنوعی وجود ندارد، به چنین سیستمی، سرتاسری یا end-to-end گفته می‌شود. استفاده از رویکردهای سرتاسری باعث افزایش سرعت ترجمه خواهد شد. علاوه‌بر این، باتوجه به اینکه توقفی در حین انجام مراحل ترجمه هم وجود ندارد، از بروز خطاهای متعدد حین ترجمه کاسته می‌شود.رویکرد تشخیص گفتار کانولوشن چیست؟این سیستم جدید تشخیص گفتار از نوعی شبکه عصبی بازگشت‌کننده (RNN) برای مدل‌سازی زبانی و آکوستیکی استفاده می‌کند. رویکرد جدید فیسبوک در سرویس تشخیص گفتار منحصرا روی شبکه‌های عصبی کانولوشن عمل می‌کند. در این رویکرد، سیستم تشخیص گفتار سرتاسری برای پیش‌بینی کاراکتر بعدی از شکل موج خام سیگنال صوتی آموزش داده می‌شود. رویکرد یادشده از یک مدل زبانی کانولوشن خارجی (external) برای رمزگشایی استفاده می‌کند. در این روش، شبکه‌های عصبی پیچشی (CNN) مدل‌سازی آکوستیکی و مدل‌سازی زبانی را ارتقا می‌دهند و به‌لطف ابزارهایی که به‌طور مشترک استفاده می‌شوند، قابلیت تولید مجدد را دارند. به استثنای این رویکرد مبتنی بر CNN، فیسبوک از ++Wav2letter و سیستم فلش‌لایت برای تکمیل رویکرد و ایجاد قابلیت ساخت و تولید مجدد استفاده کرده است


چگونه کار می‌کند؟معماری شبکه‌های عصبی پبچشی یک مدل معماری رقیب برای مدل‌هایی است که هم‌اکنون در زمینه‌های مدلسازی زبان، ترجمه‌ی ماشینی و سنتز گفتار یا تبدیل متن به گفتار مورد استفاده قرار می‌گیرند. اگرچه، سیستم تشخیص گفتار سرتاسری هنوز از معماری بازگشت‌کننده برای هر دو بخش متداول مدل‌سازی زبانی و آکوستیکی استفاده می‌کند.پژوهشگران تیم گفتار هوش مصنوعی فیسبوک (FAIR) اولین سیستم تشخیص گفتار کانولوشن را براساس شبکه‌های عصبی پیچشی توسعه داده‌اند. از شکل موج خام سیگنال صوتی تا تولید یک کلمه قابل فهم، تمام بخش‌های یادگیرنده سیستم فقط با لایه‌های کانولوشنی تشکیل شده‌اند. با ظهور این عملکرد از معماری CNN، می‌توان گفت که معماری شبکه عصبی کانولوشن با معماری شبکه عصبی بازگشت‌کننده قابل‌رقابت است

همچنین تیم گفتار FAIR با همکاری سازندگان Torch و DeepSpeech، موفق به طراحی فلش لایت شدند. فلش لایت یک کتابخانه مستقل ++C برای یادگیری ماشین است. کتابخانه استاندارد ++C یک مجموعه از کلاس‌ها و واسطه‌های رایجی است که تاحد زیادی هسته اصلی زبان ++C را گسترش داده است. از ویژگی‌های آن می‌توان کامپایل هم‌زمان با زبان برنامه‌نویسی مدرن ++C را بیان کرد. این رویکرد هم‌زمان با هدف قرار دادن هر دو پردازنده (CPU) و پردازنده گرافیکی (GPU) سیستم را برای ارائه حداکثر کارایی آماده می‌کند. ++Wav2letter ابزار جدیدی است که بر مبنای فلش لایت ساخته شده و به‌طور کامل با زبان برنامه‌نویسی ++C نوشته شده است. این ابزار جدید از چندین فرمت فایل‌های صوتی مانند wav و flac پشتیبانی می‌کند.چرا این دستاورد مهم است؟سیستم تشخیص گفتار سرتاسری مقیاس‌پذیری در زبان‌های مختلف را آسان‌تر می‌کند. همچنین، زمانی‌که کیفیت صدا بسیار متغیر است، یادگیری به‌طور مستقیم از داده‌‌های خام صوتی یک گزینه نویدبخش در بخش تنظیمات است. عملکرد سیستم‌هایی با کارایی بالا مانند ++Wav2letter تکرار سریع را امکان‌پذیر می‌کند که عامل مهمی در موفقیت تحقیقات و مدل مبتنی بر تنظیم دقیق روی مجموعه داده‌ها و تکالیف جدید محسوب می‌شود.

درج دیدگاه

مطالب مشابه ICTNews.ir

  • ایجاد دودستگی در بازار ارزهای مجازی

    ایجاد دودستگی در بازار ارزهای مجازی

    در بین سرمایه‌گذاران ارز مجازی دو دوستگی ایجاد شده است. دسته اول معتقد به رکود و دسته دوم معتقد به حرکت جهشی این ارز در بازار هستند.

  • پیام رسان BBM بلک بری بعد از ۱۳ سال پایان یافت

    پیام رسان BBM بلک بری بعد از ۱۳ سال پایان یافت

    این اپلیکیشن یک دهه بعد از دوران شکوفایی اش و پس از سال ها تلاش برای جلب نظر دوباره کاربران

  • دستیارهای صوتی گوگل به افراد مبتلا به مشکلات تکلم کمک می کند

    دستیارهای صوتی گوگل به افراد مبتلا به مشکلات تکلم کمک می کند

    دستیارهای صوتی این روزها به یکی از اجزای جدایی ناپذیر گجت‌های هوشمند تبدیل شده‌اند و روزانه میلیون‌ها نفر در سراسر دنیا از آن‌ها استفاده می‌کنند. اما هستند افرادی هم که به دلیل ابتلا به بیماری‌هایی همچون ام اس و ALS که بر تکلم اثر می‌گذارند، قادر به استفاده از مزایای این دستیارها نیستند.

  • شیوه پرداخت تسهیلات به شتاب دهنده های استانی ICT

    شیوه پرداخت تسهیلات به شتاب دهنده های استانی ICT

    وزارت ارتباطات و فناوری اطلاعات نحوه ارائه تسهیلات به شتابدهنده های استانی کسب و کارهای نوپای حوزه فاوا را اعلام کرد.

  • ال‌جی در ارائه آپدیت نرم‌افزاری به‌ گوشی‌های خود بسیار ضعف دارد

    ال‌جی در ارائه آپدیت نرم‌افزاری به‌ گوشی‌های خود بسیار ضعف دارد

    از آن زمان تا امروز، تنها اندروید اورئو برای ال جی G6 عرضه شده که البته این اتفاق هم ۹ ماه دیرتر از انتشار رسمی توسط گوگل رخ داده است. همچنین در حالی که ۲۵۵ روز از عرضه اندروید پای برای سری پیکسل می‌گذرد

  • درسدسر جدید برای نسخه ios اپلیکیشن های ایرانی

    درسدسر جدید برای نسخه ios اپلیکیشن های ایرانی

    طبق گزارشات رسیده از روز گذشته اکثر اپلیکیشن های ایرانی نسخه ios در حوزه پرداخت، از دسترس خارج شده اند و کاربران گوشی‌های آیفون نمی توانند از این اپلیکیشن ها استفاده کنند.

  • برنامه اعزام ماهواره ایرانی به مدار ژنو

    برنامه اعزام ماهواره ایرانی به مدار ژنو

    وزیر ارتباطات گفت: در حال برنامه‌ریزی برای ساخت ماهواره ملی مخابراتی با توانمندی داخلی و با همکاری بین‌المللی هستیم که این ماهواره قرار است در مدار بالای زمین (ژئو) قرار گیرد.

  • هدف از تولید گوشی‌‌های هوشمند تاشدنی چیست

    هدف از تولید گوشی‌‌های هوشمند تاشدنی چیست

    سامسونگ در جدیدترین مراسم معرفی محصولات خود، گوشی هوشمند بلندپروازانه‌ای را با نام Galaxy Fold معرفی کرد. محصول هیبردی گوشی-تبلت سامسونگ، مجهز به فناروی ارتباطی 5G نیز بوده و قیمتی نزدیک به ۲ هزار دلار برای آن در نظر گرفته شده است. تاریخ عرضه‌ی گلکسی فولد نیز حوالی ماه اردیبهشت سال آینده مطرح می‌شود

  • مراقب پیامک جعلی قطع‌ یارانه باشید

    مراقب پیامک جعلی قطع‌ یارانه باشید

    به تازگی پیامکی با خبر جعلی قطع‌ یارانه به برخی کاربران ارسال شده تا اطلاعات بانکی آنها را به سرقت ببرد.

  • با ترفند های گوگل کروم اندروید آشنا شوید

    با ترفند های گوگل کروم اندروید آشنا شوید

    از آنجا که کروم همواره در حال تغییر و تحول و اضافه کردن قابلیت‌های جدید است، در مقاله پیش رو به قابلیت‌ها و ترفندهای جدیدتری می‌پردازیم که بد نیست از آن‌ها اطلاع داشته باشید. اگر می‌خواهید حرفه‌ای تر از قبل با گوگل کروم کار کنید، ادامه مقاله را از دست ندهید.

عصــر بــازی