مایکروسافت هوش مصنوعی تبدیل متن به گفتار خود را بهبود داد

سرویس‌های تبدیل متن به گفتار توسعه یافته‌اند و بسیار هوشمندانه عمل می‌کنند، اما هنوز یک مشکل وجود دارد

مایکروسافت هوش مصنوعی تبدیل متن به گفتار خود را بهبود داد

سرویس‌های تبدیل متن به گفتار توسعه یافته‌اند و بسیار هوشمندانه عمل می‌کنند، اما هنوز یک مشکل وجود دارد. توسعه این سرویس‌ها نیازمند وقت و منابع آموزشی بسیار زیاد برای تولید خروجی به‌صورت صدای طبیعی و آموزش در مدت زمان طولانی هستند. مایکروسافت با همکاری پژوهشگران چینی روش موثری برای حل این مشکل ارائه کردند. آن‌ها موفق به ساخت هوش مصنوعی تبدیل متن به گفتاری شدند که می‌تواند گفتار واقعی را با چیزی نزدیک به ۲۰۰ نمونه صوتی (معادل با مدت زمان ۲۰ دقیقه) تولید کند؛ همچنین می‌تواند نمونه‌های صوتی را با متن نوشته‌ها تطبیق دهد. این سیستم برمبنای معماری ترنسفورمرها (Transformers) یا شبکه‌های عصبی عمیق است که تقریبا شباهت زیادی به سیستم نورون‌ها در مغز دارند. ترنسفورمرها مانند لینک‌های سیناپسی برای اطلاعات ورودی و خروجی عمل می‌کنند و به آن‌ها کمک می‌کنند تا دنباله‌های طولانی‌تر مانند جملاتی را که دارای ساختار پیچیده‌ای هستند، به‌راحتی پردازش کنند. ادغام این سیستم با هوش مصنوعی و بخش کدگذار حذف نویز می‌تواند با ورودی اندک، خروجی چشمگیری داشته باشد

نتایج حاصل‌شده، اگرچه از نظر کیفیت صدا تا حدی شبیه به صدای رباتیکی است، اما میزان دقت و قابلیت تشخیص بسیار بالایی در کلمات دارد که به ۹۹.۸۴ درصد می‌رسد. مهم‌تر از همه، این فناوری می‌تواند باعث سهولت دسترسی سرویس‌های تبدیل متن به گفتار شود. از این پس، به‌راحتی دسترسی به این فناوری برای تمامی شرکت‌های کوچک و حتی علاقه‌مندان غیرحرفه‌ای بدون صرف زمان و تلاش زیاد امکان‌پذیر است. پژوهشگران امیدوارند تا بتوانند این فناوری را با داده‌های غیرهمسان آموزش دهند تا با تلاش کمتر دستیابی به گفتگویی واقعی امکان‌پذیر شود.