تایپ صوتی از آن دسته از محصولات متکی به هوش مصنوعی است که بهخوبی جایش را در زندگی روزمره باز کرده است. امروزه دقت نرمافزارهای تبدیل گفتار به نوشتار و تایپ صوتی بهحدی بالا رفته است که میتوان از آنها بهعنوان ابزاری مفید برای کاربردهای شخصی استفاده کرد. در این مطلب کاربردهای انواع نرمافزارهای تایپ صوتی را بررسی خواهیم کرد و در پایان چند نرمافزار تایپ صوتی پرکاربرد و دقیق را معرفی خواهیم کرد.
تایپ صوتی چیست؟
برای اینکه درکی از نحوه کار نرمافزارهای تایپ صوتی داشته باشیم باید با مفهوم پردازش گفتار بیشتر آشنا شویم. پردازش گفتار شاخهای بینرشتهای در هوش مصنوعی است که روشها و فناوریهایی را توسعه میدهد که قادرند با استفاده از کامپیوتر زبان گفتاری را بفهمند.
تایپ صوتی یکی از امکانهایی است که از دل پیشرفتهای حوزه پردازش گفتار بیرون آمده است. نرمافزارهایی که در این زمینه تولید شدهاند، نامهای مختلفی دارند. با یک سرچ ساده متوجه خواهید شد که در دنیای تکنولوژی از این نرمافزارها با نامهای مختلفی یاد میشود.
برای مثال نرمافزارهای دیکته، نرمافزارهای تبدیل گفتار به متن، بازشناسی گفتار، صوت به متن، و بازشناسی صوت از جمله نامهایی است که به این فناوریها اطلاق میشود. البته لزوما این مفاهیم و فناوریهای متکی به آنها با هم همپوشانی ندارند. اما علیرغم معانی مختلف و گاه متنوعی که دارند، میتوانند برای اشاره به برنامههایی به کار روند که بهصورت آنی صوت و گفتار را به متن تبدیل میکنند.
تفاوت نرمافزارهای تایپ صوتی و دستیارهای صوتی هوشمند چیست؟
حتما تا به حال نام دستیارهای صوتی شرکتهای بزرگی چون آمازون و اپل را شنیدهاید. سیری اپل، الکسای آمازون و کورتانای مایکروسافت دستیارهای صوتی هستند که از فناوری هوش مصنوعی استفاده میکنند. اما این فناوریها چه تفاوتی با نرمافزارهای تبدیل گفتار به متن و تایپ صوتی دارند؟
شاید بتوان گفت مهمترین تفاوت این دو نوع از فناوری به کاربردهای آنها برمیگردد؛ دستیارهای صوتی بیشتر برای برنامهریزی برای جلسات، پخش موسیقی و یا مثلا یافتن رستورانی برای غذا خوردن مناسباند. بنابراین این ابزارها مستقیما برای تبدیل کردن محتوای صوتی به متن طراحی نشدهاند.
نرمافزارهای تایپ صوتی چه کاربردهایی دارند؟
در ابتدا بیش از هر چیزی این نرمافزارها برای افراد با مشکلات خاص توسعه پیدا کرد. برای مثال این فناوری، برای کسانی که از معلولیتهای جسمی رنج میبرند این امکان را پدید میآورد که بدون کمک دیگران از ابزارهای تکنولوژیک استفاده کنند. با استفاده از این نرمافزارها دیگر نداشتن دست به معنای عدم بهرهمندی از ابزارهایی مانند کامپیوتر نیست. افرادی که چنین مشکلاتی دارند میتوانند با استفاده از نرمافزارهای تایپصوتی با کامپیوتر کار کنند، اسناد مربوط به خودشان را در آن ایجاد کنند و به جهان اینترنت دسترسی داشته باشند.
بعضی از افراد دچار سندرمهایی هستند که بهصورت خاص عملکرد دستانشان را تحتتاثیر قرار میدهد. مثلاً کسانی را که از سندرم تونل کارپال رنج میبرند در نظر بگیرید. در این بیماری، بیمار کنترل انگشتان دستش را ندارد. کسانی که دچار چنین بیماریهایی هستند عملاً امکان کلیک کردن یا تایپ کردن را ندارند و اگر نرمافزار تایپ نبود امکان داشت از مزایای استفاده از اینترنت و ابزارهای تکنولوژیک محروم بمانند.
اما کاربردهای فناوری تایپ صوتی به همینجا ختم نمیشود. در واقع از دو دهه پیش استفاده از چنین ابزارهایی عمومیت یافت. قیمت این ابزارها پایین آمد و تعداد استفادهکنندگان از آن به مراتب افزایش یافت. امروز دیگر این ابزارها در دسترس همه قرار دارند و بسیاری از کارها را برای افراد غیر معلول نیز آسانتر کردهاند.
برای مثال به همین شرایط پاندمی که در آن قرار داریم دقت کنید. بسیاری از دانشآموزان و دانشجویان از خانه بهصورت مجازی در کلاسهایشان شرکت میکنند. نرمافزاهای تایپ صوتی میتوانند برای جزوهبرداری و تبدیل کردن صوت معلمان و مدرسان به متن به کار برده شوند.
یک نرمافزار تایپ صوتی خوب چه ویژگیهایی دارد؟
1. دقت
بیشک دقت بالای نرمافزار را میتوان مهمترین ویژگی در انتخاب یک نرمافزار صوتی دانست. نرمافزارهای تایپ صوتی عموماً از فناوری یادگیری ماشین استفاده میکنند. بنابراین هر چقدر که کاربر از آن بیشتر استفاده کند دقت آن هم بالاتر میرود.
2. راحتی استفاده و رابط کاربری خوب
هر چقدر تعداد دستورالعملهای استفاده از نرمافزار زیاد باشد جذابیتهای آن برای کاربران پایین میآید. در دنیای امروز کاربران بهدنبال نرمافزارهایی هستند که میتوان با صرف کمترین زمان بیشترین بهره را از آنها برد.
3. پشتیبانی از زبانها و لهجههای مختلف
شاید برای بسیاری این عامل چندان اهمیت نداشته باشد. اما برای مایی که احتمالاً میخواهیم تایپ صوتی فارسی انجام دهیم این عامل میتواند بسیار مهم باشد؛ چرا که تعدادی از نرمافزارهای بسیار خوب تایپ صوتی از زبان فارسی پشتیبانی نمیکنند.
دستورالعملهای عمومی در استفاده از نرمافزارهای تشخیص صوت
گرچه هر نرمافزار تایپ صوتیای ویژگیهای مخصوص به خود را دارد. اما میتوان به این چند اصل کلی در استفاده از این نرمافزارها توجه داشت:
1. طبیعی صحبت کنید
نرمافزارهای تایپ صوتی از هوش مصنوعی استفاده میکنند. این اپلیکیشنها با گذر زمان صدای شما را یاد میگیرند و دقتشان بیشتر میشود. طبیعی صحبت کنید و بگذارید کمکم دقت نرمافزارتان در تشخیص صدای شما بالاتر برود
2. از علائم نگارشی استفاده کنید
فراموش نکنید که اغلب این اپها قادر به تشخیص نوع جمله شما نیستند. بنابراین برای مثال اگر جمله شما سوالی باشد باید حتما این مسئله به نرمافزار گفته شود. هر کدام از نرمافزارهای تایپ صوتی قواعد و دستورالعملهای خاص خود را برای رعایت علائم نگارشی دارند.
بهترین نرمافزارهای تایپ صوتی
1. نرم افزار Apple Dictation
اگر از مک، آیفون یا آیپد استفاده میکنید نیازی نیست بهدنبال اپلیکیشن خاصی برای تایپ صوتی بگردید. اپل ویژگی توکاری برای تایپ صوتی دارد که از فناوری سیری اپل در آن استفاده شده است. برای استفاده از این قابلیت کافی است روی آیکون میکروفون روی سیستمتان کلیک کنید.
2. نرم افزار Windows 10 speech Recognition
مانند اپل، مایکروسافت نیز ویژگی بازشناسی گفتار و تایپ صوتی را بهعنوان بخشی از ویژگیهای توکار ویندوز در نظر گرفته است. همانطور که پیش از این گفتیم هر چقدر از این سیستمها بیشتر استفاده شود بازدهی و کیفیت آنها هم بالاتر میرود. شاید بازشناسی گفتار مایکروسافت در مقایسه با Apple Dictation در دفعات اولیه استفاده دقت پایینتری داشته باشد، اما سیستم بازشناسی گفتار ویندوز هم رفتهرفته بهتر میشود و میتواند پاسخ نیازهای شخصی را بدهد.
3. نرم افزار Dragon by nuance
اگر به دنبال نرمافزار تایپ صوتی برای گوشیتان هستید یکی از انتخابها میتواند Dragon by Nuance باشد. دراگون از اولین اپلیکیشنهای تایپ صوتی بود که در سال 1990 ساخته شد. Dragon by Nuance در واقع نسخه بسیار پیشرفتهتر همان دراگون سی سال پیش است.
4. نرم افزار Gboard
تا به اینجا همه نرمافزارهایی که معرفی کردیم بهنوعی نیاز به صرف هزینه داشت. اما احتمالاً شما بهدنبال یک اپلیکیشن تایپ صوتی رایگان برای گوشی موبایلتان میگردید. Gboard محصولی از گوگل است که بر روی آی او اس و اندروید کار میکند. این نرمافزار قابلیت این را دارد که بر اساس صدای شما شخصیسازی شود و با استفاده از الگوهای نهفته در صدایتان دقتش را بالا ببرد. با استفاده طولانیمدت از این نرمافزار دقت آن به میزان بسیار زیادی افزایش مییابد. این نرمافزار از 47 زبان پشتیبانی میکند. خوشبختانه یکی از این 47 زبان زبان فارسی است.
5. نرم افزار Google Docs voice typing
اگر از گوگل داک استفاده میکنید بهتر است با ویژگی تایپ صوتی آن نیز آشنا شوید.Google Docs voice typing دقت بسیار بالایی دارد و استفاده از آن بسیار راحت است. با اینکه این ویژگی اولین بار با هدف استفاده در گوگل داک ساخته شد، اما از طریق کروم نیز میتوانید به آن دسترسی داشته باشید و از آن استفاده کنید.
چالشهای ساخت نرم افزار هوشمند تایپ صوتی فارسی
ساخت نرم افزارهای تایپ صوتی مانند بسیاری دیگر از ابزارهای هوشمند پیشنیازهایی لازم دارد. برای مثال، برای ساخت یک نرم افزار هوشمند تایپ صوتی فارسی به سرویس تبدیل صوت به متن فارسی مبتنی بر هوش مصنوعی نیاز داریم.
یکی از باکیفیتترین، سریعترین و هوشمندترین سرویسهای صوت به متن فارسی توسط مرکز تحقیقات هوش مصنوعی پارت توسعه داده شده است. به گفته پارت، این سرویس از زیرساخت هوش مصنوعی شهاب با توان پردازشی 19000 تنسور ترافلاپس استفاده میکند. به همین دلیل هم سریعترین و آنیترین نرم افزار توسعه داده شده در کشور در این حوزه است.
سرویس تبدیل گفتار به متن مرکز تحقیقات هوش مصنوعی پارت
همانطور که در بخش معرفی نرمافزارهای تایپ صوتی گفتیم بسیاری از این اپلیکیشنها از زبان فارسی پشتیبانی نمیکنند. سرویس تبدیل گفتار به متن مرکز تحقیقات هوش مصنوعی پارت محصولی است که کاملاً بر اساس نیازهای فارسیزبانان ساخته شده است. مرکز تحقیقات هوش مصنوعی پارت یکی از بزرگترین شرکتهای فعال در زمینه هوش مصنوعی در ایران است که سرویسهای زیادی در بخشهای مختلف هوش مصنوعی- دادهکاوی، پردازش گفتار، پردازش زبان طبیعی، بینایی ماشین- توسعه داده است. یکی از خدمات این شرکت ارائه سرویس تبدیل گفتار به متن است. هدف این سرویس تبدیل صوت و گفتار به متنی قابل ویرایش است.
ازجمله مهمترین ویژگیهای سرویس تبدیل گفتار به متن مرکز تحقیقات هوش مصنوعی پارت، عبارتاند از:
- تولید همزمان متن خروجی
- شخصیسازی مدل برای محیط های خاص
- جداسازی متن مربوط به گویندههای مختلف در صوت
- دقت بالا در تشخیص کلیدواژههای مشخصشده
- توانایی کار در محیط های نویزی
- فیلتر محتوای نامناسب در صورت وجود در صوت
یکی از کاربردهای این سرویس تایپ صوتی است. البته این سرویس کاربردهای زیادی دارد و نمیتوان کاربردهای آن را صرفاً به تایپ صوتی تقلیل داد. بهطور کلی میتوان گفت که سرویس تبدیل گفتار به متن مرکز تحقیقات هوش مصنوعی پارت هم قابلیت دستیارهای صوتی را دارد و هم میتوان برای تایپ صوتی از آن استفاده کرد.
جمعبندی
با توجه به روندی که نرمافزارهای تبدیل گفتار به متن و تایپ صوتی طی کردهاند رشد چشمگیر استفاده از آنها در آینده نزدیک عجیب نخواهد بود. شاید تا چند سال دیگر با بالاتر رفتن دقت این نرمافزارها و پشتیبانی از زبانهای بیشتر دیگر خبری از تایپ فارسی بهشیوه سنتی در ایران نباشد.