معرفی نرم‌افزار تبدیل صدا به متن گوگل

حتماً برای شما هم پیش آمده که برای ارائه یک پروژه­ دانشجویی، یا انجام امور اداری مجبور باشید تا چندین صفحه متن را در مدت زمانی کوتاه تایپ کنید شاید اگر زمانی به کسی می‌گفتیم که در آینده نرم‌افزاری نوشته می‌شود که تبدیل حرف زدن به نوشته را امکان پذیر می‌کند، تمسخر می‌شدیم.

فارغ از این که تا چه میزان در مهارت تایپ ده انگشتی تسلط دارید، تایپ کردن بسیار زمان‌بر و خسته‌­کننده، فرسایشی و آسیب‌زننده است. تایپ مداوم و طولانی موجب خشکی چشم یا آرتروز انگشتان و حتی گردن شود. جالب است بدانید که به طور میانگین، سرعت تایپ توسط انگشتان چیزی حدود ۴۰-۴۵ کلمه در دقیقه است، درحالی که میانگین سرعت خواندن متن تقریباً ۱۳۰- ۱۰۰ کلمه در دقیقه است. پس برای یادگیری و استفاده از این روش سریع، ادامه مطلب را بخوانید.

مطالب مرتبط:

 مزیت‌های صفحه‌کلید گوگل برای ترجمه

تایپ فرمول‌ ریاضی با Microsoft Math Solver

معرفی نرم‌افزار تبدیل صوت به متن گوگل

تبدیل صدا به متن، فناوری تقریباً جدیدی است که هوش مصنوعی با استفاده از الگوریتم‌­های تعریف شده در پایگاه داده­‌ها و به کمک یادگیری ماشین توانسته علاوه بر سرعت، به دقت قابل قبولی نیز در سال­‌های اخیر دست یابد.

برای تولید یک نرم افزار تبدیل صدا به نوشته به Big Data های فراوانی نیاز است تا هوش مصنوعی بتواند محتوای موجود در گفتار را با وجود لهجه‌های مختلف و با کیفیت‌های متفاوت تشخیص و با داده­های موجودِ ذخیره شده، تطبیق دهد. مبحث پایگاه داده برای تولید یک موتور تبدیل گفتار به نوشتار اهمیت بسیار زیادی دارد. هر چه داده‌هایی که برای آموزش موتور تبدیل صوت به متن گسترده‌تر و متنوع‌تر باشد، هوش مصنوعی آموزش وسیع‌تری را پشت سر خواهدگذاشت و قادر خواهد بود که با دقت بیشتری کلمات را تشخیص دهد.

کاربردهای نرم افزار تبدیل صوت به متن

با تایپ کردن، اطلاعات را به داده‌­های دیجیتال تبدیل کرده تا استفاده، دسته‌­بندی و بهره برداری از آن داده­‌ها راحت‌­تر شود، امکان انتشار در قالب‌­های دلخواه (Word, PDF, Excel, etc.) به وجود بیاید و هم چنین دیگر شاهد مشکل ناخوانا بودن بعضی دست­خط­‌ها یا از بین رفتن آن‌ها به دلیل گذشت زمان نخواهیم بود. همان‌طور که گفته شد تایپ کردن برای خیلی از ما فعالیتی زمان­‌بر و خسته­‌کننده است.

صفحه کلید جدید گوگل که قابلیت تایپ با استفاده از صدا را دارد مورد استقبال بسیاری از گروه کاربران قرارگرفته‌­است. با استفاده از این صفحه‌­کلید می‌­توانید حتی بدون به کارگیری دستانتان با دقت بالایی مطالب را تایپ کند.

در واقع هدف اصلی فناوری، تسهیل فرایندهای انسانی و تسریع در انجام کارها و انتقال پیام است. گوگل هم با همین هدف، زمینه‌ای فراهم کرده است تا استفاده از صحبت کردن بتوانید متن مورد نظر خود را تایپ کنید.

قابلیت تبدیل صدا به متن صفحه کلید گوگل برای چه افرادی مفید است؟

مشخص کردن و دسته بندی برای استفاده از این قابلیت شگفت انگیز،‌کار دشواری است؛ اما در این بخش، افرادی که می‌توانند بیشترین بهره را از این نرم افزار ببرند، برای شما فراهم کرده‌ایم.

دانشجویان و خبرنگاران

به دلیل سرعت طبیعی صحبت کردن مخاطبان (مصاحبه شونده­‌ها، اساتید و معلمان) این گروه ترجیحاً برای از دست ندادن مطالب، نیاز به تایپ سریع دارند. هر چند خلاصه برداری و کدگذاری می­‌توانند تا حدی کمک کننده باشد؛ اما به کمک صفحه کلید صوتی گوگل دیگر مطلبی را از دست نمی­‌دهند.

معلولان و بیماران

 افرادی که به خاطر مشکلات جسمی (مثلاً شکستگی دست) یا ذهنی (بیماران Dyslexia به دلیل ضایعه ایجاد شده در مغز، در نوشتن دچارمشکل هستند) یا برای نابینایان و یا حتی افراد سالمی که با دست‌­های خود مشغول کار دیگری هستند. مثلاً رانندگان، به کمک این فناوری به راحتی می­‌توانند از پس کارهای خود بر بیایند و بدون استفاده از دست، تایپ کنند.

 استفاده در جلسات

 در جلسات طولانی با شرکت کنندگان زیاد یکی از معضلات، معمولاً تنظیم صورت‌جلسه و ریز مذاکرات اعضاء است، که دیگر به کمک این فناوری با سرعت و دقت، مطالب مورد نظر مورد نظر آماده بهره برداری می­شود.

 استفاده در مراکز تماس شبانه‌­روزی

 در صورت وجود سامانه­ پیغام­گیر در این مراکز (مثلاً مرکز تلفنی فوریت­‌های پلیسی یا مرکز ارتباط مشتریان) که قابلیت تبدیل صدا به متن را داشته باشد، علاوه بر اینکه نیاز و هزینه­ نیروی انسانی به شدت کاهش می‌­یابد امکان ذخیره، دسته بنده و اولویت بندی اطّلاعات توسط سیستم در قالب­‌های مورد نظر وجود خواهد داشت و با این امکان تجزیه و تحلیل داده­های دریافتی راحت‌­تر و سریع­‌تر می‌­شود.

کاربرد برای مترجمان، ویراستاران و محتوانویسان

 مترجمان و ویراستاران نیز می‌­توانند به کمک این نرم افزار سرعت کار خود را بالاتر ببرند و به عنوان یک ابزار کمک ترجمه‌­ای از آن استفاده کنند. اگر ویراستار بخواهد بخشی را به متن اضافه کند و یا بخشی طولانی را با زبان خود بازنویسی کند و یا محتوا نویس بخواهد متن خود را از پایه، با صدا بنویسد، این نرم افزار به شما کمک خواهد کرد.

افرادی که سواد خواندن و نوشتن ندارند

 این افراد نیز در شرایطی مجبور باشند متنی را تایپ کنند (مثلاً برای پُر کردن یک فرم مشخصات) می‌­توانند از این نرم افزار استفاده کنند. هم‌چنین کودکان و زبان­آموزان- که هنوز تسلط کافی در مهارت­‌های خواندن و نوشتن ندارند- نیز می‌­توانند به کمک این صفحه کلید مهارت‌­های نوشتاری خود را تقویت کنند.

کسب درآمد در خانه

 یکی از کاربردهای این نرم افزار برای افرادی مفید است که درآمدی ندارند و برای گذران زندگی از طریق پلتفرم‌ها یا مراکز مختلف، سفارش تایپ قبول می‌کنند و با استفاده از این قابلیت، بدون نیاز به سرمایه و مهارت، درآمد کسب کنند.

به زودی مطلبی برای کارهای در خانه روی وبلاگ قرار می‌گیرد که با استفاده از آن‌ها می‌توانید در مدت زمان کوتاهی از درون خانه کسب درآمد داشته باشید. وبلاگ و اینستاگرام ترجمیک را دنبال کنید.

مزایای استفاده از صفحه­ کلید GBoard

  • تشخیص خودکار متون بدون نیاز به نوشتن به صورت دستی
  • دقت بالا در شناسایی کلمات
  • سرعت بسیار بالا نسبت به تایپ دستی
  • رابط کاربری ساده بدون نیاز به دانش خاص
  • اشتراک متن تولیدی از طریق پیام کوتاه و ایمیل
  • قابلیت چند زبانه با تنظیم زبان مورد نظر در بخش تنظیمات
  • پشتیبانی از زبان فارسی، امکان ارسال ایموجی و ویرگول و نقطه و…
  • حدس کلمات به کمک هوش مصنوعی با توجه به ساختار جمله برای افزایش دقت در مواردی که فایل صوتی کیفیت مناسبی ندارد
  • رایگان بودن استفاده توسط کاربران
  • امکان تایپ، هم‌زمان با ترجمه توسط صفحه­کلید

روش تبدیل صدا به متن در نرم افزار

تبدیل صوت به متن به کمک فناوری تبدیل گفتار به نوشتار انجام می‌شود. این فناوری در حقیقت فناوری شناخت زبان بر پایه هوش مصنوعی و یادگیری ماشینی است که می‌تواند گفتگوی شفاهی را به صورت خودکار به نوشتار تبدیل کند. فناوری تبدیل گفته به نوشته قادر است تا هر نوع محتوای صوتی را تا حد قابل قبولی به نوشتار تبدیل کند. این فناوری در حقیقت به نوعی فناوری بین رشته‌ای زبان شناسی- رایانه می‌باشد که از دل علوم زبان شناسی، کامپیوتر و الکترونیک به دنیا آمده‌­است.

مراحل تشخیص گفتار توسط ماشین

هر صدایی، از جمله گفتار خودمان، که ما در پیرامون خود می­‌شنویم در واقع یک سیگنال آنالوگ محسوب می­‌شود. این سیگنال آنالوگ برای قابل فهم شدن توسط سیستم باید به سیگنال دیجیتال تبدیل شود. بعد از دریافت صوت توسط میکروفون، این امواج از اولین فیلتر عبور می‌کند و به ‌نوعی اصطلاحاً این سیگنال‌ها مسطح می‌­شوند.

پس از پیش‌پردازش، نوبت به استخراج ویژگی این سیگنال­‌ها می­‌رسد. در این مرحله، پارامترهای گفتار مشخص می­‌شود. به عبارتی دیگر صداهای کلامی از سایر صداهای ضبط شده­ موجود در محیط جدا می­‌شوند.

اساساً هر نرم افزار تشخیص گفتار دو مکانیزم کلی را در خود جای داده: بخش آوایی Acoustic (که با امواج فیزیکی سر و کار دارد) و بخش دوم، بخش زبان‌شناختی Linguistics (که به جمله، معنا و ساختار آن می‌­پردازد). در بخش آکوستیک سامانه وظیفه دارد صداها و امواج دریافتی محیط را دسته‌­بندی و برای پردازش نگهداری کند.

در واقع سیستم ابتدا صحبت شما را به صورت صوت‌­های جدا (Segment) و قابل تشخیص تقسیم ­بندی کرده، سپس در بخش زبانشناسی، این داده­ ها با واحدهای زبانی موجود در حافظه تطبیق داده شده و در صورت تشخیص همسانی با واحد معنایی زبان مثلاً یک واج، با توجه به شرایط متن و تحلیل ساختار جمله توسط ماشین آن کلمه انتخاب می‌­شود.

زبان انسانی: تشخیص و فهم ماشینی

 یکی از مفاهیمی که در حوزه­ تشخیص گفتار وارد شده است، مفهوم شناخت طبیعی زبان (Natural Language Understanding or NLU) است که زیرشاخه‌­ای از هوش مصنوعی است. در این جا موضوع صرفاً تشخیص صوت و امواج محیطی توسط ماشین نیست، بلکه سیستم باید این قابلیت را داشته باشد که صداهای غیر زبانی (مثلاً سر و صدای محیطی، موسیقی و…) را در فرایند تشخیص، جداسازی کند و فقط اصوات زبانی معنادار را جهت تحلیل به واحد زبانشناسی ارسال کند.

 نکات کلیدی برای استفاده بهینه از نرم افزار Gboard

– با توجه به اینکه سرور گوگل سرعت مناسبی دارد، استفاده از این صفحه کلید نسبت به نمونه‌­های داخلی پیشنهاد می­‌شود. گفتنی است بسیاری از نرم افزارهای داخلی نیز برای فرایند تشخیص گفتار از سرور گوگل استفاده می­‌کنند. ضمناً مدنظر داشته باشید که استفاده از آن کاملاً رایگان است.

– برای عملکرد بهینه­ نرم افزار شما باید تا حد امکان شمرده، بلند، کلمه به کلمه (با مکث بین کلمات و عبارات) و واضح صحبت کنید.

– برای استفاده از این نرم افزار حتماً باید به اینترنت متصل باشید.

– حتی‌­الامکان سعی کنید که در مکان­‌هایی که صدای محیطی کمتر است از آن استفاده کنید تا عملکرد مطلوب‌­تری داشته باشد.

– با استفاده مکرر از این نرم افزار به ماشین کمک می­‌کنید تا بتواند الگوریتم زبانی خاص شما Idiolect (تونِ صدا و ساختار دستوری غالب مورد استفاده کاربر و…) را رفته‌رفته بهتر تشخیص دهد و پیش بینی درست‌­تری داشته باشد.

– در این نرم افزار برای درج علائم نوشتاری مثل نقطه، رفتن به پاراگراف بعدی و … پس از اندکی مکث از آخرین کلمه­‌ای که بیان کردید، باید آن علامت را بیان کنید. مثلاً پس از پایان جمله بگویید «نقطه».

– با وجود این که هوش مصنوعی در این نرم افزار در نسخه اخیر پیشرفت­‌های بی­‌نظیری داشته است؛ اما حتماً پس از پایان کار یک دور مطالب نوشته شده توسط نرم افزار را کنترل کنید تا خطاهای احتمالی توسط ماشین را اصلاح کنید.

– برای از پشتیبانی زبان فارسی حتماً باید نرم افزار خود را به روز رسانی کنید

 نصب صفحه کلید

البته در بسیاری از تلفن همراه با سیستم عامل اندروید این نرم افزار به صورت پیش فرض نصب شده‌­است و شما در محیط اپلیکیشن­هایی که نیاز به تایپ دارید، با نگه داشتن علامت میکروفون و صحبت کردن امکان تایپ در آن محیط وجود دارد. اما برای به روزرسانی یا دانلود این نرم افزار برای سیستم‌های اندروید یا اپل به گوگل پلی و اپ­استور مراجعه کنید.

فعال‌سازی در سیستم عامل اندروید:

اگر این برنامه در تلفن همراه شما فعال نیست برای فعال سازی به بخش تنظیمات گوشی اندرویدی خود مراجعه کنید و گزینه “Language & Input” را انتخاب کنید. سپس از منوی “Keyboard & Input Methods”، گزینه “Google voice typing” را انتخاب کنید و در بخش بعدی، گزینه “Languages” را انتخاب کنید و از میان زبان‌های موجود، زبان “فارسی” را انتخاب کنید. البته ممکن است در برخی از مدل­های تلفن همراه اندکی گزینه­‌ها متفاوت باشد؛ اما نمای کلی تقریباً به همین شکل است.

تایپ با گوگل

حالا کافی است در محیط برنامه یا نرم افزاری که در حال تایپ در آن هستید، از صفحه­‌کلید میکروفون یا همان “Google voice typing” را انتخاب کنید. پس از انتخاب این گزینه، تصویری همانند تصویر زیر نمایش داده می‌شود که کافی است در هنگامی که دکمه میکروفون به رنگ سبز است، آن را نگه دارید و به زبان فارسی صحبت کنید. پس از تمام شدن جمله، دکمه میکروفون را رها کنید تا صحبت‌های شما به نوشتار تبدیل شود و در صورت صحیح بودن، آن را ارسال کنید و یا در جای دیگری ذخیره کنید.

فعالسازی در سیستم عامل IOS:

در iPhone یا iPad، برنامه Gboard Gboardرا باز کنید؛ Gboard را صفحه‌کلید اصلی‌تان قرار دهید. سپس وارد Setting شوید و موارد دلخواه در General Keyboard را انتخاب و گزینه­های مربوطه را فعال یا غیرفعال کنید. برای استفاده از Google Search باید ابتدا گزینه­ی Enabling Full Access را فعال کنید. هم چنین برای انتخاب زبان­ها روی گزینه­ Add Languages بزنید و از لیست مربوطه، زبان مورد نظر خود را انتخاب کنید. به یاد داشته باشید که صفحه کلید Gboard امکان پشتیبانی هم‌زمان از ۳ زبان را دارد.

گوگل ترنسلیت | Google Translate

لازم به یادآوری است که در صفحه کلید جدید گوگل، امکان استفاده هم‌زمان از گوگل ترنسلیت مهیا شده است. به عبارت دیگر شما با خواندن متن و تایپ آن توسط تلفن همراه خود، هم زمان می­توانید در تَب بالای صفحه کلید، ترجمه­ آن را نیز به زبان انتخابی مشاهده کنید. این کار موجب افزایش سرعت کاربر می‌شود و نیاز به مراجعه مجدد به سایت یا نرم­افزار گوگل ترنسلیت نیست.

البته در نرم افزار گوگل ترنسلیت نیز این قابلیت تایپ صوتی وجود دارد. به طوری که شما مثلاً عبارتی را برای تلفن خود می‌­خوانید و پس از تجزیه و تحلیل توسط سرور با داده‌­های موجود، آن عبارت را تایپ و سپس به زبان انتخابی مقصد ترجمه می‌­کند.

هم چنین پس از این که عبارت مد نظر شما ترجمه شد می­توانید با زدن روی علامت بلندگو، تلفظ صحیح آن را بشنوید. ضمناً این برنامه پرکاربرد قابلیت دیگری نیز دارد و آن عکس برداری از متن و نوشته­‌ها و تبدیل آن به متن تایپی و نهایتاً ترجمه­ آن است. که با زدن دکمه دوربین روی آن، این قابلیت فعال می­شود. در مطالب پیشین وبلاگ به موضوع دوربین ترجمه گوگل پرداخته‌ایم.

کلام آخر

جهان معاصر روز به روز درحال پیشرفت و هوشمندتر شدن است. به کمک فناوری­‌هایی نظیر گوگل دیگر بسیاری از محرومیت­‌ها و معذوریت‌­های طبیعی قابل رفع است. انسان معاصر به کمک این فناوری­‌ها می­‌تواند با ابزارهای خود ارتباط تعاملی برقرار کند. این که بتوان با تلفن همراه خود صحبت کرد و آن بتواند پیام شما را بفهمد، آن را ترجمه کند و تایپ کند یا اقدام مناسب با آن را اجرا کند، شاید خیلی جالب و در عین حال اندکی مبهم و عجیب باشد.

ترجمیک پلتفرم خدمات زبانی است که خدماتی مثل، ترجمه تخصصی، ویرایش و تولید محتوا را به بهترین نحو ممکن در کشور ارائه می‌دهد. برای آشنایی با ترجمیک و یا ثبت سفارش به صفحه ترجمیک مراجعه کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *