حتماً برای شما هم پیش آمده که برای ارائه یک پروژه دانشجویی، ترجمه تخصصی یک متن یا انجام امور اداری مجبور باشید تا چندین صفحه متن را در مدت زمانی کوتاه تایپ کنید. شاید اگر زمانی به کسی میگفتیم که در آینده نرمافزاری میآید که حرفها را به متن تبدیل میکند، مسخره میشدیم. اما آینده همواره غیر قابل پیشبینی است و هر روزه با پیشرفت فناوری، ابزارها و نرمافزارهای شگفتتری پدید میآيد.
فارغ از این که تا چه میزان در مهارت تایپ ده انگشتی تسلط دارید، تایپ کردن بسیار زمانبر و خستهکننده، فرسایشی و آسیبزننده است. تایپ مداوم و طولانی موجب خشکی چشم یا آرتروز انگشتان و حتی گردن شود. جالب است بدانید که به طور میانگین، سرعت تایپ توسط انگشتان چیزی حدود ۴۰-۴۵ کلمه در دقیقه است، درحالی که میانگین سرعت خواندن متن تقریباً ۱۳۰- ۱۰۰ کلمه در دقیقه است.
البته استفاده از این نرمافزارها فعلا برای متون طولانی مخصوصا برای متون فارسی توصیه نمیشود. زیرا ایرادها و عیبهای خاص خودشان را دارند.
مطالب مرتبط:
مزیتهای صفحهکلید گوگل برای ترجمه
در این مطلب خواهید خواند:
معرفی نرمافزار تبدیل صوت به متن گوگل
تبدیل صدا به متن، فناوری تقریباً جدیدی است. هوش مصنوعی با استفاده از الگوریتمهای تعریف شده در پایگاه دادهها و به کمک یادگیری ماشین توانسته علاوه بر سرعت، به دقت قابل قبولی نیز در سالهای اخیر دست یابد.
برای تولید یک نرم افزار تبدیل صدا به نوشته به کلاندادههای فراوانی نیاز است. با استفاده از این اطلاعات هوش مصنوعی محتوای موجود در گفتار را با وجود لهجههای مختلف و با کیفیتهای متفاوت تشخیص میدهد. مبحث پایگاه داده برای تولید یک موتور تبدیل گفتار به نوشتار اهمیت بسیار زیادی دارد.
هر چه دادههایی که برای آموزش موتور تبدیل صوت به متن گستردهتر و متنوعتر باشد، هوش مصنوعی قادر خواهد بود که با دقت بیشتری کلمات را تشخیص دهد.
کاربردهای نرم افزار تبدیل صوت به متن
این نرمافزار با تایپ کردن صدای شما، اطلاعات را به دادههای دیجیتال تبدیل کرده تا استفاده، دستهبندی و بهره برداری از آن دادهها راحتتر شود. همچنین امکان انتشار در قالبهای دلخواه (Word, PDF, Excel, etc) فراهم میشود. یک مزیت دیگر هم این است که دیگر شاهد مشکل ناخوانا بودن بعضی دستخطها یا از بین رفتن آنها به دلیل گذشت زمان نخواهیم بود. همانطور که گفته شد تایپ کردن برای خیلی از ما فعالیتی زمانبر و خستهکننده است.
صفحه کلید جدید گوگل که قابلیت تایپ با استفاده از صدا را دارد، مورد استقبال بسیاری از افراد قرارگرفته است. با استفاده از این صفحهکلید بدون به کارگیری دستانتان با دقت بالایی (تقریبا) مطالب را تایپ میکنید.
در واقع هدف اصلی فناوری، تسهیل فرایندهای انسانی و تسریع در انجام کارها و انتقال پیام است. گوگل هم با همین هدف، زمینهای فراهم کرده است تا با صحبت کردن بتوانید متن مورد نظر خود را تایپ کنید.
قابلیت تبدیل صدا به متن صفحه کلید گوگل برای چه افرادی مفید است؟
مشخص کردن و دسته بندی برای استفاده از این قابلیت شگفت انگیز، کار دشواری است. در این بخش، افرادی که میتوانند بیشترین بهره را از این نرم افزار ببرند، برای شما فراهم کردهایم.
دانشجویان و خبرنگاران
به دلیل سرعت طبیعی صحبت کردن مخاطبان (مصاحبه شوندهها، اساتید و معلمان) این گروه ترجیحاً برای از دست ندادن مطالب، به تایپ سریع نیاز دارند. هر چند خلاصه برداری و کدگذاری میتوانند تا حدی کمک کننده باشد اما به کمک صفحه کلید صوتی گوگل دیگر مطلبی را از دست نمیدهند.
معلولان و بیماران
افرادی که به خاطر مشکلات جسمی (مثلاً شکستگی دست) یا ذهنی (بیماران Dyslexia به دلیل ضایعه ایجاد شده در مغز، در نوشتن دچارمشکل هستند) یا برای نابینایان و یا حتی افراد سالمی که با دستهای خود مشغول کار دیگری هستند. مثلاً رانندگان، به کمک این فناوری به راحتی میتوانند از پس کارهای خود بر بیایند و بدون استفاده از دست، تایپ کنند.
استفاده در جلسات
در جلسات طولانی با شرکت کنندگان زیاد یکی از چالشها، تنظیم صورتجلسه و ریز مذاکرات اعضا است. به کمک این فناوری با سرعت و دقت، مطالب مورد نظر آماده بهره برداری میشود.
استفاده در مراکز تماس شبانهروزی
در صورت وجود سامانه پیغامگیر در این مراکز (مثلاً مرکز تلفنی فوریتهای پلیسی یا مرکز ارتباط مشتریان) که قابلیت تبدیل صدا به متن را داشته باشد، هزینه نیروی انسانی به شدت کاهش مییابد. همچنین امکان ذخیره، دسته بندی و اولویت بندی اطلاعات توسط سیستم در قالبهای مورد نظر وجود خواهد داشت. با این کار امکان تجزیه و تحلیل دادههای دریافتی راحتتر و سریعتر میشود.
کاربرد برای مترجمان، ویراستاران و نویسندگان محتوا
مترجمان و ویراستاران نیز میتوانند به کمک این نرم افزار سرعت کار خود را بالاتر ببرند و به عنوان یک ابزار کمک ترجمهای از آن استفاده کنند. البته هنوز هم تاکید میکنم که این ابزار هنوز برای تایپ متون فارسی، زیاد کاربردی نیست. با این حال به عنوان یک ابزار کمکی میتواند مورد استفاده قرار گیرد.
افرادی که سواد خواندن و نوشتن ندارند
این افراد نیز در شرایطی که مجبور به تایپ کردن متنی باشند (مثلاً برای پُر کردن یک فرم مشخصات) میتوانند از این نرم افزار استفاده کنند.
مزایای استفاده از صفحه کلید GBoard
- تشخیص خودکار متون بدون نیاز به نوشتن به صورت دستی
- دقت بالا در شناسایی کلمات
- سرعت بسیار بالا نسبت به تایپ دستی
- رابط کاربری ساده بدون نیاز به دانش خاص
- اشتراک متن تولیدی از طریق پیام کوتاه و ایمیل
- قابلیت چند زبانه با تنظیم زبان مورد نظر در بخش تنظیمات
- پشتیبانی از زبان فارسی، امکان ارسال ایموجی و ویرگول و نقطه و…
- حدس کلمات به کمک هوش مصنوعی با توجه به ساختار جمله برای افزایش دقت در مواردی که فایل صوتی کیفیت مناسبی ندارد
- رایگان بودن استفاده توسط کاربران
- امکان تایپ، همزمان با ترجمه توسط صفحه کلید
روش تبدیل صدا به متن در نرم افزار
تبدیل صوت به متن به کمک فناوری تبدیل گفتار به نوشتار انجام میشود. این فناوری در حقیقت فناوری شناخت زبانی بر پایه هوش مصنوعی و یادگیری ماشینی است. بر اساس این الگوریتمها، گفت و گوی شفاهی به صورت خودکار به نوشتار تبدیل میشود.
فناوری تبدیل صوت به نوشته قادر است تا هر نوع محتوای صوتی را تا حد قابل قبولی به نوشتار تبدیل کند. این فناوری در حقیقت به نوعی فناوری بین رشتهای زبان شناسی- رایانه میباشد که از دل علوم زبان شناسی، کامپیوتر و الکترونیک پدید آمدهاست.
مراحل تشخیص گفتار توسط ماشین
هر صدایی، از جمله گفتار خودمان که در پیرامون خود میشنویم، در واقع یک سیگنال آنالوگ محسوب میشود. این سیگنال آنالوگ برای قابل فهم شدن توسط سیستم باید به سیگنال دیجیتال تبدیل شود. بعد از دریافت صوت توسط میکروفون، این امواج از اولین فیلتر عبور میکند و به نوعی اصطلاحاً این سیگنالها مسطح میشوند.
پس از پیشپردازش، نوبت به استخراج ویژگی این سیگنالها میرسد. در این مرحله، پارامترهای گفتار مشخص میشود. به عبارتی دیگر صداهای کلامی از سایر صداهای ضبط شده موجود در محیط جدا میشوند.
اساساً هر نرم افزار تشخیص گفتار دو مکانیزم کلی را در خود جای داده: بخش آوایی Acoustic (که با امواج فیزیکی سر و کار دارد) و بخش دوم، بخش زبانشناختی Linguistics (که به جمله، معنا و ساختار آن میپردازد). در بخش آکوستیک سامانه وظیفه دارد تا صداها و امواج دریافتی محیط را دستهبندی و برای پردازش نگهداری کند.
در واقع سیستم، ابتدا صحبت شما را به صورت صوتهای جدا (Segment) و قابل تشخیص تقسیم بندی میکند. سپس در بخش زبانشناسی، این داده ها با واحدهای زبانی موجود در حافظه تطبیق داده میشوند. در صورت تطابق و پیدا کردن کلمه و واج مشابه، صوت به متن تبدیل میشود.
زبان انسانی: تشخیص و فهم ماشینی
یکی از مفاهیمی که در حوزه تشخیص گفتار وارد شده است، مفهوم شناخت طبیعی زبان (Natural Language Understanding or NLU) است. این مفهوم زیرشاخهای از هوش مصنوعی است. در این جا موضوع صرفاً تشخیص صوت و امواج محیطی توسط ماشین نیست. بلکه سیستم باید این قابلیت را داشته باشد که صداهای غیر زبانی (مثلاً سر و صدای محیطی، موسیقی و…) را در فرایند تشخیص، جداسازی کند و فقط اصوات زبانی معنادار را جهت تحلیل به واحد زبانشناسی ارسال کند.
نکات کلیدی برای استفاده بهینه از نرم افزار Gboard
- با توجه به اینکه سرور گوگل سرعت مناسبی دارد، استفاده از این صفحه کلید نسبت به سایر نرمافزارها پیشنهاد میشود. بسیاری از نرم افزارهای داخلی نیز برای فرایند تشخیص گفتار از سرور گوگل استفاده میکنند. ضمناً مدنظر داشته باشید که استفاده از آن کاملا رایگان است.
- برای عملکرد بهینه نرم افزار شما باید تا حد امکان شمرده، بلند، کلمه به کلمه (با مکث بین کلمات و عبارات) و واضح صحبت کنید.
- حتیالامکان سعی کنید که در مکانهایی که صدای محیطی، کمتر است از آن استفاده کنید تا عملکرد مطلوبتری داشته باشد.
- با استفاده مکرر از این نرم افزار به ماشین کمک میکنید تا بتواند الگوریتم زبانی خاص شما Idiolect (تونِ صدا و ساختار دستوری غالب مورد استفاده کاربر و…) را رفتهرفته بهتر تشخیص دهد و پیش بینی درستتری داشته باشد.
- در این نرم افزار برای درج علائم نوشتاری مثل نقطه، رفتن به پاراگراف بعدی و … پس از اندکی مکث از آخرین کلمهای که بیان کردید، باید آن علامت را بیان کنید. مثلاً پس از پایان جمله بگویید «نقطه».
- با وجود این که هوش مصنوعی در این نرم افزار در نسخه اخیر پیشرفتهای بینظیری داشته است. حتماً پس از پایان کار یک دور مطالب نوشته شده توسط نرم افزار را کنترل کنید تا خطاهای احتمالی توسط ماشین را اصلاح کنید.
- برای پشتیبانی از زبان فارسی حتماً باید نرم افزار خود را به روز رسانی کنید.
نصب صفحه کلید
این صفحه کلید در بسیاری از تلفنهای همراه با سیستم عامل اندروید به صورت پیش فرض نصب شدهاست. شما در اپلیکیشنهایی که در آنها نیاز به تایپ دارید، با نگه داشتن علامت میکروفون و صحبت کردن، امکان تایپ را دارید. اما برای به روزرسانی یا دانلود این نرم افزار برای سیستمهای اندروید یا اپل به گوگل پلی و اپاستور مراجعه کنید.
فعالسازی در سیستم عامل اندروید:
اگر این برنامه در تلفن همراه شما فعال نیست برای فعال سازی به بخش تنظیمات گوشی اندرویدی خود مراجعه کنید و گزینه “Language & Input” را انتخاب کنید. سپس از منوی “Keyboard & Input Methods”، گزینه “Google voice typing” را انتخاب کنید. در بخش بعدی، گزینه “Languages” را انتخاب کنید و از میان زبانهای موجود، زبان «فارسی» را انتخاب کنید. البته ممکن است در برخی از مدلهای تلفن همراه اندکی گزینهها متفاوت باشد؛ اما نمای کلی تقریباً مشابه است.
حالا کافی است در محیط برنامه یا نرم افزاری که در حال تایپ در آن هستید، از صفحهکلید، میکروفون یا همان “Google voice typing” را انتخاب کنید. پس از انتخاب این گزینه، تصویری همانند تصویر زیر نمایش داده میشود. هنگامی که دکمه میکروفون به رنگ سبز است، آن را نگه دارید و صحبت کنید. پس از تمام شدن جمله، دکمه میکروفون را رها کنید تا صحبتهای شما به نوشتار تبدیل شود. در صورت صحیح بودن، نوشتهها را ارسال کنید و یا در جای دیگری ذخیره کنید.
فعالسازی در سیستم عامل IOS:
در iPhone یا iPad، برنامه Gboard را باز کنید؛ Gboard را صفحهکلید اصلیتان قرار دهید. سپس وارد Setting شوید و موارد دلخواه در General Keyboard را انتخاب و گزینههای مربوطه را فعال یا غیرفعال کنید. برای استفاده از Google Search باید ابتدا گزینهی Enabling Full Access را فعال کنید. هم چنین برای انتخاب زبانها روی گزینه Add Languages بزنید و از لیست مربوطه، زبان مورد نظر خود را انتخاب کنید. به یاد داشته باشید که صفحه کلید Gboard امکان پشتیبانی همزمان از ۳ زبان را دارد.
گوگل ترنسلیت | Google Translate
لازم به یادآوری است که در صفحه کلید جدید گوگل، امکان استفاده همزمان از گوگل ترنسلیت مهیا شده است. به عبارت دیگر شما با خواندن متن و تایپ آن توسط تلفن همراه خود، هم زمان میتوانید در تَب بالای صفحه کلید، ترجمه آن را نیز به زبان انتخابی مشاهده کنید. این کار موجب افزایش سرعت کاربر میشود و نیاز به مراجعه مجدد به سایت یا نرمافزار گوگل ترنسلیت نیست.
البته در نرم افزار گوگل ترنسلیت نیز این قابلیت تایپ صوتی وجود دارد. به طوری که شما مثلاً عبارتی را برای تلفن خود میخوانید. پس از تجزیه و تحلیل توسط سرور با دادههای موجود، آن عبارت را تایپ و سپس به زبان انتخابی مقصد ترجمه میکند.
هم چنین پس از این که عبارت مد نظر شما ترجمه شد، با زدن روی علامت بلندگو، تلفظ صحیح آن را بشنوید. ضمناً این برنامه پرکاربرد قابلیت دیگری نیز دارد. این قابلیت عکس برداری از متن و نوشتهها و تبدیل آن به متن تایپی و نهایتاً ترجمه آن است. با زدن دکمه دوربین روی آن، این قابلیت فعال میشود.
کلام آخر
جهان معاصر روز به روز درحال پیشرفت و هوشمندتر شدن است. به کمک فناوریهایی نظیر گوگل دیگر بسیاری از محرومیتها و معذوریتهای طبیعی قابل رفع است. انسان معاصر به کمک این فناوریها میتواند با ابزارهای خود ارتباط تعاملی برقرار کند. این که بتوان با تلفن همراه خود صحبت کرد و آن بتواند پیام شما را بفهمد، آن را ترجمه کند و تایپ کند یا اقدام مناسب با آن را اجرا کند، شاید خیلی جالب و در عین حال اندکی مبهم و عجیب باشد.
ترجمیک پلتفرم خدمات زبانی است که خدماتی مثل، ترجمه تخصصی، ویرایش و تولید محتوا را به بهترین نحو ممکن ارائه میدهد. برای آشنایی با ترجمیک و ثبت سفارش به سایت ترجمه ترجمیک مراجعه کنید.