تشخیص گفتار: افکار بعدی در مورد نقاط قوت و ضعف آن

باید اعتراف کنم که مدت زیادی بود که وقتی از من خواسته شد تا آموزش ها را انجام دهم، از هیچ نوع تشخیص گفتار استفاده نکرده بودم. (speech recognition)آخرین باری که تشخیص گفتار(speech recognition) را امتحان کردم ، با Dragon Dictate بود که زمانی که ویندوز 98 جدید بود، جدید بود. خیلی وقت پیش در سالهای کامپیوتری!

من از پرداختن به این موضوع خوشحال بودم زیرا بسیار علاقه مند بودم ببینم که چگونه تشخیص گفتار بهبود یافته است. و پسر، آیا بهبود یافته است! حتی یک برنامه ابتدایی داخلی مانند این کار به طرز شگفت انگیزی "درست از جعبه" انجام داد. در این مقاله پایانی در مورد تشخیص گفتار ، می‌خواهم در مورد چیزهایی که در حین آشنایی مجدد با شگفتی‌های (Speech Recognition)تشخیص گفتار(speech recognition) یاد گرفتم صحبت کنم و از اینجا به کجا خواهم رفت.

هنوز برای Star Trek آماده نیستیم

من مطمئن هستم که بسیاری از ما خدمه Starship Enterprise را تماشا کردیم که می گفتند "Computer!"و دریافت پاسخ فوری ما هنوز کامپیوترهای Starfleet نداریم، اما با شروع ویندوز ویستا(Windows Vista) و ادامه در ویندوز 7(Windows 7) ، رایانه‌هایی داریم که به حرف‌های ما گوش می‌دهند و به آنچه به آن‌ها می‌گوییم پاسخ می‌دهند - و به ما پاسخ می‌دهند، اگر "این چی بود؟" ("What was that?")پاسخ محسوب می شود.

تشخیص گفتار

زمانی که برای اولین بار سعی کردم از تشخیص گفتار(Speech Recognition) استفاده کنم، مشکلاتی داشتم ، و عیب‌یابی خیلی ساده نبود. فایل های راهنما همیشه به اندازه کافی مفید نیستند. من توانستم پاسخ ها را در وب سایت (web site)مایکروسافت(Microsoft) و در مجموعه ای از انجمن های آنلاین بدون کار زیاد بیابم. اینطوری فهمیدم که فراموش کرده بودم وبکم من (که درست روبروی من بالای مانیتورم نشسته بود و مستقیماً مطابق با نحوه صحبتم بود) یک میکروفون فعال هم دارد و به سردرگمی اضافه می کند. وقتی آن را درست کردم، از آن به بعد حرکت بسیار نرمی داشت.

من حتی سعی کردم با مجموعه ای از لهجه های مختلف صحبت کنم ( مثلاً بی بی سی انگلیسی و آمریکایی redneck(BBC British and American redneck) ) و توانستم شناخت نسبتاً خوبی به دست بیاورم و تفاوت هایی را در تلفظ استاندارد آمریکایی ایجاد کنم. البته با گفتن "Friends, Romans, countrymen, lend me your ears!"در حالی که بهترین برداشت‌هایم از هلن میرن و جف فاکس‌ورثی(Helen Mirren and Jeff Foxworthy) باعث شد که برای دریافت نتایج کاملاً دقیق، بیش از حد بخندم.

تشخیص زبان

تشخیص گفتار(Speech Recognition) را می توان با زبان های مختلف استفاده کرد، و من فکر کردم که ممکن است آن را با لهجه محدود آمریکایی ، (American)اسپانیایی(Spanish) ، آلمانی و فرانسوی(German and French) خود امتحان کنم ، اما متأسفانه نمی توانید از زبان های دیگر استفاده کنید مگر اینکه سیستم عامل(operating system) شما نیز به آن زبان باشد. شما می توانید با نصب بسته زبانی(language pack) دیگر از مایکروسافت ، زبان (Microsoft)سیستم عامل(operating system) خود را تغییر دهید ، اما تنها در صورتی می توانید این کار را انجام دهید که از Windows 7 Ultimate یا Windows 7 Enterprise استفاده می کنید.

تشخیص گفتار

تشخیص گفتار(Speech Recognition) برای انگلیسی ایالات متحده(US English) ، انگلیسی بریتانیا(UK English) ، فرانسوی(French) ، اسپانیایی(Spanish) ، آلمانی(German) ، ژاپنی(Japanese) ، چینی سنتی و چینی ساده شده در دسترس است و در نسخه‌های (Traditional Chinese and Simplified Chinese)ویندوز 7(Windows 7) آن زبان‌ها (همه نسخه‌ها) یافت می‌شود. متاسفم که نتوانستم آن را امتحان کنم. من نمی دانم که با ویندوز 8(Windows 8) چه اتفاقی می افتد ، اما فکر می کنم توانایی نصب بسته های زبان دیگر افزوده خوبی برای معادل های ویندوز 8 (Windows 8)ویندوز 7 (Windows 7) حرفه ای(Professional) و بالاتر باشد.

چیزی که به خوبی کار می کند

همانطور که اشاره کردم، Speech Recognition برای بهترین کارکرد با سایر نرم افزارهای مایکروسافت طراحی(Microsoft software) شده است. تا زمانی که محصولات مایکروسافت(Microsoft) را آزمایش می کردم بسیار موفق بودم (اگرچه همانطور که می توان انتظار داشت، استفاده از Microsoft Office Excel هم محدود و هم پیچیده بود). با نرم افزارهای دیگر ضربه خورد یا از دست رفت. من می‌توانم از مرورگر Google Chrome به خوبی استفاده کنم (مطمئناً نه به خوبی اینترنت اکسپلورر(Internet Explorer) ) و از برنامه ایمیل Eudora خود که تا به حال (Eudora)نرم‌افزار آنتیک است(antique software) . ارزش آن را دارد که با نرم افزار مورد علاقه خود آزمایش کنید تا ببینید چه کاری می توانید انجام دهید. دستور «نمایش اعداد» به ویژه در انتخاب موارد و دستورات مفید بود.

همچنین متوجه شدم که مدت زیادی طول نکشید تا دقت تشخیص به طور قابل توجهی بهبود یابد. دوبار تمرینات آموزشی را انجام دادم و بعد از آن شناخت تقریباً 100 % correct بود. من توانستم کمی سریعتر صحبت کنم و مکث های کمتری برای نرم افزار قرار دادم تا به کار خود ادامه دهد. من واقعاً از تماشای ترجمه صدایم روی صفحه لذت بردم. تجربیات اولیه من با نرم افزار تشخیص گفتار به(speech recognition software) این اندازه خوشایند نبود.

تشخیص گفتار

چیزی که خوب کار نمی کند

همانطور که اشاره کردم، برخی از نرم افزارها فقط با Speech Recognition سازگار نیستند. من حتی نتوانستم Adobe Reader یا نسخه Adobe AIR TweetDeck را باز کنم . متوجه شدم که نمی‌توانم با اینترنت اکسپلورر (Internet Explorer)وارد حساب Google خود شوم تا (Google account)Google Docs را امتحان کنم - به نظر می‌رسید هیچ راهی برای صحبت کردن یا املای رمز عبور من وجود ندارد. من گمان می‌کنم که این یک مشکل امنیتی است(security issue) ، اجازه نمی‌دهیم گذرواژه‌ها با صدای بلند در جایی که ممکن است شخص دیگری بشنود، صحبت شود، اما آزاردهنده بود.

من می توانستم iTunes را باز کنم و آهنگی را برای پخش انتخاب کنم، اما در واقع نتوانستم آن را پخش کنم. می‌توانستم Scrivener (پردازنده کلمه انتخابی من) را باز کنم، اما «نمایش اعداد»("Show numbers") اعداد را روی هر چیزی که می‌خواستم استفاده کنم، همپوشانی نمی‌کرد. من هیچ آزمایش گسترده‌ای با نرم‌افزار مورد علاقه‌ام انجام ندادم - آن‌ها فقط تعدادی بودند که امتحان کردم. برای هر کسی که می‌خواهد از تشخیص گفتار(Speech Recognition) استفاده کند، می‌تواند برنامه‌هایی را که می‌خواهد از آن استفاده کند، آزمایش کند تا مطمئن شود که با آن سازگار است.

پیوندها و منابع بیشتر

اگر قبلاً مقالات قبلی را ندیده اید، می توانید آنها را در اینجا بیابید:

  • کار با تشخیص گفتار(Speech Recognition) : راه اندازی و پیکربندی(Setup and Configuration)
  • کار با تشخیص گفتار(Speech Recognition) : دستورات، دیکته (Web)متن و مرور(Dictating Text & Browsing) وب
  • عیب یابی مشکلات رایج تشخیص گفتار(Common Speech Recognition Problems)

به طور عجیبی، تقریباً غیرممکن است که اطلاعاتی در مورد تشخیص گفتار(Speech Recognition) در وب سایت (web site)Microsoft Answers بدون کلیک کردن روی پیوندی از جستجوی Google یا Bing پیدا(Google or Bing search) کنید. من با قرار دادن "تشخیص گفتار"("Speech Recognition") در کادر جستجو(search box) نتوانستم هیچ پاسخی دریافت کنم ، حتی اگر چند سوال در مورد آن در انجمن ها وجود داشته باشد. از این پیوند برای دریافت کمک تشخیص گفتار(Speech Recognition) از وب سایت Windows استفاده کنید: نتایج جستجوی تشخیص گفتار(Speech Recognition search results) .

در اینجا مقاله مختصری در ویکی پدیا آمده(Wikipedia article) است که در مورد تاریخچه تشخیص گفتار(speech recognition) در مایکروسافت(Microsoft) صحبت می کند : تشخیص گفتار ویندوز(Windows Speech Recognition) .

در اینجا یک ورودی وبلاگ است(blog entry) که نظرات نویسنده را در مورد مقایسه تشخیص گفتار(Speech Recognition) با Dragon Naturally Speaking : Dragon NaturallySpeaking در مقابل تشخیص صدای ویندوز 7(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition) ارائه می دهد.

پیچیدن آن

من واقعاً از کار با Speech Recognition و شگفتی از پیشرفت هایی که در طول زمان ایجاد شده است لذت بردم. مطمئناً برای استفاده روزمره(everyday use) معمولی به اندازه کافی خوب است ، به خصوص در مورد محصولات مایکروسافت(Microsoft) .

آیا به استفاده از تشخیص گفتار(Speech Recognition) ادامه خواهم داد ؟ بله، وقتی بتوانم. در این مرحله من به چیز پیچیده تر نیاز ندارم. ارزش وقت گذاشتن برای آموزش آن و آموزش خودم برای استفاده درست از آن را داشت.



About the author

من یک بازبین نرم افزار و مهندس بی سیم با بیش از 10 سال تجربه در این زمینه هستم. من در بررسی برنامه ها و نرم افزارهای تلفن همراه و همچنین کمک به مشتریان برای بهینه سازی شبکه های خود تخصص دارم. از طریق بررسی‌هایم، می‌توانم به شما در تصمیم‌گیری آگاهانه درباره محصولاتی که باید استفاده کنید، نحوه بهبود گردش کار و موارد دیگر کمک کنید. مهارت های من عبارتند از: ارتباط کتبی و شفاهی عالی، حل مسئله، دانش فنی قوی و توجه به جزئیات. من همچنین در کار مستقل و همکاری در پروژه ها مهارت دارم.



Related posts