چرا گوگل، مایکروسافت و آمازون عاشق صدای شما هستند؟

دسته‌بندی نشده 51 جمعه ۱۰ دی ۹۵ رضا حیدرزاده
چرا گوگل، مایکروسافت و آمازون عاشق صدای شما هستند؟

آمازون با دستگاه جدیدی به نام Echo، وعده دستیار شخصی هوشمند مصنوعی در هر خانه را ملموس تر کرد. کسانی که این گجت ها را دارند معمولا به همه پیشنهاد می کنند که یکی از دیوایس های آمازون را بخرند. چرا؟ چون می توانند با آن اوبر بگیرند، پیتزا سفارش دهند و هر جستجویی را انجام دهند. آمازون می گوید که روزانه ۵ هزار تن علاقه خود را نسبت به دستیار صوتی شان مستقیما ابراز می کنند.

از سوی دیگر، علاقه مندان به الکسا می دانند که اگر با او بسیار آهسته و شمرده گفتگو نکنید، احتمال دارد که او به شما بگوید: «ببخشید، جواب به این پرسش را نمی دانم.»

یکی از مشتریان در وبسایت آمازون در حالی که به محصول امتیاز ۵ ستاره داده می گوید: «عاشقش هستم، ازش متنفرم، عاشقش ام. خیلی زود متوجه می شوید که به چه طریقی با او گفتگو کنید تا متوجه شما شود، مثل گفتگو کردن با یک کودک نو پا.»

فناوری تشخیص صدا راه بسیاری را طی چند سال گذشته پیموده است. اما هنوز هم به قدر کافی ترقی نکرده تا در همه محصولات ما به کار رود و وارد استفاده روزمره زندگی انسان شود. تصور کنید یک روزی بتوانید با همه گجت های تان گفتگو کنید و آن ها هم به شما جواب دهند؛ ماشین، تلویزیون، لباسشویی، رایانه و هر چیز دیگری که فکرش را کنید.

علی رغم ترقی های چهره پذیرفته در زمینه فناوری تشخیص صدا، مردم هنوز هم علاقه دارند سکوت کرده و راه شان را با لمس و کلیک اجزای فیزیکی رایانه و گوشی شان پیش ببرند. و این روند احتمالا تا چند سال دیگر هم به همینگونه ادامه خواهد یافت.

چه مسئله ای باعث ترقی اندک در این زمینه می شود؟ بخشی از آن به هوش مصنوعی و مغز متفکر دستگاه باز می گردد که جای ترقی بسیاری دارد. حالا تصور کنید که چندین زبان زنده و رایج در جهان داریم و هر کدام چندین گویش و گویش ویژه دارند. داده های مربوط به زبان ها در حال آماده بسیار محدود و ناقص است.

amazing-new-digital-assistant-puts-siri-google-now-shame-1280x600-w600

بنابراین آمازون، اپل، مایکروسافت و بایدو تازه در ابتدای این سفر هستند و باید چندین ترابایت صدا ذخیره کنند تا این فناوری قابلیت همه گیر شدن را پیدا کند.

حتما بخوانید:   به روزرسانی تازه Outlook، قابلیت ها و بهبودهای مهمی را به اپلیکیشن می آورد

مایکروسافت در سراسر جهان، مراکز کوچکی، همانند خانه های عادی تاسیس کرده تا علاقه مندان و داوطلبان به آنجا بروند و صداهای شان را ضبط کنند. هر ساعت، آمازون درخواست های الکسا را به یک انبار دیجیتالی آپلود می کند. بایدو مشغول نام نویسی و ضبط گونه ها گویش های چینی است. سپس شرکت ها همه این داده ها را جمع کرده و به کامپیوترهای شان می دهند تا از آن ها بیاموزند، متوجه شان شوند و در نهایت جواب شان را دهند.

چالش این است که راهی برای نام نویسی مکالمات واقعی و طبیعی روزمره پیدا شود. آدام کوتس، کسی که آزمایشگاه هوش مصنوعی بایدو در سانی ویل کالیفرنیا را اداره می کند می گوید حتی دقت ۹۵ درصدی هم کافی نیست: «هدف ما این است تا نرخ اشتباه را به ۱ درصد برسانیم. آن جا می توانید واقعا به دستگاه اعتماد کنید که متوجه شما شده و این مسئله دگرگون کننده است.»

amazon-echo-5-things-amazon-doesnt-want-you-to-know-about-alexa-w600

تا همین چند سال پیش، قابلیت های تشخیص صدا مورد تمسخر عموم واقع می شدند. یکی از ورژن های اولیه تکنولوژی مایکروسافت برداشت جالبی از واژه «مادر» داشت و آن را «عمه» قلمداد می کرد.

یا پنج سال پیش وقتی سیری از سوی اپل معرفی شد، شاهد انتشار گاف های خنده دار او بودیم. هر از چند گاهی یک ویدیو یا خبر منتشر می شد که به اشتباهات سیری اشاره داشتند. برای نمونه وقتی از او پرسیدند آیا جیلیان اندرسون انگلیسی است یا نه، سیری لیست کاملی از رستوران های انگلیس را ارائه داد.

با همه این تفاسیر، سیری و دیگر تکنولوژی ها در حال ترقی هستند و جای خود را کم کم بین کاربران باز کرده اند. هنوز جای ترقی بسیاری باقی مانده و برای همه گیر شدن آن، شاید نیازمند یکی-دو دهه ترقی اساسی باشیم.

ai-recruiter-w600

شبکه های عصبی که این روزها بسیار در موردشان می شنویم، در حقیقت کلید انسان برای حل چنین مشکلاتی هستند. در واقع به این دلیل «شبکه های عصبی» خطاب می شوند که ساختاری بسیار شبیه به مغز انسان دارند.

در حقیقت، نیاز نیست به آن ها برنامه خاصی بدهید تا در راستای همان مسئله ویژه آغاز به یادگیری کنند اما برای یادگیری تند، به حجم گسترده ای از اطلاعات نیازمند هستند. هر چه به یک موتور تشخیص اصوات اکثرا اطلاعات داده شود، بهتر می تواند تفاوت بین صداها را متوجه شده و عملکردی طبیعی، همانند انسان در مکالمات روزمره داشته باشد.

حتما بخوانید:   تمام کروم بوک های تازه به شکل کامل از اپ های اندرویدی پشتیبانی می کنند

دهه ۹۰ میلادی بود و بسیاری از کمپانی های بزرگ کم کم تصمیم گرفتند وارد این تجارت شوند. شرکت هایی همانند مایکروسافت از داده های عمومی در دسترس که موسساتی همانند Linguistics Data Consortium در اختیارشان قرار می داد استفاده می کردند.

google-home-0-0-w600

سپس، شرکت ها کم کم آغاز به گردآوری داده کردند و به انستیتوها و سازمان های دیگر متکی باقی نماندند. داوطلبان می آمدند، گفتگو می کردند، صدا ضبط می شد و روز به روز بانک اطلاعاتی گسترش می یافت.

حالا اما با توجه به محبوبیتی که این فناوری در سراسر جهان پیدا کرده، شرکت ها هم سرعت بیشتری به گردآوری اطلاعات پرداخته اند و ماجرا را کمی جدی تر گرفته اند.

وقتی به گوشی تان می گویید که به دنبال چیزی بگردد، آهنگی برای تان پخش کند یا مقصد را به شما نشان دهد، این احتمال وجود دارد که شرکت سازنده آن هوش مصنوعی، در حال ضبط صدای شما باشد. اپل، گوگل، مایکروسافت، آمازون و… تفاوتی ندارند، همه به دنبال مجموعه ای جامع تر هستند.

hackers-can-silently-access-siri-and-google-now-on-your-phone-image-cultofmaccomwp-contentuploads20150920140914_ios9-illos_0056-780x520-w600

وقتی از الکسا می پرسید آب و هوا چطور است یا فلان پیکار فوتبال چه نتیجه ای در پی داشته، گجت شما ضمن یافتن نتایج برای شما، به واسطه شبکه عصبی اش می تواند اکثرا یاد بگیرد تا دفعه بعدی جواب تند تر و بهتری بدهد.

یکی از چالش های اساسی همه شرکت ها، تسلط به چندین زبان، گویش و گویش متفاوت است. شاید هیچ نقطه از جهان در حال آماده به اندازه چین اهمیت این مسئله را نمی تواند نشان دهد.

بایدو، غول جستجوی اینترنتی چین، باید سرویس خود را به چند صد میلیون انسان که گویش های بسیار متنوعی دارند ارائه دهد. هر چه مردم از نقاط گوناگون چین، اکثرا در طرح بایدو همکاری کنند، آینده بهتری در اختیار چینی ها خواهد بود.

windows_phone_81_cortana_main_screen_nokia_lumia_icon_april_2014-100261366-large-w600

طی دو هفته بعد از آغاز سال نوی چینی، بایدو بیش از ۱۰۰۰ ساعت مکالمه را نام نویسی و ضبط کرد. اکثر مردم صرفا برای اینکه گویش محلی شان درون سیستم بایدو باشد، این کار را به رایگان انجام دادند. یک معلم دبیرستان در سیچوان به دانش آموزان خود گفته بود که بیش از هزار شعر با زبان محلی شان را برای بایدو بخوانند.

حتما بخوانید:   گران‌ترین خانه آمریکا و کلکسیونی از خودروهای فوق‌العاده!

چالش دیگر، صداهای بعد زمینه هستند که سیستم باید درک کند نویزهای اضافه را از صدای اصلی جدا کرده و فقط به فرمان اصلی گوش دهد. مثلا در یک استادیوم هستید و ده ها هزار تن در کنار شما مشغول فریاد زدن هستند. چطور باید گوشی شما تشخیص دهد که صدای شما کدام است؟

مایکروسافت برای این کار، از اپلیکیشنی به نام Voice Studio استفاده می کند که روی اکس باکس اجرا می شود و صدای مخاطب، زمانی که مشغول کشتن و سلاخی کردن دشمنان و هیولاها است را از دل این هیاهو بیرون می کشد. طرح تشویقی مایکروسافت به قدری کارساز بود که برزیلی ها اوایل امسال توانستند کورتانا را به زبان خودشان داشته باشند.

b17b16b6c1952ebba2781d1b4d1743092087442f-w600

گوگل فلسفه کمتر، اکثرا است را پیش گرفته و رویکردی متفاوت دارد. به جای تشخیص جمله های بلند و طولانی، سیستم تشخیص صدای گوگل جزئیات جمله را شناسایی کرده و جمله سازی می کند.

با ده ها هزار تکه های ویدیویی ۲ الی ۵ ثانیه ای، گوگل تصمیم دارد به شکلی متفاوت به این فناوری نگاه کند. در واقع نیازی به ساعت ها ضبط صدا نیست، بلکه قطره قطره جمع می شوند و به یک باره دریایی از داده ها را می سازند.

تاثیر بیشتری دارد یا خیر را نمی دانیم ولی مشخص است که نیرو پردازشی بسیار کمتری برای حلاجی کردن این داده ها لازم است. بایدو هم الگوریتم جالبی دارد که بعد از یادگیری یک زبان، یادگیری ۱۲ زبان بعدی را بسیار آسان تر می سازد.

microsoft-and-apple-move-digital-assistant-battle-to-pc-as-siri-ready-for-os-x-505156-2-w600

در واقع اهمیت این الگوریتم زمانی مشخص می شود که بدانیم ده ها زبان زنده در سراسر جهان داریم و بسیاری از آن ها شاید فقط توسط چند ده هزار تن مورد استفاده قرار می گیرد و نه میلیون ها یا شاید میلیاردها تن.

شاید تا پنج سال دیگر و شاید تا ده ها سال دیگر خبری از رویایی که داریم نباشد ولی واضح است که کمپانی ها این مسئله را بیش از هر زمان دیگری جدی گرفته اند.



منبع دیجیاتو

این مطلب را با دوستان خود به اشتراک بگذارید

مطالب مرتبط

نظر شما !!!

نظر شما برای “چرا گوگل، مایکروسافت و آمازون عاشق صدای شما هستند؟”