Ilovalar soni va ovozli interfeyslarning ahamiyati tez sur'atlar bilan o'sib bormoqda
texnologiya

Ilovalar soni va ovozli interfeyslarning ahamiyati tez sur'atlar bilan o'sib bormoqda

Oregon shtatining Portlend shahrida yashovchi amerikalik oila yaqinda Aleksning ovozli yordamchisi ularning shaxsiy suhbatlarini yozib olib, do‘stiga jo‘natganini bilib qoldi. OAV tomonidan Danielle deb nom olgan uy egasi jurnalistlarga “bu qurilmani boshqa hech qachon rozetkaga qo‘ymasligini, chunki unga ishonib bo‘lmasligini” aytdi.

Alexa, AQShning o'n millionlab uylarida Echo (1) karnaylari va boshqa gadjetlar tomonidan taqdim etiladi, u o'z nomini yoki foydalanuvchi tomonidan aytilgan "chaqiruv so'zini" eshitganida yozib olishni boshlaydi. Bu shuni anglatadiki, agar televizor reklamasida "Alexa" so'zi tilga olingan bo'lsa ham, qurilma yozib olishni boshlashi mumkin. Bu holatda aynan shunday bo'ldi, deydi Amazon, apparat distribyutori.

“Suhbatning qolgan qismini ovozli yordamchi xabar yuborish buyrug‘i sifatida talqin qildi”, — deyiladi kompaniya xabarida. "Bir payt Alexa baland ovozda so'radi: "Kimga?" Qattiq yog'och taxta haqida oilaviy suhbatning davomi mashina tomonidan mijozning aloqa ro'yxatidagi element sifatida qabul qilinishi kerak edi. Hech bo'lmaganda Amazon shunday deb o'ylaydi. Shunday qilib, tarjima bir qator baxtsiz hodisalarga kamayadi.

Biroq, tashvish saqlanib qolmoqda. Negadir, biz hali ham o'zimizni xotirjam his qiladigan uyda, biz qandaydir "ovoz rejimiga" kirishimiz kerak, nima deyishimiz, televizor nimani eshittirayotganini va, albatta, ko'krak qafasidagi bu yangi dinamik nima ekanligini kuzatishimiz kerak. - deydi tortmalar. Biz.

shunga qaramasdan, Texnologik nomukammallik va maxfiylik muammolariga qaramay, Amazon Echo kabi qurilmalarning mashhurligi oshishi bilan odamlar o'z ovozlaridan foydalangan holda kompyuterlar bilan o'zaro ishlash g'oyasiga ko'nikishni boshladilar..

Amazon kompaniyasi texnik direktori Verner Vogels 2017-yil oxirida oʻzining AWS re:Invent sessiyasida taʼkidlaganidek, texnologiya hozirgacha bizning kompyuterlar bilan oʻzaro aloqa qilish qobiliyatimizni cheklab qoʻygan. Biz kalit so'zlarni klaviatura yordamida Google'ga kiritamiz, chunki bu hali ham mashinaga ma'lumot kiritishning eng keng tarqalgan va eng oson usuli.

- dedi Vogels. -

katta to'rt

Telefonda Google qidiruv tizimidan foydalanganda, ehtimol, biz uzoq vaqt oldin gapirish uchun qo'ng'iroq bilan mikrofon belgisini ko'rganmiz. Bu Google hozir (2), bu qidiruv soʻrovini belgilash, ovozli xabarni kiritish va hokazolar uchun ishlatilishi mumkin. Soʻnggi yillarda Google, Apple va Amazon ancha yaxshilandi. ovozni aniqlash texnologiyasi. Alexa, Siri va Google Assistant kabi ovozli yordamchilar nafaqat ovozingizni yozibgina qolmay, balki ularga nima deyotganingizni tushunib, savollarga javob berishadi.

Google Now barcha Android foydalanuvchilari uchun bepul. Ilova, masalan, Google xaritalarida signal o'rnatishi, ob-havo ma'lumotlarini tekshirishi va marshrutni tekshirishi mumkin. Google Now shtatlarining suhbat kengaytmasi Google Assistant () – uskunadan foydalanuvchiga virtual yordam. U asosan mobil va aqlli uy qurilmalarida mavjud. Google Now-dan farqli o'laroq, u ikki tomonlama almashinuvda ishtirok etishi mumkin. Assistent 2016-yilning may oyida Google Allo xabar almashish ilovasining bir qismi sifatida, shuningdek, Google Home ovozli karnayida (3) debyut qilgan.

3. Google Home

IOS tizimi ham o'zining virtual yordamchisiga ega, Siri, bu Apple kompaniyasining iOS, watchOS, tvOS homepod va macOS operatsion tizimlariga kiritilgan dastur. Siri iOS 5 va iPhone 4s bilan 2011-yil oktabr oyida Let's Talk iPhone konferensiyasida debyut qildi.

Dastur suhbat interfeysiga asoslangan: u foydalanuvchining tabiiy nutqini taniydi (iOS 11 bilan buyruqlarni qo‘lda kiritish ham mumkin), savollarga javob beradi va topshiriqlarni bajaradi. Mashinani o'rganishni joriy etish tufayli, vaqt o'tishi bilan yordamchi shaxsiy imtiyozlarni tahlil qiladi foydalanuvchiga ko'proq mos natijalar va tavsiyalar berish. Siri doimiy Internetga ulanishni talab qiladi - bu erda asosiy ma'lumot manbalari Bing va Wolfram Alpha. iOS 10 uchinchi tomon kengaytmalarini qo'llab-quvvatlashni joriy qildi.

Katta to'rtlikdan yana biri Cortana. Bu Microsoft tomonidan yaratilgan aqlli shaxsiy yordamchi. U Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android va iOS platformalarida qo'llab-quvvatlanadi. Cortana birinchi marta 2014 yil aprel oyida San-Frantsiskoda Microsoft Build Developer konferentsiyasida taqdim etilgan. Dasturning nomi Halo o'yin seriyasidagi qahramon nomidan kelib chiqqan. Cortana ingliz, italyan, ispan, frantsuz, nemis, xitoy va yapon tillarida mavjud.

Yuqorida aytib o'tilgan dastur foydalanuvchilari Alexa ular til cheklovlarini ham hisobga olishlari kerak - raqamli yordamchi faqat ingliz, nemis, frantsuz va yapon tillarida gapiradi.

Amazon Virtual Assistant birinchi marta Amazon Lab126 tomonidan ishlab chiqilgan Amazon Echo va Amazon Echo Dot aqlli dinamiklarida ishlatilgan. U ovozli muloqot, musiqa tinglash, ishlar roʻyxatini yaratish, signalni sozlash, podkastlarni uzatish, audiokitoblarni tinglash va real vaqtda ob-havo, tirbandlik, sport va yangiliklar (4) kabi boshqa yangiliklar maʼlumotlarini taʼminlaydi. Alexa uyni avtomatlashtirish tizimini yaratish uchun bir nechta aqlli qurilmalarni boshqarishi mumkin. Bundan tashqari, Amazon do'konida qulay xarid qilish uchun foydalanish mumkin.

4. Foydalanuvchilar Echo-dan nima maqsadda foydalanadilar (tadqiqotlarga ko'ra)

Foydalanuvchilar uchinchi tomonlar tomonidan ishlab chiqilgan, odatda boshqa sozlamalarda ob-havo va audio dasturlar kabi ilovalar deb ataladigan qo'shimcha funktsiyalarni o'rnatish orqali Alexa tajribasini yaxshilashlari mumkin. Aksariyat Alexa qurilmalari virtual yordamchingizni uyg'otuvchi parol bilan faollashtirishga imkon beradi.

Amazon, albatta, bugungi kunda aqlli dinamiklar bozorida hukmronlik qiladi (5). 2018-yilning mart oyida yangi xizmatni taqdim etgan IBM kompaniyasi kuchli to‘rtlikka kirishga harakat qilmoqda Uotsonning yordamchisi, ovozli boshqaruvga ega virtual yordamchilarning o'z tizimlarini yaratmoqchi bo'lgan kompaniyalar uchun mo'ljallangan. IBM yechimining afzalligi nimada? Kompaniya vakillarining so'zlariga ko'ra, birinchi navbatda, shaxsiylashtirish va maxfiylikni himoya qilish uchun yanada keng imkoniyatlar haqida.

Birinchidan, Watson Assistant brendi emas. Kompaniyalar ushbu platformada o'zlarining echimlarini yaratishlari va ularni o'z brendlari bilan belgilashlari mumkin.

Ikkinchidan, ular o'zlarining yordamchi tizimlarini o'zlarining ma'lumotlar to'plamlari yordamida o'qitishlari mumkin, bu IBMning ta'kidlashicha, boshqa VUI (ovozli foydalanuvchi interfeysi) texnologiyalariga qaraganda ushbu tizimga xususiyatlar va buyruqlar qo'shishni osonlashtiradi.

Uchinchidan, Watson Assistant IBM’ga foydalanuvchi faoliyati haqida ma’lumot bermaydi – platformadagi yechimlarni ishlab chiquvchilar faqat qimmatli ma’lumotlarni o‘zlarida saqlashlari mumkin. Ayni paytda, qurilma quradigan har bir kishi, masalan, Alexa bilan, ularning qimmatli ma'lumotlari Amazonda tugashini bilishi kerak.

Watson Assistant allaqachon bir nechta ilovalarga ega. Tizim, masalan, Maserati kontsept-kari (6) uchun ovozli yordamchini yaratgan Harman tomonidan ishlatilgan. Myunxen aeroportida IBM yordamchisi yo‘lovchilarning harakatlanishiga yordam berish uchun Pepper robotiga quvvat beradi. Uchinchi misol - Chameleon Technologies, bu erda ovozli texnologiya aqlli uy hisoblagichida qo'llaniladi.

6. Maserati kontsept avtomobilidagi Uotson yordamchisi

Shuni qo'shimcha qilish kerakki, bu erda asosiy texnologiya ham yangi emas. Watson Assistant mavjud IBM mahsulotlari, Watson Conversation va Watson Virtual Agent uchun shifrlash imkoniyatlarini, shuningdek, til tahlili va suhbat uchun API-larni o'z ichiga oladi.

Amazon nafaqat aqlli ovoz texnologiyasida yetakchi, balki uni bevosita biznesga aylantirmoqda. Biroq, ba'zi kompaniyalar Echo integratsiyasini ancha oldin sinab ko'rishgan. BI va tahliliy sohadagi Sisense kompaniyasi 2016-yil iyul oyida Echo integratsiyasini taqdim etdi. O'z navbatida, Roxy startapi mehmondo'stlik sanoati uchun o'zining ovoz bilan boshqariladigan dasturiy ta'minoti va apparatini yaratishga qaror qildi. Joriy yilning boshida Synqq qaydlar va taqvim yozuvlarini klaviaturada yozmasdan qo‘shish uchun ovozli va tabiiy tilda ishlov berishdan foydalanadigan qayd yozish ilovasini taqdim etdi.

Bu kichik korxonalarning barchasi yuqori maqsadlarga ega. Biroq, eng muhimi, ular har bir foydalanuvchi o'z ma'lumotlarini ovozli aloqa platformalarini yaratishda eng muhim o'yinchilar bo'lgan Amazon, Google, Apple yoki Microsoft-ga o'tkazishni xohlamasligini bilib oldilar.

Amerikaliklar sotib olmoqchi

2016 yilda ovozli qidiruv Google mobil qidiruvlarining 20 foizini tashkil etdi. Ushbu texnologiyadan har kuni foydalanadigan odamlar eng katta afzalliklari orasida uning qulayligi va ko'p vazifaliligini ta'kidlaydilar. (masalan, mashinani boshqarishda qidiruv tizimidan foydalanish qobiliyati).

Visiongain tahlilchilari aqlli raqamli yordamchilarning joriy bozor qiymatini 1,138 milliard dollarga baholamoqda.Bunday mexanizmlar tobora ko‘payib bormoqda. Gartner ma'lumotlariga ko'ra, 2018 yil oxiriga kelib O'zaro munosabatlarimizning 30% texnologiya bilan ovozli tizimlar bilan suhbatlar orqali bo'ladi.

Britaniyaning IHS Markit tadqiqot firmasi taxminiga ko‘ra, sun’iy intellekt asosida ishlaydigan raqamli yordamchilar bozori joriy yil oxirigacha 4 milliard qurilmaga yetadi va 2020-yilga borib bu raqam 7 milliardga yetishi mumkin.

eMarketer va VoiceLabs hisobotlariga ko'ra, 2017 yilda 35,6 million amerikalik kamida oyiga bir marta ovozli boshqaruvdan foydalangan. Bu o‘tgan yilga nisbatan qariyb 130 foizga oshganini bildiradi. Faqatgina raqamli yordamchilar bozori 2018 yilda 23% ga o'sishi kutilmoqda. Bu siz allaqachon ulardan foydalanayotganingizni anglatadi. 60,5 million amerikaliklar, bu ularning ishlab chiqaruvchilari uchun aniq pulga olib keladi. RBC Capital Markets hisob-kitoblariga ko'ra, Alexa interfeysi 2020 yilga kelib Amazon uchun 10 milliard dollargacha daromad keltiradi.

Yuving, pishiring, tozalang!

Ovozli interfeyslar maishiy texnika va maishiy elektronika bozorlariga tobora jasorat bilan kirib bormoqda. Buni o‘tgan yilgi IFA 2017 ko‘rgazmasi vaqtida ham ko‘rish mumkin edi.Amerikaning Neato Robotics kompaniyasi, masalan, bir nechta aqlli uy platformalaridan biriga, jumladan Amazon Echo tizimiga ulanadigan robot changyutgichni taqdim etdi. Echo aqlli dinamiki bilan gaplashib, siz mashinaga butun uyingizni kun yoki tunning ma'lum vaqtlarida tozalashni buyurishingiz mumkin.

Ko'rgazmada Turkiyaning Vestel firmasi tomonidan Toshiba brendi ostida sotilgan smart televizorlardan Germaniyaning Beurer firmasining isitiladigan ko'rpachalarigacha bo'lgan boshqa ovozli mahsulotlar ham namoyish etildi. Ushbu elektron qurilmalarning aksariyati smartfonlar yordamida masofadan turib ham faollashtirilishi mumkin.

Biroq, Bosch vakillarining so'zlariga ko'ra, uy yordamchisining qaysi varianti ustun bo'lishini aytishga hali erta. IFA 2017 ko‘rgazmasida nemis texnik guruhi Echo’ga ulanadigan kir yuvish mashinalari (7), pechlar va qahva mashinalarini namoyish etdi. Bosch, shuningdek, uning qurilmalari kelajakda Google va Apple ovozli platformalariga mos kelishini xohlaydi.

7. Amazon Echo-ga ulanadigan Bosch kir yuvish mashinasi

Fujitsu, Sony va Panasonic kabi kompaniyalar oʻzlarining sunʼiy intellekt asosidagi ovozli yordamchi yechimlarini ishlab chiqmoqda. Sharp ushbu texnologiyani bozorga kiradigan pechlar va kichik robotlarga qo'shmoqda. Nippon Telegraph & Telephone ovozli boshqariladigan sun'iy intellekt tizimini moslashtirish uchun apparat va o'yinchoq ishlab chiqaruvchilarni yollaydi.

Eski tushuncha. Nihoyat uning vaqti keldimi?

Darhaqiqat, Ovozli foydalanuvchi interfeysi (VUI) tushunchasi o'nlab yillar davomida mavjud. Yillar oldin Star Trek yoki 2001: A Space Odyssey filmini tomosha qilgan har bir kishi, ehtimol, taxminan 2000 yilda biz hammamiz kompyuterlarni ovozimiz bilan boshqaramiz, deb kutgan bo'lishi mumkin. Bundan tashqari, ushbu turdagi interfeysning imkoniyatlarini nafaqat ilmiy fantastika mualliflari ko'rgan. 1986 yilda Nielsen tadqiqotchilari IT-mutaxassislaridan 2000 yilga kelib foydalanuvchi interfeysidagi eng katta o'zgarishlar nima bo'lishini so'rashdi. Ular ko'pincha ovozli interfeyslarning rivojlanishiga ishora qildilar.

Bunday yechimga umid qilish uchun sabablar bor. Og'zaki muloqot, axir, odamlar uchun ongli ravishda fikr almashishning eng tabiiy usuli, shuning uchun uni inson va mashina o'zaro ta'sirida ishlatish hozirgacha eng yaxshi yechim kabi ko'rinadi.

Birinchi VUIlardan biri, deb nomlangan poyabzal qutisi, 60-yillarning boshlarida IBM tomonidan yaratilgan. Bu bugungi ovozni aniqlash tizimlarining asoschisi edi. Biroq, VUI qurilmalarining rivojlanishi hisoblash quvvati chegaralari bilan cheklangan edi. Haqiqiy vaqtda inson nutqini tahlil qilish va talqin qilish juda ko'p kuch talab qiladi va bu haqiqatan ham mumkin bo'lgan nuqtaga erishish uchun ellik yildan ko'proq vaqt kerak bo'ldi.

Ovozli interfeysga ega qurilmalar 90-yillarning o'rtalarida ommaviy ishlab chiqarishda paydo bo'la boshladi, ammo mashhurlikka erisha olmadi. Ovozli boshqaruv (terish) bilan birinchi telefon Philips Spark1996 yilda chiqarilgan. Biroq, bu innovatsion va ishlatish uchun qulay qurilma texnologik cheklovlardan xoli emas edi.

Ovozli interfeys shakllari bilan jihozlangan boshqa telefonlar (RIM, Samsung yoki Motorola kabi kompaniyalar tomonidan yaratilgan) muntazam ravishda bozorga chiqib, foydalanuvchilarga ovozli terish yoki matnli xabarlar yuborish imkonini beradi. Biroq ularning barchasi aniq buyruqlarni yodlab olishni va ularni o'sha davr qurilmalari imkoniyatlariga moslashtirilgan majburiy, sun'iy shaklda talaffuz qilishni talab qildi. Bu ko'plab xatolarni keltirib chiqardi, bu esa o'z navbatida foydalanuvchilarning noroziligiga olib keldi.

Biroq, biz hozirda kompyuterni o'rganishning yangi davriga qadam qo'ymoqdamiz, bunda mashinani o'rganish va sun'iy intellektning rivojlanishi texnologiya bilan o'zaro aloqa qilishning yangi usuli sifatida suhbat potentsialini ochmoqda (8). Ovozli shovqinni qo'llab-quvvatlaydigan qurilmalar soni VUI rivojlanishiga katta ta'sir ko'rsatgan muhim omilga aylandi. Bugungi kunda dunyo aholisining deyarli 1/3 qismi ushbu turdagi xatti-harakatlar uchun ishlatilishi mumkin bo'lgan smartfonlarga ega. Aksariyat foydalanuvchilar nihoyat ovozli interfeyslarni moslashtirishga tayyor.

8. Ovozli interfeys rivojlanishining zamonaviy tarixi

Biroq, biz kompyuter bilan bemalol gaplasha olishimizdan oldin, "Kosmik Odissey" qahramonlari singari, biz bir qator muammolarni engib o'tishimiz kerak. Mashinalar hali ham lingvistik nuanslarni boshqarishda unchalik yaxshi emas. Bundan tashqari ko'p odamlar hali ham qidiruv tizimiga ovozli buyruqlar berishni noqulay his qilishadi.

Statistika shuni ko'rsatadiki, ovozli yordamchilar asosan uyda yoki yaqin do'stlar orasida qo'llaniladi. Suhbatdoshlarning hech biri jamoat joylarida ovozli qidiruvdan foydalanishni tan olmadi. Biroq, bu blokada ushbu texnologiyaning tarqalishi bilan yo'qolishi mumkin.

texnik jihatdan qiyin savol

Tizimlar (ASR) duch keladigan muammo - bu nutq signalidan foydali ma'lumotlarni olish va uni inson uchun ma'lum ma'noga ega bo'lgan ma'lum bir so'z bilan bog'lash. Har safar ishlab chiqarilgan tovushlar har xil bo'ladi.

Nutq signalining o'zgaruvchanligi uning tabiiy mulkidir, buning yordamida biz, masalan, urg'u yoki intonatsiyani taniymiz. Nutqni aniqlash tizimining har bir elementi o'ziga xos vazifaga ega. Qayta ishlangan signal va uning parametrlari asosida til modeli bilan bog'liq bo'lgan akustik model yaratiladi. Tanib olish tizimi kichik yoki katta miqdordagi naqshlar asosida ishlashi mumkin, bu esa u ishlaydigan lug'at hajmini belgilaydi. Ular bo'lishi mumkin kichik lug'atlar alohida so'zlarni yoki buyruqlarni taniydigan tizimlarda, shuningdek katta ma'lumotlar bazalari til majmuasining ekvivalentini o'z ichiga olgan va til modelini (grammatikani) hisobga olgan holda.

Birinchi navbatda ovozli interfeyslar bilan bog'liq muammolar nutqni to'g'ri tushunish, bunda, masalan, butun grammatik ketma-ketliklar ko'pincha tushirib yuboriladi, lingvistik va fonetik xatolar, xatolar, kamchiliklar, nutq nuqsonlari, omonimlar, asossiz takrorlar va hokazolar yuzaga keladi.Bu ACP tizimlarining barchasi tez va ishonchli ishlashi kerak. Hech bo'lmaganda bu taxminlar.

Qiyinchiliklar manbai, shuningdek, tanib olish tizimining kirishiga kiradigan tan olingan nutqdan tashqari akustik signallar, ya'ni. barcha turlari shovqin va shovqin. Eng oddiy holatda, ular sizga kerak filtrlang. Bu vazifa odatiy va oson ko'rinadi - axir, har xil signallar filtrlanadi va har bir elektronika muhandisi bunday vaziyatda nima qilish kerakligini biladi. Biroq, agar nutqni aniqlash natijasi bizning kutganimizga mos keladigan bo'lsa, buni juda ehtiyotkorlik bilan va ehtiyotkorlik bilan bajarish kerak.

Hozirgi vaqtda qo'llaniladigan filtrlash nutq signali bilan bir qatorda mikrofon tomonidan qabul qilingan tashqi shovqinni va nutq signalining o'zini tanib olishni qiyinlashtiradigan ichki xususiyatlarini olib tashlashga imkon beradi. Biroq, tahlil qilingan nutq signaliga aralashish ... boshqa nutq signali, ya'ni, masalan, atrofdagi shovqinli muhokamalar bo'lsa, ancha murakkab texnik muammo paydo bo'ladi. Bu savol adabiyotda shunday deb nomlanadi. Bu allaqachon murakkab usullardan foydalanishni talab qiladi, deb atalmish. dekonvolyutsiya signalni (echish).

Nutqni aniqlash bilan bog'liq muammolar shu bilan tugamaydi. Shuni ta'kidlash kerakki, nutq juda ko'p turli xil ma'lumotlarni o'z ichiga oladi. Inson ovozi jinsi, yoshi, egasining turli belgilari yoki uning sog'lig'i holatini taklif qiladi. Nutq signalida topilgan xarakterli akustik hodisalarga asoslangan turli kasalliklarni tashxislash bilan shug'ullanadigan keng biotibbiyot muhandisligi bo'limi mavjud.

Nutq signalini akustik tahlil qilishning asosiy maqsadi ma'ruzachini aniqlash yoki u o'zi da'vo qilgan shaxs ekanligini tekshirish bo'lgan ilovalar ham mavjud (kalit, parol yoki PUK kod o'rniga ovoz). Bu, ayniqsa, aqlli qurilish texnologiyalari uchun muhim bo'lishi mumkin.

Nutqni aniqlash tizimining birinchi komponenti mikrofon. Biroq, mikrofon tomonidan qabul qilingan signal odatda unchalik foydali bo'lmaydi. Tadqiqotlar shuni ko'rsatadiki, tovush to'lqinining shakli va yo'nalishi odamga, nutq tezligiga va qisman suhbatdoshning kayfiyatiga bog'liq holda juda farq qiladi - oz miqdorda ular aytilgan buyruqlarning mazmunini aks ettiradi.

Shuning uchun signalni to'g'ri qayta ishlash kerak. Zamonaviy akustika, fonetika va informatika birgalikda nutq signalini qayta ishlash, tahlil qilish, tanib olish va tushunish uchun ishlatilishi mumkin bo'lgan boy vositalar to'plamini taqdim etadi. Signalning dinamik spektri, deyiladi dinamik spektrogrammalar. Ularni olish juda oson va dinamik spektrogramma shaklida taqdim etilgan nutqni tasvirni tanib olishda qo'llaniladigan usullarga o'xshash usullardan foydalangan holda tanib olish nisbatan oson.

Nutqning oddiy elementlari (masalan, buyruqlar) butun spektrogrammalarning oddiy o'xshashligi bilan tan olinishi mumkin. Misol uchun, ovoz bilan faollashtirilgan mobil telefon lug'ati faqat bir necha o'ndan bir necha yuz so'z va iboralarni o'z ichiga oladi, odatda ularni osongina va samarali aniqlash uchun oldindan yig'ilgan. Bu oddiy nazorat vazifalari uchun etarli, lekin u umumiy dasturni jiddiy cheklaydi. Sxema bo'yicha qurilgan tizimlar, qoida tariqasida, faqat ovozlar maxsus o'qitilgan ma'lum dinamiklarni qo'llab-quvvatlaydi. Shunday qilib, agar tizimni boshqarish uchun o'z ovozidan foydalanmoqchi bo'lgan yangi kimdir bo'lsa, ular qabul qilinmaydi.

Ushbu operatsiyaning natijasi chaqiriladi 2 Vt spektrogramma, ya'ni ikki o'lchovli spektr. Ushbu blokda e'tiborga loyiq yana bir faoliyat mavjud - segmentatsiya. Umuman olganda, biz doimiy nutq signalini alohida tanib olinadigan qismlarga ajratish haqida gapiramiz. Faqatgina ushbu individual tashxislardan butunlikni tan olish amalga oshiriladi. Ushbu protsedura zarur, chunki bir vaqtning o'zida uzoq va murakkab nutqni aniqlash mumkin emas. Nutq signalida qaysi segmentlarni ajratish kerakligi haqida to'liq jildlar allaqachon yozilgan, shuning uchun biz ajratilgan segmentlar fonema (tovush ekvivalentlari), bo'g'inlar yoki allofonlar bo'lishi kerakmi, endi hal qilmaymiz.

Avtomatik tanib olish jarayoni har doim ob'ektlarning ba'zi xususiyatlariga taalluqlidir. Nutq signali uchun turli parametrlarning yuzlab to'plamlari sinovdan o'tkazildi.Nutq signali mavjud tan olingan ramkalarga bo'linadi va ega tanlangan xususiyatlarbu freymlar tanib olish jarayonida taqdim etilgan bo'lsa, biz buni amalga oshirishimiz mumkin (har bir ramka uchun alohida) tasniflash, ya'ni. ramkaga identifikatorni belgilash, bu kelajakda uni ifodalaydi.

Keyingi bosqich ramkalarni alohida so'zlarga yig'ish - ko'pincha deb ataladigan narsaga asoslanadi. yashirin Markov modellari modeli (HMM-). Keyin so'zlarning montaji keladi to'liq jumlalar.

Endi biz bir lahzaga Alexa tizimiga qaytishimiz mumkin. Uning misolida odamni mashina "tushunish"ning ko'p bosqichli jarayoni ko'rsatilgan - aniqrog'i: u tomonidan berilgan buyruq yoki berilgan savol.

So'zlarni tushunish, ma'noni tushunish va foydalanuvchi niyatini tushunish butunlay boshqa narsalar.

Shuning uchun keyingi qadam NLP modulining () ishi bo'lib, uning vazifasi foydalanuvchi niyatini aniqlash, ya'ni. buyruq/savolning aytilgan kontekstdagi ma’nosi. Agar niyat aniqlansa, unda ko'nikma va qobiliyatlar deb ataladigan narsalarni tayinlash, ya'ni aqlli yordamchi tomonidan qo'llab-quvvatlanadigan o'ziga xos xususiyat. Ob-havo haqida savol tug'ilganda, ob-havo ma'lumotlari manbalari chaqiriladi, ular nutqda qayta ishlanishi kerak (TTS - mexanizm). Natijada foydalanuvchi berilgan savolga javobni eshitadi.

Ovoz? Grafika san'ati? Yoki ikkalasi ham?

Eng mashhur zamonaviy o'zaro ta'sir tizimlari deb ataladigan vositachiga asoslangan grafik foydalanuvchi interfeysi (grafik interfeys). Afsuski, GUI raqamli mahsulot bilan ishlashning eng aniq usuli emas. Buning uchun foydalanuvchilar avvalo interfeysdan qanday foydalanishni o'rganishlari va har bir keyingi o'zaro aloqada ushbu ma'lumotni eslab qolishlari kerak. Ko'p hollarda ovoz ancha qulayroq, chunki siz VUI bilan oddiygina qurilma bilan gaplashish orqali o'zaro aloqada bo'lishingiz mumkin. Foydalanuvchilarni ma'lum buyruqlarni yoki o'zaro ta'sir usullarini eslab qolish va eslab qolishga majburlamaydigan interfeys kamroq muammolarni keltirib chiqaradi.

Albatta, VUI-ning kengayishi ko'proq an'anaviy interfeyslardan voz kechishni anglatmaydi - aksincha, o'zaro ta'sir qilishning bir nechta usullarini birlashtirgan gibrid interfeyslar mavjud bo'ladi.

Ovozli interfeys mobil kontekstdagi barcha vazifalar uchun mos emas. Uning yordamida biz mashinani boshqarayotgan do'stimizga qo'ng'iroq qilamiz va hatto unga SMS yuboramiz, ammo so'nggi o'tkazmalarni tekshirish juda qiyin bo'lishi mumkin - tizimga uzatiladigan () va tizim (tizim) tomonidan yaratilgan ma'lumotlar miqdori tufayli. Rachel Hinman o'zining Mobile Frontier kitobida ta'kidlaganidek, kirish va chiqish ma'lumotlari kichik bo'lgan vazifalarni bajarishda VUI-dan foydalanish eng samarali bo'ladi.

Internetga ulangan smartfon qulay, lekin ayni paytda noqulay (9). Har safar foydalanuvchi biror narsa sotib olishni yoki yangi xizmatdan foydalanishni xohlasa, u boshqa ilovani yuklab olishi va yangi hisob yaratishi kerak. Bu yerda ovozli interfeyslardan foydalanish va rivojlantirish maydoni yaratilgan. Mutaxassislar foydalanuvchilarni turli xil ilovalarni o‘rnatishga yoki har bir xizmat uchun alohida hisob yaratishga majburlash o‘rniga, VUI bu og‘ir vazifalar yukini sun’iy intellekt yordamida boshqariladigan ovozli yordamchiga o‘tkazishini aytishadi. Unga mashaqqatli ishlarni bajarish qulay bo'ladi. Biz unga faqat buyruq beramiz.

9. Smartfon orqali ovozli interfeys

Bugungi kunda Internetga telefon va kompyuterdan ko'proq narsa ulangan. Aqlli termostatlar, chiroqlar, choynaklar va boshqa ko'plab IoT integratsiyalashgan qurilmalar ham tarmoqqa ulangan (10). Shunday qilib, atrofimizda hayotimizni to'ldiradigan simsiz qurilmalar mavjud, ammo ularning hammasi ham grafik foydalanuvchi interfeysiga tabiiy ravishda mos kelmaydi. VUI-dan foydalanish ularni bizning muhitimizga osongina integratsiyalashga yordam beradi.

10. Narsalar interneti bilan ovozli interfeys

Ovozli foydalanuvchi interfeysini yaratish tez orada asosiy dizayner mahoratiga aylanadi. Bu haqiqiy muammo - ovozli tizimlarni joriy etish zarurati sizni proaktiv dizaynga ko'proq e'tibor qaratishga undaydi, ya'ni suhbatning har bir bosqichida foydalanuvchining dastlabki niyatlarini tushunishga harakat qilish, ularning ehtiyojlari va umidlarini oldindan bilish.

Ovoz ma'lumotlarni kiritishning samarali usuli bo'lib, foydalanuvchilarga o'z shartlari bo'yicha tizimga tezkor buyruqlar berish imkonini beradi. Boshqa tomondan, ekran axborotni aks ettirishning samarali usulini ta'minlaydi: tizimlarga bir vaqtning o'zida katta hajmdagi ma'lumotlarni ko'rsatish imkonini beradi, foydalanuvchilar xotirasidagi yukni kamaytiradi. Ularni bir tizimga birlashtirish rag'batlantiruvchi tuyulishi mantiqan to'g'ri.

Amazon Echo va Google Home kabi aqlli dinamiklar vizual displeyni umuman taklif qilmaydi. O'rtacha masofalarda ovozni aniqlashning aniqligini sezilarli darajada yaxshilagan holda, ular qo'llarsiz ishlashga imkon beradi, bu esa o'z navbatida ularning moslashuvchanligi va samaradorligini oshiradi - ular hatto ovozli boshqaruvga ega smartfonlarga ega bo'lgan foydalanuvchilar uchun ham maqsadga muvofiqdir. Biroq, ekranning etishmasligi juda katta cheklovdir.

Foydalanuvchilarni mumkin bo'lgan buyruqlar haqida xabardor qilish uchun faqat signal signallaridan foydalanish mumkin va chiqishni ovoz chiqarib o'qish eng asosiy vazifalardan tashqari zerikarli bo'ladi. Ovqat pishirish paytida ovozli buyruq bilan taymerni o'rnatish juda yaxshi, lekin qancha vaqt qolganini so'rash shart emas. Doimiy ob-havo prognozini olish foydalanuvchi uchun xotira sinoviga aylanadi, u bir qarashda ekrandan ko‘tarmasdan, bir necha hafta davomida bir qator faktlarni tinglashi va o‘zlashtirishi kerak.

Dizaynerlar allaqachon gibrid eritma, Echo Show (11), bu asosiy Echo aqlli dinamikiga displey ekranini qo'shdi. Bu uskunaning funksionalligini sezilarli darajada kengaytiradi. Biroq, Echo Show hali ham smartfon va planshetlarda uzoq vaqtdan beri mavjud bo'lgan asosiy funktsiyalarni bajarishga qodir emas. U (hozircha) internetni keza olmaydi, sharhlarni ko'rsata olmaydi yoki, masalan, Amazon xarid qilish savati tarkibini ko'rsata olmaydi.

Vizual displey o'z mohiyatiga ko'ra odamlarga tovushdan ko'ra ko'p ma'lumot berishning samarali usuli hisoblanadi. Ovoz ustuvorligi bilan loyihalash ovozli o'zaro ta'sirni sezilarli darajada yaxshilashi mumkin, ammo uzoq muddatda o'zaro ta'sir qilish uchun vizual menyudan o'zboshimchalik bilan foydalanmaslik bir qo'lni orqangizga bog'lab jang qilish kabi bo'ladi. Ovozli va displeyli aqlli interfeyslarning murakkabligi sababli, ishlab chiquvchilar interfeyslarga gibrid yondashuvni jiddiy ko'rib chiqishlari kerak.

Nutqni yaratish va aniqlash tizimlarining samaradorligi va tezligini oshirish ulardan quyidagi ilovalar va sohalarda foydalanish imkonini berdi, masalan:

• harbiy (samolyotlarda yoki vertolyotlarda ovozli buyruqlar, masalan, F16 VISTA),

• avtomatik matn transkripsiyasi (nutqdan matnga),

• interaktiv axborot tizimlari (Prime Speech, ovozli portallar),

• mobil qurilmalar (telefonlar, smartfonlar, planshetlar),

• robototexnika (Cleverbot - sun'iy intellekt bilan birlashtirilgan ASR tizimlari),

• avtomobil (Blue & Me kabi avtomobil qismlarini qo'lda boshqarish),

• uy ilovalari (aqlli uy tizimlari).

Xavfsizlik uchun ehtiyot bo'ling!

Avtomobil, maishiy texnika, isitish/sovutish va uy xavfsizlik tizimlari hamda koʻplab maishiy texnika koʻpincha AIga asoslangan ovozli interfeyslardan foydalana boshlaydi. Ushbu bosqichda mashinalar bilan millionlab suhbatlardan olingan ma'lumotlar yuboriladi hisoblash bulutlari. Marketologlar ularga qiziqish bildirishlari aniq. Va nafaqat ular.

Symantec xavfsizlik bo'yicha mutaxassislarning so'nggi hisobotida ovozli buyruq foydalanuvchilariga uy xavfsizlik tizimlari u yoqda tursin, eshik qulflari kabi xavfsizlik xususiyatlarini nazorat qilmaslik tavsiya etiladi. Xuddi shu narsa parollar yoki maxfiy ma'lumotlarni saqlash uchun ham amal qiladi. Sun'iy intellekt va aqlli mahsulotlarning xavfsizligi hali etarlicha o'rganilmagan.

Uydagi qurilmalar har bir so'zni tinglaganida, tizimni buzish va noto'g'ri foydalanish xavfi katta tashvish tug'diradi. Agar tajovuzkor mahalliy tarmoqqa yoki unga aloqador elektron pochta manzillariga kirish huquqiga ega bo'lsa, aqlli qurilma sozlamalarini o'zgartirish yoki zavod sozlamalariga qaytarish mumkin, bu esa qimmatli ma'lumotlarning yo'qolishiga va foydalanuvchi tarixining o'chirilishiga olib keladi.

Boshqacha qilib aytganda, xavfsizlik bo'yicha mutaxassislar ovozli sun'iy intellekt va VUI hali bizni potentsial tahdidlardan himoya qilish va notanish odam biror narsa so'raganda og'zimizni yumish uchun yetarli darajada aqlli emasligidan qo'rqishadi.

a Izoh qo'shish