ASR

Аўтаматычнае распазнаванне гаворкі (ASR) ператварае гавораныя словы ў тэкст, рэвалюцыянізуючы галіны з усё большай дакладнасцю і даступнасцю.

Што такое АСР?

Аўтаматычнае распазнаванне маўлення ( ASR ) змяняе індустрыю агучвання , пераўтвараючы вусныя словы ў тэкст. Яно выкарыстоўвае машыннае навучанне і штучны інтэлект, каб разумець і запісваць тое, што кажуць людзі. За апошнія дзесяць гадоў ASR значна вырасла. Цяпер яно выкарыстоўваецца ў многіх галінах, такіх як тэлефонныя званкі, відэа, праверкі СМІ і анлайн-сустрэчы.

Старым спосабам ASR было выкарыстанне схаваных маркаўскіх мадэляў (HMM) і мадэляў гаўсавай сумесі (GMM). Гэты метад выкарыстоўваўся пятнаццаць гадоў. Але ён патрабаваў шмат працы і спецыяльнай падрыхтоўкі.

Новыя мадэлі глыбокага навучання ў ASR лепшыя. Яны больш дакладныя і прасцейшыя ў выкарыстанні. Ім не патрэбныя спецыяльныя навучальныя дадзеныя, і яны могуць добра запісваць маўленне без дадатковай дапамогі.

Дзякуючы API-інтэрфейсам пераўтварэння мовы ў тэкст, такім як ад AssemblyAI, ASR цяпер прасцей у выкарыстанні. Распрацоўшчыкі, стартапы і буйныя кампаніі могуць лёгка дадаваць ASR у свае прадукты. Гэтая тэхналогія выкарыстоўваецца ў многіх галінах для паляпшэння працы, напрыклад, у адсочванні выклікаў, субцітрах да відэа, праверцы медыя і анлайн-сустрэчах.

Але ASR усё яшчэ мае некаторыя праблемы. Цяжка прымусіць яго ідэальна разумець маўленне з-за рознага тону размовы людзей. Нягледзячы на гэтыя праблемы, попыт на ASR расце. Чакаецца, што да 2025 года яго кошт складзе 24,9 мільярда долараў ЗША.

ASR выкарыстоўваецца ў многіх галінах, не толькі ў агучванні. У аўтамабілях яна дапамагае зрабіць кіраванне больш бяспечным з дапамогай галасавых каманд. У ахове здароўя яна дапамагае лекарам запісваць інфармацыю пра пацыентаў. Яна таксама дапамагае хутчэй вырашаць праблемы кліентаў у продажах, транскрыбуючы званкі і працуючы з чат-ботамі са штучным інтэлектам.

Карацей кажучы, ASR змяняе індустрыю агучвання . Ён робіць транскрыпцыю маўлення хуткай і дакладнай. Па меры ўдасканалення ASR дапаможа зрабіць рэчы больш даступнымі, эфектыўнымі і эканамічна выгаднымі ў многіх галінах.

Кароткая гісторыя ASR

Тэхналогія ASR з'явілася ў 1950-х гадах. Першая сістэма пад назвай «Audrey» была распрацавана Bell Labs. З таго часу яна значна вырасла, выкарыстоўваючы машыннае навучанне і глыбокае навучанне для ўдасканалення.

Старыя сістэмы ASR выкарыстоўвалі спалучэнне мадэляў, такіх як схаваныя маркаўскія мадэлі (HMM). Гэтыя сістэмы мелі моўныя мадэлі, слоўнікі вымаўлення і HMM. Яны навучаліся на вялікіх наборах дадзеных, каб добра распазнаваць маўленне. Гэтая праца дапамагла стварыць сучасныя сістэмы ASR.

Вялікая змена адбылася ў 2014 годзе з публікацыяй артыкула Baidu. У ім гаварылася пра выкарыстанне глыбокага навучання для ASR. Гэты метад пераўтварае аўдыё ў словы з дапамогай глыбокіх нейронных сетак. Гэта зрабіла ASR значна больш дакладным.

Зараз мы выкарыстоўваем як старыя, так і новыя метады ASR. Стары спосаб надзейны і гнуткі. Новы спосаб прасцейшы і можа быць больш дакладным, бо ён заснаваны на выкарыстанні неапрацаванага аўдыё.

ASR дапамагае многім галінам, такім як свет агучвання. Ён забяспечвае працу Siri, Alexa і Google Assistant, спрашчаючы зносіны з прыладамі. Ён таксама дапамагае хутка і дакладна пераўтвараць маўленне ў тэкст, дапамагаючы многім людзям.

Будучыня ASR выглядае светлай. Новыя тэхналогіі, такія як Whisper ад OpenAI, могуць зрабіць транскрыпцыю яшчэ лепшай. Даследаванні ў галіне глыбокага навучання і штучнага інтэлекту будуць працягваць рабіць ASR больш дакладным. Даданне тэхналогіі NLP дапаможа машынам лепш разумець маўленне.

Асноўныя сферы прымянення і праблемы ASR

Тэхналогія ASR вельмі важная ў многіх галінах, такіх як індустрыя агучвання . Яна дапамагае з аўтаматычнай транскрыпцыяй, субтытрамі для відэа ў рэжыме рэальнага часу і субтытрамі. Яна таксама выкарыстоўваецца ў тэлефонных сістэмах, абслугоўванні кліентаў, перакладах, ахове здароўя і юрыдычнай працы. Гэтая тэхналогія змяніла тое, як усё працуе, спрасціла доступ да рэчаў і знізіла выдаткі.

Але ASR мае некаторыя вялікія праблемы . Дамагчыся таго, каб ён быў такім жа добрым, як чалавечы, складана. Ён мае праблемы з рознымі стылямі маўлення і разуменнем слоў у кантэксце. Даследчыкі старанна працуюць над тым, каб палепшыць яго з дапамогай новых мадэляў навучання.

Яшчэ адна вялікая праблема — атрыманне дастатковай колькасці дадзеных і навучанне. Зараз нам патрэбныя тысячы ці нават сотні тысяч гадзін дадзеных. Кампаніі таксама змагаюцца з коштам і часам наладкі галасавых сістэм штучнага інтэлекту. Але некаторыя галіны, такія як фінансавыя паслугі і ахова здароўя, сапраўды актыўна выкарыстоўваюць галасавыя тэхналогіі і плануюць выкарыстоўваць іх яшчэ больш.

Апытанне Statista паказала, што 73% прадпрыемстваў не выкарыстоўваюць галасавыя тэхналогіі, таму што яны недастаткова дакладныя. Розным галінам патрэбныя ўласныя моўныя мадэлі для ASR і NLP. NLP мае свае праблемы, такія як барацьба са слэнгам і неабходнасць абнаўленняў. Аднак чакаецца, што рынак распазнавання голасу значна вырасце і да 2029 года дасягне амаль 50 мільёнаў долараў.

Даследаванні McKinsey паказваюць, што ASR можа сапраўды палепшыць абслугоўванне кліентаў у кол-цэнтрах. Гэта можа паскорыць працу, даць лепшыя варыянты самадапамогі і зрабіць зносіны з кліентамі больш зручнымі. Паколькі 50% спажыўцоў у ЗША штодня выкарыстоўваюць галасавы пошук, ASR можа значна змяніць тое, як мы размаўляем з кампаніямі.

FAQ

Што такое аўтаматычнае распазнаванне маўлення (ASR) і як яно рэвалюцыянізуе індустрыю агучвання?

ASR пераўтварае вусныя словы ў тэкст з дапамогай машыннага навучання і штучнага інтэлекту. Ён змяняе свет агучвання, ствараючы тэкст у рэжыме рэальнага часу з маўлення. Цяпер ён дапамагае з субтытрамі ў TikTok, Instagram і Spotify, робячы ўсё больш даступным і эфектыўным.

Якая гісторыя ASR?

Першая сістэма ASR пад назвай «Audrey» пачалася ў 1950-х гадах у Bell Labs. З часам машыннае навучанне значна палепшыла ASR. Зараз існуе два асноўныя спосабы зрабіць гэта: традыцыйны спосаб і спосаб глыбокага навучання. Кожны з іх мае свае плюсы і мінусы.

Якія асноўныя сферы прымянення і праблемы ASR?

ASR выкарыстоўваецца ў многіх галінах. У агучванні ён дапамагае з аўтаматычным напісаннем, жывымі субтытрамі і субтытрамі. Ён таксама выкарыстоўваецца ў тэлефонных сістэмах, абслугоўванні кліентаў, перакладзе моў, ахове здароўя і юрыдычнай працы. Але яму ўсё яшчэ цяжка дасягнуць дакладнасці, якая адпавядае чалавечай, асабліва пры варыяцыях маўлення. Даследчыкі ўпарта працуюць над яго ўдасканаленнем.

Атрымайце ідэальныя галасы для вашага праекта

Звяжыцеся з намі зараз, каб даведацца, як нашы паслугі VoiceOver могуць павысіць ваш наступны праект на новыя вышыні.

Пачаць

Кантакт

Звяжыцеся з намі, каб атрымаць прафесійныя паслугі агучвання. Выкарыстоўвайце форму ніжэй:

Дзякуй
Ваша паведамленне было адпраўлена. Мы звяжамся з вамі на працягу 24-48 гадзін.
Ой! Падчас адпраўкі формы нешта пайшло не так.