Securing the Voice Channel with Real‑Time Audio‑Native AI

Зміцнення голосового каналу за допомогою реального часу аудіо‑нативного штучного інтелекту
https://ift.tt/51VEyPF

Ця стаття спонсорується Modulate і була написана, відредагована та опублікована відповідно до наших вказівок Emerj щодо спонсорованого контенту. Дізнайтеся більше про наші послуги з лідерства думок та створення контенту на сторінці Emerj Media ServicesEmerj Media Services.

Живі голосові взаємодії в контакт‑центрах стали критичною зоною оперативного ризику, де шахрайство, ризик за особистістю та плинність агентів виникають у реальному часі без відповідної видимості зі сторони систем підприємства.

Фінансові контакт‑центри втрачають гроші з двох напрямків одночасно — і більшість підприємств оцінює лише один із них. Повідомлення ФБІ про Інтернет‑позови про злочини задокументовано, що шахрайство за участю штучного інтелекту, зокрема клонування голосу та глибокі підробки, у 2025 році призвело до підтверджених збитків приблизно у 893 млн доларів — це перший рік, коли ФБІ офіційно відслідковує це як категорію злочину — і це лише частка атак, про які постраждалі повідомили.

Наслідки посилюються з операційної точки зору. Товариство з управління людськими ресурсами встановило, що середня вартість найму одного працівника становить майже 4700 доларів — без урахування навчання, адаптації або втраченої продуктивності. У контакт‑центрах, де тестування якості та зв’язку із навчанням Benchmark показує, що щорічна текучість агентів становить 30–45%, ця ціна повторюється масштабу щороку на кожному місці на підлозі. Контакт‑центр на 500 агентів із середньою текучістю — це не HR‑проблема. Це капітальна проблема.

Проблема полягає в тому, що контакт‑центри ведуть операції в режимі реального часу за голосом без реального часу інтелекту про те, що насправді відбувається у тих дзвінках — чи синтетичний голос обхідно проходить ідентифікацію або зловмисник тисне на навченного агента до виходу з роботи. Обидві втрати вимірювані. Жодна з них не є неминучою.

Emerj нещодавно провів триpartій серіал про захист голосового каналу в реальному часі для мінімізації ризиків, за участі Майка Паппаса, CEO та співзасновника Modulate; Кена Моріно, директора з дослідження ринку та поведінкових тенденцій у Modulate; та Джону‑Раву Шендi, Global CTO по даним та штучному інтелекту в Thales Group, де розглядалося, як підприємства можуть виявляти шахрайство під час дзвінка, впроваджувати архітектури голосового інтелекту для високоризикових рішень та будувати управління на рівні робочих процесів, яке відповідає вимогам регуляторів та страхових компаній.

Ця стаття розглядає три критично важливі висновки щодо того, як підприємства можуть захистити голосовий канал, який стає передовою поверхнею для шахрайства та рішень із високим ризиком:

Голосовий канал як поверхня реального часу ризику: виявлення шахрайства та маніпуляцій під час дзвінка запобігає фінансовим втратам, регуляторному ризику та відтоку агентів ще до того, як вони загостряться.
Спеціалізована архітектура голосового інтелекту для високоризикових рішень: моделі, створені для живого аудіо, забезпечують точність і швидкість, необхідні для автентифікації, змін облікового запису та схвалення платежів, які не може підтримати загальний штучний інтелект.
Управління на рівні робочих процесів та спільна відповідальність за результати голосового AI: чіткі шляхи ескалації та докази, готові до аудиту, дозволяють відділам Безпеки, Операцій та CX діяти за сигналами ризику так, як цього потребують регулятори та страхові компанії.

Голосовий канал як поверхня реального часу ризику

Епізод: Чому ensemble‑архітектури перемагають у протистоянні реального часу голосового ризику — з Майком Паппасом з Modulate

Гість: Майк Паппас, CEO & Co‑Founder в Modulate

Експертиза: ШІ, розмовний ШІ, Безпека та довіра ШІ, Системна архітектура

Стислий визнання: Майк Паппас заснував Modulate, де очолив розробку та впровадження аналітики на основі штучного інтелекту, яку використовують компанії Fortune 500 та великі студії ігор для рішення проблем з переслідуванням, шахрайством та безпекою користувачів у масштабі. Його попередній досвід включає технічні та інфраструктурні ролі в Lola та Bridgewater Associates, охоплюючи машинне навчання, хмарні системи та програмну архітектуру. Він також є членом правління Family Online Safety Institute та має ступінь у фізиці та прикладній математиці від MIT.

Паппас описує зміщення у тому, як організації мають розуміти голосовий канал. Те, що раніше розглядалося як звичайна сервісна взаємодія, зараз стало середовищем, де шахрайство, видавання чужого обличчя та маніпуляції відбуваються у реальному часі, часто швидше, ніж існуючі контролі можуть виявити.

Операційний розрив, на його думку, полягає не в можливості виявлення, а в часі — що відбувається під час дзвінка порівняно з тим, що системи можуть спостерігати після нього.

Паппас прямо пояснює розрив:

«Найбільші шкоди не з’являються у журналах — вони трапляються, коли дзвінок ще триває. До того моменту, як хтось перегляне транскрипцію, зловмисник уже досяг успіху. Реальний ризик — це розрив між тим, що відбувається наживо, і тим, що організація може фактично побачити.»

— Майк Паппас, CEO & Co‑Founder, Modulate

Спроби шахрайства все частіше покликаються на терміновість, емоційний тиск та видавання чужого обличчя, що проявляються саме у живій взаємодії. Оскільки люди реагують на емоції раніше за політику, ці сигнали впливають на рішення до того, як традиційні контролі зможуть втрутитися.

Позиція Паппаса полягає в тому, що виявлення має відбуватися на основі таких поведінкових ознак у момент їх виникнення — потрібні моделі, які можуть інтерпретувати аудіопотік сам по собі, а не його транскрипт.

Агенти не навчені розпізнавати ворожі стилі розмови, особливо коли ці стилі підкреслюють обходження перевірок. Паппас вважає, що очікування, що агенти самі зможуть ідентифікувати ці сигнали, є нереалістичним; рішенням є надати їм реальне бачення ризик‑індикаторів у реальному часі, щоб вони не покладалися на інстинкт у моменти високого тиску.

У його формулюванні роль ШІ полягає в послідовному виведенні цих індикаторів, навіть під тиском часу або при наявності переконливого копіювання голосу.

У його епізоді Кен Моріно зауважує, що поведінкові та емоційні ознаки зникають, коли їх перетворюють на текст, що обмежує корисність систем на основі транскриптів для виявлення маніпуляцій. Сигнали, які свідчать про щось ненормальне — сумніви, розбіжність тону, напрямок розмови — зникають, коли взаємодія зводиться до слів.

Вид Моріно полягає в тому, що системи штучного інтелекту, створені для реального часу аудіо, можуть відновити ці сигнали та подати їх у формі, що відповідає існуючим робочим процесам, не вимагаючи від агентів інтерпретувати сирі аудіопатерни самостійно.

Високоризикові робочі процеси, такі як автентифікація, зміни облікового запису та схвалення платежів, відкриваються, тому що рішення повинні прийматися швидко, а зловмисники використовують цю часову напругу.

Джон‑Рав Шендe додає, що глибокі підробки шахрайства часто досягають успіху за рахунок використання прогалин у робочих процесах, і більшість команд безпеки має обмежену видимість у живу взаємодію, де компрометація фактично відбувається. Він акцентує увагу на використанні ШІ, щоб виводити сигнали валіку в дзвінку, що дозволяє службі безпеки бачити взаємодію під час її тривалості, а не після факту.

У трьох розмовах виділено кілька схем вирішення:

Виявляти сигнали ризику під час дзвінка, надаючи агентам контекст у реальному часі, а не покладаючись на інстинкт або пам’ять.
Використовувати аудіо‑нативні моделі, які фіксують тон, сум’яття та емоційну розбіжність — сигнали, які не зберігаються в транскрипції.
Відкрити вразливості на рівні робочих процесів у ідентифікаційних та процесах затвердження, де зловмисники використовують швидкість та неясність.
Надавати агентам структуровані підказки або сигнали, коли з’являються сигнали ризику, тим самим знижуючи когнітивне навантаження під час взаємодій у високому тиску.
Інтегрувати видимість безпеки у живі взаємодії, щоб команди не виявляли компрометацію після факту.

Спеціалізована архітектура голосового інтелекту для високоризикових рішень

Епізод: Операційна реалізація реального часу голосового інтелекту для FinServ та CX – з Кеном Моріно з Modulate

Експертиза: Управління продуктом, поведінкові дослідження, дизайн користувацького досвіду, корпоративне програмне забезпечення та інтеграції

Стислий визнання: Кен Моріно очолював продукти та дослідження ринку в Modulate, формуючи технологію розмовного ШІ та орієнтовану на користувача продуктову стратегію. До Modulate він майже десять років працював у LiveShopper Sassie, керуючи корпоративним управлінням продуктом, інтеграціями API та великими впровадженнями клієнтів, співпрацюючи з провідними корпоративними клієнтами та міжфункціональними технічними командами. Раніше в кар’єрі обіймав керівні ролі з продукту, технічних продажів та рішень безпеки у Demarc Security, має ступені бакалавра комп’ютерних наук та магістра економіки з UC Santa Barbara.

Моріно стверджує, що більшість організацій намагаються розв’язати проблеми, пов’язані з ідентифікацією, за допомогою систем, які ніколи не були розроблені для ідентичності.

Домінуючі інструменти на ринку — конвеєри ASR, аналітика транскрипцій та загальні LLM — розроблялися для сумаризації, оцінювання настрою та перевірки відповідності. Вони працюють із текстом, а не з аудіо, і вони припускають, що вимоги до точності гнучкі. У процесах автентифікації та змін облікового запису ці припущення руйнуються миттєво.

Технічні обмеження безкомпромісні:

Ідентифікаційні робочі процеси мають фіксовані часові ліміти. Моделі, які відповідають за 1,5 секунди, не придатні для системи, що повинна затвердити або відхилити дію за менше ніж 300 мкс.
Системи на основі транскриптів викидають акустичні ознаки — висоту тону, тембр, мікропауза, гармонійну структуру — які залежать від систем ідентифікації.
Загальні LLM не можуть досягати точності рівня ідентифікації. Модель з 95% точності є катастрофічною, коли решта 5% — це шахрайство.
Підхід з однією моделлю провалюється, бо жоден окремий сигнал (голосовий відбиток, формулювання, метадані) не надто надійний для виявлення синтетичного аудіо.
Системи аналітики CX не підтримують багатосигнальне злиття, що потрібно для поєднання акустичних, поведінкових та контекстуальних ознак у виправдане рішення про особу.

Моріно підсумовує основне обмеження:

«Коли ви перетворюєте розмову на текст, ви втрачаєте hesitation, тон, емоційну розбіжність — усе те, що говорить вам, що щось не так.»

— Кен Моріно, директор з досліджень ринку та поведінкових тенденцій, Modulate

Майк Паппас додає, що рішення з критичними для ідентифікації даними потребують ансамблевих архітектур — кілька спеціалізованих моделей, що працюють у різних частинах аудіосигналу, та збираються до єдиного оцінювання ризику.

Джон‑Рав Шендe зауважує, що страхові компанії та регулятори дедалі очікують аудиту з доказами, які показують як кожен сигнал вплинув на рішення. Разом вони розглядають автентифікацію, зміни облікових даних та схвалення платежів як вимагання побудови спеціально розробленої архітектури, а не пере використаної аналітичної стека.

Управління на рівні робочих процесів та спільна відповідальність за результати голосового AI

Епізод: Чому глибокі підробки ламають ваші робочі процеси, а не вашу технологію – з Джон‑Равом Шендe з Thales Group

Гість: Джон‑Рав Шендe, Global CTO for Data and AI у Thales Group

Експертиза: AI Security, Cloud & Enterprise Transformation, Cybersecurity & Risk Management, Data Governance & Trusted AI

Коротке визнання: Джон G. Шендe займав керівні технологічні та інженерні посади, зосереджені на ШІ, кібербезпеці та трансформації підприємств. Досвід включає керівні ролі у Thales, Sutherland та ForenSec Global, де очолював великі проєкти з хмарних, безпеки та модернізації ШІ для глобальних підприємств, включаючи Fortune 500 та багатомільярдні трансформаційні програми. Також має досвід з великими технологічними та консалтинговими екосистемами, включаючи Ernst & Young та Cognizant, а також із хмарними платформами AWS, Azure та Google, і активно бере участь в InfraGard та роботі з керуванням ШІ, кіберстійкістю та впровадженням довіреного ШІ.

Внесок Джона‑Рава Шенде в обговорення полягає в тому, що технічна можливість виявляти ризик — це лише половина проблеми. Інша половина — це організаційна сторона: як тільки система може виявляти сигнали, пов’язані з особою, підприємство повинно вирішити, хто відповідає за реакцію, як фіксують докази та як рішення стають виправданими для регуляторів, аудиторів та страхових компаній.

На його думку, режим не полягає лише в пропущеному виявленні; він полягає в розриві відповідальності, непослідовній ескалації та відсутності аудиту, що пояснює, чому дію було вжито:

«Організації зазнають невдач не через відсутність сигналу. Вони терплять невдачу, коли ніхто не знає, хто повинен діяти. Якщо Безпека бачить щось, але Операції відповідають за робочий процес, сигнал помре посередині. А коли щось іде не так, немає запису, що показує, що було відомо, коли це було відомо, і хто прийняв рішення. Саме це шукають регулятори, саме за це тримаються страхові компанії.»

— Джон‑Рав Шендe, Global CTO for Data and AI у Thales Group

Кен Моріно додає, що управління також залежить від інтерпретованості. Модель може виявити сигнал, але якщо вихід неоднозначний або потребує розшифрування фахівцем, організація не розв’язала проблему.

На думку Кена, система повинна подати сигнали у форматі, що вміщується у існуючі робочі процеси, бо як тільки агент чи аналітик має “розібратися”, значущість відповідальності стає неясною, і рішення стають непослідовними.

Майк Паппас підсилює це з точки зору виправданості. Рішення з високими ставками — схвалення автентифікації, зміни облікових даних, дозволи на платежі — повинні бути обґрунтовані перед регуляторами та страховиками. Це вимагає спільної операційної моделі: Безпека, Операції та CX мають домовитися про те, що таке ризик, хто відповідає за момент, коли з’являється сигнал, і як докази фіксуються. Без цього вирівнювання організації отримують фрагментовану видимість та відсутність єдиного запису того, що сталося.

Протягом епізодів виникають три схеми управління:

Чіткі шляхи ескалації, які визначають, хто приймає рішення, коли з’являється сигнал ризику, та які повноваження має ця особа, щоб призупинити, відхилити або перевірити дію.
Аудит‑ready доказові ланцюги, які фіксують сигнали, рішення та раціональність у формі, яку регулятори та страхові компанії можуть оцінити.
Крос‑функційна згуртованість між Безпекою, Операціями та CX, щоб сигнали ризику не застрягали у роботі лише однієї команди.

Шендe вважає, що як тільки ШІ починає впливати на рішення, що стосуються ідентифікації, організація має розглядати ці рішення як спільні активи, а не як завдання окремого відділу. Модель управління стає настільки важливою, як і архітектура моделі, бо без неї навіть найбільш точна система не може продукувати результати, що витримують перевірку.

June 2, 2026 at 05:36PM

Securing the Voice Channel with Real‑Time Audio‑Native AI

Голосовий канал як поверхня реального часу ризику

— Майк Паппас, CEO & Co‑Founder, Modulate

Спеціалізована архітектура голосового інтелекту для високоризикових рішень

«Коли ви перетворюєте розмову на текст, ви втрачаєте hesitation, тон, емоційну розбіжність — усе те, що говорить вам, що щось не так.»

— Кен Моріно, директор з досліджень ринку та поведінкових тенденцій, Modulate

Управління на рівні робочих процесів та спільна відповідальність за результати голосового AI

— Джон‑Рав Шендe, Global CTO for Data and AI у Thales Group

Коментарі

Залишити відповідь Скасувати коментар