From Audio to Action: How Speech Invocable Action Powers Native AI Automation Across Salesforce

Від аудіо до дій: як Speech Invocable Action забезпечує нативну ШІ-автоматизацію у Salesforce

https://ift.tt/NpuJhcA

Уривок із публікації Yaheli Salina, Karthik Prabhu та Omri Alon.

У серії Engineering Energizers Q&A ми розкриваємо інженерні розуми, які рухають інновації в Salesforce. Сьогодні ми приділяємо увагу Software Engineer Yaheli Salina. Вона та її команда агентства Agentforce Speech Foundations розробили Speech Invocable Action — новий інструмент штучного інтелекту, який стандартизує повторювані дії, надаючи складний потужний ШІ по всій екосистемі Salesforce, включаючи безпечно нативну мовну автоматизацію, розміщену у межах довіри платформи.

Дізнайтеся, як команда інтегрувала нативну мовну автоматизацію, розробивши speech-to-text як основну дію під суворими багатоклієнтськими обмеженнями, створюючи захисні бар’єри, щоб запобігти впливу помилок автоматизації на Flows та дії Agentforce, та використовуючи інструменти штучного інтелекту для прискорення архітектурних досліджень із збереженням високих стандартів безпеки.

Яка місія вашої команди у контексті створення нативної мовної автоматизації на платформі Salesforce?

Команда спрощує мовні можливості, створюючи нативні блоки з будівельних компонентів всередині платформи Salesforce. Раніше speech-to-text потребував маршрутизацію аудіо до сторонніх сервісів, через що користувачі мали керувати обліковими даними та приймати компроміси з безпекою. Ця стара модель створювала перешкоди для корпоративних середовищ, які пріоритетують відповідність даним місцезнаходження та довіру. У нинішньому підході аудіодані залишаються в межах довіри Salesforce. Обробка відбувається через сервіси платформи, щоб зберегти приватність і водночас забезпечити безручну автоматизацію.

Інтегруючи мовні можливості як набір стандартних дій, команда демократизує доступ до голосу для всіх людей, що будують рішення. Speech-to-text, text-to-speech та переклад тепер є стандартними композиційними діями. Адміністратори та розробники можуть запускати логіку з голосовим управлінням у Flows або Agentforce без написання шаблонного коду для потоків аудіо або керування WebSocket. Цей перехід перетворює мову на повторюваний інструмент, а не на спеціалізовану інтеграцію.

Команда прагне зробити голос природним продовженням робочих процесів, щоб користувачі з повним довір’ям будували досвіди на основі мови.

В середині архітектури Speech Invocable Action: Змішування споживачів Salesforce-платформи з Agentforce Speech Foundations через стандартизовані базові дії.

Які архітектурні обмеження вплинули на те, як була побудована нативна мовна автоматизація всередині платформи Salesforce?

Будівництво всередині платформи Salesforce має інші архітектурні реалії порівняно з розгортанням зовнішніх сервісів. Платформа діє як велика багатокористувацька система, де тисячі функцій спільно використовують пам’ять, обчислення та шляхи виконання. Кожна нова можливість повинна безпечно співіснувати з усіма іншими процесами платформи.

Обробка speech-to-text вимагає значних ресурсів, особливо щодо використання пам’яті під час обробки аудіо. Оскільки ці ресурси спільні, команда оцінює поведінку мовних дій, коли кілька Flows або дій Agentforce працюють одночасно. Кожен крок автоматизації припускає, що інші завдання платформи конкурують за ті самі ресурси.

Щоб управляти цими вимогами, команда пріоритетує дисципліноване управління ресурсами та суворе тестування продуктивності. Вони перевіряють вказані патерни використання щодо обмежень Speech Foundations API та налаштовують шляхи виконання для максимальної ефективності. Ці зусилля підтримують стабільність платформи та забезпечують передбачувану роботу мовної автоматизації за умов навантаження.

Як вплинули вимоги до надійності на дизайн мовної автоматизації для Flows та дій Agentforce?

Мовна автоматизація часто працює в синхронних контекстах, таких як Flows та дії Agentforce, де виконання призупиняється до завершення завдання. Одна помилка може зупинити цілу автоматизацію або зірвати взаємодію з агентом. Тому поведінка при відмові є настільки ж критичною, як і поведінка при успіху.

Команда застосовує захисну стратегію дизайну, щоб забезпечити передбачувані результати. Мовна дія повертає структуровані категорії помилок замість загальних системних помилок. Це дозволяє розробникам явно обробляти проблеми. Подальша автоматизація може відповідати свідомими діями, такими як повторна спроба, розгалуження на резервний шлях або реєстрація події.

Ретельне тестування підтверджує цей підхід через модульні, інтеграційні та наскрізні сценарії. Такі тести гарантують, що мовна дія поводиться послідовно у поєднанні з іншими інструментами платформи. Контрольовані режими відмови забезпечують, що мовна автоматизація посилює робочі процеси та підтримує надійність.

Які фактори тиску випуску вплинули на те, як команда реалізовувала роботу з невеликим колективом?

Реалізація мовної автоматизації відбувалася в умовах обмежених термінів і високих експлуатаційних очікувань. Оскільки ця дія діє глибоко всередині платформи, команда розглядала коректність та обмежувачі як невід’ємні вимоги.

Команди Speech Foundations та Standard Actions дотримувались дизайну для пакетної обробки з самого початку — критично для масштабованості та ефективного використання обмежень серед багатоплатформного середовища Salesforce. Щоб реалізувати мовні завдання (наприклад, транскрипцію) у складній кодовій базі, команда використовувала інструменти ШІ, такі як Claude Code. Це дозволило невеликій команді автономно поставляти код, готовий до продакшну, відповідаючи цим суворим обмеженням із надзвичайною швидкістю.

Тестування зосереджувалося на тому, як розробники використовують мовну автоматизацію всередині Flows та дій Agentforce. Переконавшись у реальному виконанні шляхів наскрізно, команда забезпечила впевнене відвантаження функції попри стислий графік.

Як інструменти ШІ змінили продуктивність розробників під час роботи з незнайомою кодовою базою платформи?

Робота в рамках платформи Salesforce вимагала навігації по величезній кодовій базі та складних внутрішніх API. Зазвичай onboarding у таке середовище потребує тижнів перегляду документації та пошуку через досвід.

Інструменти розробки з штучним інтелектом змінили цей досвід. Інструменти на кшталт Claude і Cursor слугували архітектурними провідниками та допомагали команді розуміти компоненти системи й існуючі патерни. Цей підхід за участю ШІ дозволив команді запитувати кодову базу, знаходити релевантні приклади та генерувати тести, що відповідали внутрішнім стандартам.

Команда оцінює, що використання ШІ скоротило час розробки та дослідження приблизно на сім‑вісім тижнів. Окрім швидкості, ШІ вплинув на те, як інженери вивчали, раціонально обґрунтовували та розширювали складну систему масштабно, зменшуючи когнітивне навантаження. Це дозволило команді зосередитися на логіці мовної автоматизації, а не на механіці платформи.

Додатково

Learn more
– Stay connected — приєднуйтесь до нашої Talent Community!
– Перегляньте наші команди Technology and Product, щоб дізнатися, як ви можете долучитися.

Пост From Audio to Action: How Speech Invocable Action Powers Native AI Automation Across Salesforce з’явився спочатку на Salesforce Engineering Blog.

HI-FI News

via Salesforce Engineering Blog
Februar 21, 2026 at 01:54AM

February 21, 2026 at 01:54AM

From Audio to Action: How Speech Invocable Action Powers Native AI Automation Across Salesforce

Коментарі

Залишити відповідь Скасувати коментар