Голосовая оптимизация — это отдельная работа или часть SEO?

Это часть AEO — слоя ответов поверх SEO и GEO. Базовая разметка общая, но «голосовые» абзацы и Speakable пишутся отдельно. Голосовая оптимизация — это не самостоятельный канал, а часть AEO, слоя ответов в трёхуровневой модели Identity / Content / Answers. Базовый фундамент общий: сайт должен индексироваться, иметь корректную Schema.org-разметку, заполненную карточку организации. Поверх этого AEO добавляет то, чего нет в классическом SEO: «голосовые» абзацы в 50 слов, FAQPage с прямыми формулировками, Speakable cssSelector. Эту надстройку большинство SEO-подрядчиков в РФ не делают — она остаётся вне договора, и сайт остаётся невидимым для Алисы и Маруси.

Обязательна ли Speakable Schema для попадания в голосовой ответ?

Speakable резко повышает шансы, но не гарантирует. Без неё ассистент берёт первый похожий на ответ фрагмент — и это редко именно ваш текст. SpeakableSpecification — это явный сигнал ассистенту: «вот этот фрагмент написан, чтобы его зачитать вслух». Без неё Алиса или Маруся всё равно может процитировать страницу, но возьмёт первое, что похоже на ответ, — нередко неудачный кусок текста или вообще конкурента. Speakable не даёт стопроцентной гарантии: голосовые ассистенты опираются на нейросетевые модели, а не на детерминированные правила. Но в связке с прямым ответом в 50 слов и FAQPage она многократно повышает вероятность, что зачитают именно ваш фрагмент.

Почему именно 50 слов, а не больше?

Около 50 слов — это примерно 60 секунд устной речи. Длиннее ассистент обрезает или игнорирует фрагмент целиком. Ограничение в 50 слов идёт не от прихоти, а от формата устной речи: примерно столько произносится за 60 секунд в комфортном темпе. SpeakableSpecification рассчитан именно на этот объём. Если «голосовой» фрагмент длиннее, ассистент либо обрежет его в случайном месте — и пользователь услышит оборванную фразу, — либо проигнорирует разметку и возьмёт что-то другое. Структура внутри этих 50 слов тоже важна: первые 15-20 слов — прямой ответ, следующие 30 — расшифровка.

Если оптимизируемся под Алису, попадём ли в ChatGPT Voice?

Базовый Speakable и FAQPage работают для всех ассистентов. Но Алиса и Маруся опираются на индекс Yandex, а ChatGPT Voice — на собственное знание и Schema. Speakable Schema, FAQPage, структура «50-словного ответа» — это международный язык разметки, и его читают все голосовые ассистенты. Поэтому корректный AEO-слой работает на Алису, Марусю и ChatGPT Voice одновременно. Разница в источнике: Алиса и Маруся зачитывают то, что собрали из российского индекса (Yandex GPT), поэтому для них критичны индексация в Yandex и карточка Яндекс.Бизнес. ChatGPT Voice не привязан к индексу Yandex — он опирается на собственное знание и на цитируемые источники с корректной Schema. В Build-пакете мы закрываем оба фронта.

Через сколько появимся в голосовых ответах после внедрения?

Первые зачитывания — через 6-10 недель после публикации Speakable-стека, устойчивое присутствие — около 4-5 месяцев. Голосовой ответ собирается тем же механизмом, что и текстовая карточка нейросети, поэтому и сроки близкие. Если сайт уже хорошо индексируется и есть заполненная карточка организации — первые зачитывания фрагментов появляются через 6-10 недель после публикации Speakable-разметки и FAQPage. Если бренд новый и в публичном поле о нём почти ничего нет — сначала строим entity, потом ждём индексации и пересчёта. Среднее по нашим клиентам — около 3 месяцев до первого зачитывания и около 5 месяцев до устойчивого присутствия. Гарантировать «через 30 дней» нельзя — это нейросетевой канал, а не детерминированная выдача.

Voice search — AEO guide

Голосовой поиск 2026 — как оптимизировать сайт под Алису, Марусю и ChatGPT Voice

Голосовой ассистент Yandex (Алиса), VK (Маруся) и ChatGPT Voice в 2026 году получают всё больше запросов: пользователь спрашивает «где купить ПЭТ-упаковку в Москве» — и слышит вслух ответ. Этот ответ — это один сайт из всех, что есть в выдаче. Чтобы быть этим сайтом, нужны 3 вещи: Speakable Schema (выделяет, что зачитывать), прямой ответ в 50 слов в начале параграфа, и тематический контекст (Schema.org Service / Product / Article).

Заказать AEO-аудит Как написать текст под голос

Голосовая оптимизация — часть AEO, слоя ответов поверх SEO и GEO. У голосового ответа нет «длинного хвоста» — ассистент зачитывает один фрагмент, и он либо ваш, либо нет.

Почему голос важен сейчас

Голос меняет не объём трафика, а форму выдачи

К 2026 году голосовые ассистенты перестали быть нишевой игрушкой: Алиса встроена в Станции, Навигатор и приложение Яндекс, Маруся работает в контуре VK и на колонках, ChatGPT Voice доступен в мобильном приложении. Голосом удобно спрашивать там, где руки заняты или экран неудобен — в машине, на кухне, на ходу. Точные доли голосовых запросов публично не раскрываются и сильно зависят от методики подсчёта, но направление однозначно: доля устных запросов растёт, и она встроена в те же поисковые поверхности, которыми аудитория пользуется ежедневно.

Важнее объёма — то, как голос меняет саму выдачу. Текстовый поиск показывает список ссылок: можно быть на седьмой позиции и получать остаточный трафик. Голосовой ответ — это один зачитанный фрагмент. Ассистент не произносит «вот десять сайтов» — он отвечает одним абзацем из одного источника. У такой выдачи нет длинного хвоста: ваш сайт либо стал этим источником, либо не существует для пользователя, который спросил голосом. Это резко повышает и стоимость попадания, и стоимость отсутствия.

При этом голосовой запрос звучит иначе, чем текстовый. Вместо телеграфного «ПЭТ упаковка Москва купить» человек произносит полную фразу: «где купить ПЭТ-упаковку в Москве», «сколько стоит SEO-аудит», «кто делает сайты для производства». Это вопросительные конструкции с «где», «как», «сколько», «кто» — и контент, написанный под них, должен прямо отвечать на вопрос, а не перечислять ключевые слова. На этом стыке — растущая доля устных запросов и принципиально иная форма выдачи — и работает голосовая оптимизация как часть AEO.

Три ассистента

Алиса, Маруся и ChatGPT Voice — что каждый читает и как

Три ассистента работают по близкой механике, но опираются на разные источники. Понимание этой разницы убирает иллюзию, что под каждый нужна «своя» оптимизация: язык разметки общий, различается только фундамент, на котором ассистент собирает ответ.

01Алиса — Yandex

Алиса зачитывает то, что Yandex GPT извлёк в карточку ответа

Алиса встроена в экосистему Яндекса и в его устройства — Станции, Навигатор, приложение Яндекс. На голосовой запрос она не «листает выдачу», а зачитывает короткий ответ, который Yandex GPT уже собрал из проиндексированных страниц. Источником этого ответа становится сайт с понятной для машины структурой: корректная Schema.org-разметка, FAQPage с прямыми формулировками, Speakable cssSelector на коротком фрагменте. Если на странице нет выделенного «голосового» куска текста, Алиса берёт первое, что похоже на ответ, — и это редко именно ваша компания.

02Маруся — VK

Маруся работает в контуре VK и читает структурированный контент так же

Маруся — голосовой ассистент VK, доступный в приложениях экосистемы и на колонках VK. Механика та же, что у Алисы: ассистент отдаёт пользователю короткий устный ответ, а не список ссылок. Технически Маруся опирается на тот же международный язык разметки — SpeakableSpecification, FAQPage, WebPage, — поэтому отдельной «оптимизации под Марусю» не существует. Корректный AEO-слой, собранный один раз, работает и на Алису, и на Марусю одновременно: одна разметка — два канала зачитывания.

03ChatGPT Voice

ChatGPT Voice озвучивает ответ языковой модели, опирающейся на Schema

ChatGPT Voice — голосовой режим ChatGPT: пользователь задаёт вопрос вслух и получает устный ответ от модели. В отличие от Алисы и Маруси, ChatGPT не привязан к российскому индексу — он опирается на собственное знание и на цитируемые источники с корректной Schema.org-разметкой. Для попадания в его ответ важны те же сигналы, что и для текстового GEO: Organization с полным NAP, Service / Product / Article, FAQPage. Голосовой режим лишь меняет форму подачи — требования к структуре данных остаются прежними.

Общая логика нейросетевого канала и механика Yandex GPT, на котором держатся Алиса и Маруся, — на pillar-странице GEO. Голосовой ответ и текстовый Featured Snippet собираются одним механизмом — подробнее в руководстве по Featured Snippets.

Speakable Schema

SpeakableSpecification — спецификация, лимиты и примеры

Speakable — это свойство в Schema.org, которое помечает конкретный фрагмент страницы как пригодный для зачитывания вслух. Технически это узел типа SpeakableSpecification внутри WebPage или FAQPage, в котором указывается, какие именно элементы страницы ассистент может произнести. Без этого свойства Алиса и Маруся всё равно могут процитировать сайт, но возьмут первый похожий на ответ фрагмент — и это редко именно тот текст, который вы хотели бы услышать в выдаче.

Указать фрагмент можно двумя способами: cssSelector или xpath. cssSelector привязывает Speakable к CSS-классу — например .voice-summary или .faq-short-answer; он короче, читаемее и переживает изменения вёрстки. xpath указывает путь в DOM-дереве — он точнее в сложных случаях, но хрупок: любая перестройка разметки его ломает. На практике для большинства сайтов достаточно cssSelector — отдельный класс на «голосовом» абзаце решает задачу.

Главный лимит — длина. SpeakableSpecification рассчитан примерно на 60 секунд устной речи, то есть около 50 слов. Speakable, повешенный на длинный абзац или на весь раздел статьи, обрезается в случайном месте или игнорируется целиком. Поэтому селектор должен указывать на заранее подготовленный фрагмент в 50 слов, а не на произвольный кусок контента. Ниже — два корректных примера: Speakable через cssSelector в узле WebPage и через xpath в узле FAQPage.

WebPage + cssSelector

{
  "@context": "https://schema.org",
  "@type": "WebPage",
  "@id": "https://example.ru/uslugi/#webpage",
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": [
      ".voice-summary",
      ".faq-short-answer"
    ]
  }
}

FAQPage + xpath

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "@id": "https://example.ru/uslugi/#faqpage",
  "speakable": {
    "@type": "SpeakableSpecification",
    "xpath": [
      "/html/body//*[@class='faq-short-answer']"
    ]
  }
}

Speakable редко работает в одиночку: ассистент должен ещё понимать тематический контекст страницы — кто компания, что за услуга, что за продукт. Это даёт Schema.org-разметка Service / Product / Article в связке с Organization. Полный разбор узлов и примеры JSON-LD по вертикалям — на странице про Schema.org.

Пошаговая инструкция

Как написать текст под голос — шесть шагов

Голосовой текст пишется иначе, чем текст под глаза: он должен звучать как ответ человека в разговоре. Шесть шагов ниже — это конкретная процедура от сбора реальных голосовых запросов до проверки фрагмента на слух. Полный цикл по странице — около двух недель силами контент-редактора и разработчика; с нашей стороны это часть Build-пакета.

01
Соберите реальные голосовые запросы
Голосовой запрос звучит иначе, чем текстовый: вместо «ПЭТ упаковка Москва купить» человек спрашивает «где купить ПЭТ-упаковку в Москве». Это полные вопросительные конструкции — «где», «как», «сколько стоит», «кто делает». Соберите такие формулировки из обращений в продажи, из подсказок Yandex и из того, как клиенты реально описывают задачу голосом. Этот список вопросов становится каркасом для FAQPage и для «голосовых» абзацев на посадочных страницах.
02
Напишите прямой ответ в первые 15-20 слов
Структура «50-словного ответа»: первое предложение прямо отвечает на вопрос — кратко, без вводных, без истории вопроса. Если запрос «сколько стоит SEO-аудит» — первая фраза называет вилку цены и срок. Это то, что ассистент зачитает вслух за первые секунды. Не начинайте с «это зависит от многих факторов» — для голоса такой ответ бесполезен, пользователь уходит к следующему источнику в выдаче.
03
Добавьте расшифровку в следующие 30 слов
После прямого ответа идут ещё примерно 30 слов расшифровки: условия, оговорки, что входит, от чего зависит цена или срок. Вместе первая фраза и расшифровка дают связный фрагмент около 50 слов — ровно столько, сколько помещается в 60 секунд устной речи. Этот абзац пишется как разговорная реплика: короткие предложения, расшифрованные термины, никаких визуальных отсылок вроде «см. таблицу ниже».
04
Оберните фрагмент в класс для Speakable
«Голосовой» абзац получает отдельный CSS-класс — например .voice-summary для лида или .faq-short-answer для коротких ответов FAQ. Класс должен охватывать только сам фрагмент в 50 слов, а не весь раздел. Именно на этот селектор затем ссылается SpeakableSpecification в JSON-LD. Один и тот же класс используется на всех однотипных блоках страницы, чтобы разметка оставалась согласованной и предсказуемой.
05
Привяжите SpeakableSpecification через cssSelector
В JSON-LD узла WebPage или FAQPage добавляется поле speakable с типом SpeakableSpecification и массивом cssSelector — например [".voice-summary", ".faq-short-answer"]. cssSelector точнее xpath и переживает изменения вёрстки. На странице с блоком вопрос-ответ Speakable вешается на FAQPage, на пилларе или лендинге — на WebPage. Разметку проверяют валидатором schema.org и разделом «Структурированные данные» в Yandex Webmaster.
06
Проверьте на слух и измеряйте регулярно
Финальная проверка — задать запрос голосом Алисе, Марусе и ChatGPT Voice и послушать, что зачитывает ассистент: ваш фрагмент, конкурента или ничего. Прочитайте «голосовой» абзац вслух сами — если на слух он рассыпается, переписывайте. Дальше — регулярный замер: 5-10 голосовых запросов раз в неделю, фиксация результата в таблице. Без лога нет данных, есть только впечатления.

Типичные ошибки

Четыре способа сделать Speakable бесполезным

Эти ошибки встречаются не у новичков, а в разметке, которая на первый взгляд выглядит корректно. Speakable формально валиден, но ассистент либо обрезает фрагмент, либо зачитывает не то — потому что «голосовой» абзац написан как текст под глаза, а не под слух.

Speakable на длинных абзацах

SpeakableSpecification рассчитан примерно на 60 секунд речи — около 50 слов. Если cssSelector указывает на параграф из 200 слов или на h2 без выраженного ответа, Алиса и Маруся либо обрежут фрагмент в случайном месте, либо просто проигнорируют разметку. Решение — отдельный класс вроде .voice-summary или .faq-short-answer, привязанный только к заранее написанным «голосовым» 30-50 словам, а не ко всему телу статьи.

Технический жаргон в голосовом ответе

Текст, который хорошо читается глазами, на слух может рассыпаться: аббревиатуры, англицизмы, длинные перечни в скобках, ссылки «см. выше». Ассистент зачитывает фрагмент дословно — и пользователь слышит нечитаемую вслух конструкцию. Решение — писать «голосовой» абзац так, будто вы отвечаете человеку в разговоре: короткие предложения, расшифрованные термины, никаких визуальных отсылок к остальной странице.

Числовые списки без расшифровки

Speakable на маркированном списке из цифр («7, 14, 50, 350») даёт ассистенту набор чисел без контекста — пользователь слышит цифры, но не понимает, что они значат. Голосовой ответ должен быть связным предложением, а не таблицей. Решение — если фрагмент содержит числа, оберните их в полноценную фразу: не «50 слов», а «прямой ответ занимает около пятидесяти слов в начале параграфа».

Speakable без прямого ответа в первой фразе

Частая ошибка — привязать Speakable к абзацу, который начинается с вводных слов, истории вопроса или дисклеймера. Ассистент зачитает именно начало — и пользователь услышит «вопрос этот непростой, и здесь много нюансов» вместо ответа. Решение — первое предложение «голосового» фрагмента должно прямо отвечать на вопрос в 15-20 словах, а расшифровка идёт следом.

Заявка на AEO-аудит

Проверить, слышат ли вас Алиса и Маруся

Audit за 5-7 дней покажет, готов ли сайт к голосовому каналу: Speakable-разметка, FAQPage, структура «50-словного ответа», прогон голосовых запросов через Алису и Марусю. На основе отчёта решаете — внедрять самостоятельно или брать Build под ключ. Полный AEO-аудит и обзор всей экосистемы — в разделе SEO + GEO + AEO.

Кейс

Design Studio U — референсный стек для голосового слоя

Design Studio U — клиент спецайти, на котором голосовой AEO-слой собран как технический референс: Speakable на «голосовых» абзацах, HowTo для процессных страниц и DefinedTermSet для терминов. Эта связка показывает, как Speakable, прямой ответ в 50 слов и тематический контекст Schema.org работают вместе, а не по отдельности. Тот же стек мы переносим на проекты в других вертикалях — от производства до услуг.

Голосовой поиск 2026 — как оптимизировать сайт под Алису, Марусю и ChatGPT Voice

Голос меняет не объём трафика, а форму выдачи

Алиса, Маруся и ChatGPT Voice — что каждый читает и как

Алиса зачитывает то, что Yandex GPT извлёк в карточку ответа

Маруся работает в контуре VK и читает структурированный контент так же

ChatGPT Voice озвучивает ответ языковой модели, опирающейся на Schema

SpeakableSpecification — спецификация, лимиты и примеры

Как написать текст под голос — шесть шагов

Соберите реальные голосовые запросы

Напишите прямой ответ в первые 15-20 слов

Добавьте расшифровку в следующие 30 слов

Оберните фрагмент в класс для Speakable

Привяжите SpeakableSpecification через cssSelector

Проверьте на слух и измеряйте регулярно

Четыре способа сделать Speakable бесполезным

Speakable на длинных абзацах

Технический жаргон в голосовом ответе

Числовые списки без расшифровки

Speakable без прямого ответа в первой фразе

Проверить, слышат ли вас Алиса и Маруся

Design Studio U — референсный стек для голосового слоя