Перейти к содержимому

Voice search — AEO guide

Голосовой поиск 2026 — как оптимизировать сайт под Алису, Марусю и ChatGPT Voice

Голосовой ассистент Yandex (Алиса), VK (Маруся) и ChatGPT Voice в 2026 году получают всё больше запросов: пользователь спрашивает «где купить ПЭТ-упаковку в Москве» — и слышит вслух ответ. Этот ответ — это один сайт из всех, что есть в выдаче. Чтобы быть этим сайтом, нужны 3 вещи: Speakable Schema (выделяет, что зачитывать), прямой ответ в 50 слов в начале параграфа, и тематический контекст (Schema.org Service / Product / Article).

Голосовая оптимизация — часть AEO, слоя ответов поверх SEO и GEO. У голосового ответа нет «длинного хвоста» — ассистент зачитывает один фрагмент, и он либо ваш, либо нет.

Почему голос важен сейчас

Голос меняет не объём трафика, а форму выдачи

К 2026 году голосовые ассистенты перестали быть нишевой игрушкой: Алиса встроена в Станции, Навигатор и приложение Яндекс, Маруся работает в контуре VK и на колонках, ChatGPT Voice доступен в мобильном приложении. Голосом удобно спрашивать там, где руки заняты или экран неудобен — в машине, на кухне, на ходу. Точные доли голосовых запросов публично не раскрываются и сильно зависят от методики подсчёта, но направление однозначно: доля устных запросов растёт, и она встроена в те же поисковые поверхности, которыми аудитория пользуется ежедневно.

Важнее объёма — то, как голос меняет саму выдачу. Текстовый поиск показывает список ссылок: можно быть на седьмой позиции и получать остаточный трафик. Голосовой ответ — это один зачитанный фрагмент. Ассистент не произносит «вот десять сайтов» — он отвечает одним абзацем из одного источника. У такой выдачи нет длинного хвоста: ваш сайт либо стал этим источником, либо не существует для пользователя, который спросил голосом. Это резко повышает и стоимость попадания, и стоимость отсутствия.

При этом голосовой запрос звучит иначе, чем текстовый. Вместо телеграфного «ПЭТ упаковка Москва купить» человек произносит полную фразу: «где купить ПЭТ-упаковку в Москве», «сколько стоит SEO-аудит», «кто делает сайты для производства». Это вопросительные конструкции с «где», «как», «сколько», «кто» — и контент, написанный под них, должен прямо отвечать на вопрос, а не перечислять ключевые слова. На этом стыке — растущая доля устных запросов и принципиально иная форма выдачи — и работает голосовая оптимизация как часть AEO.

Три ассистента

Алиса, Маруся и ChatGPT Voice — что каждый читает и как

Три ассистента работают по близкой механике, но опираются на разные источники. Понимание этой разницы убирает иллюзию, что под каждый нужна «своя» оптимизация: язык разметки общий, различается только фундамент, на котором ассистент собирает ответ.

01Алиса — Yandex

Алиса зачитывает то, что Yandex GPT извлёк в карточку ответа

Алиса встроена в экосистему Яндекса и в его устройства — Станции, Навигатор, приложение Яндекс. На голосовой запрос она не «листает выдачу», а зачитывает короткий ответ, который Yandex GPT уже собрал из проиндексированных страниц. Источником этого ответа становится сайт с понятной для машины структурой: корректная Schema.org-разметка, FAQPage с прямыми формулировками, Speakable cssSelector на коротком фрагменте. Если на странице нет выделенного «голосового» куска текста, Алиса берёт первое, что похоже на ответ, — и это редко именно ваша компания.

02Маруся — VK

Маруся работает в контуре VK и читает структурированный контент так же

Маруся — голосовой ассистент VK, доступный в приложениях экосистемы и на колонках VK. Механика та же, что у Алисы: ассистент отдаёт пользователю короткий устный ответ, а не список ссылок. Технически Маруся опирается на тот же международный язык разметки — SpeakableSpecification, FAQPage, WebPage, — поэтому отдельной «оптимизации под Марусю» не существует. Корректный AEO-слой, собранный один раз, работает и на Алису, и на Марусю одновременно: одна разметка — два канала зачитывания.

03ChatGPT Voice

ChatGPT Voice озвучивает ответ языковой модели, опирающейся на Schema

ChatGPT Voice — голосовой режим ChatGPT: пользователь задаёт вопрос вслух и получает устный ответ от модели. В отличие от Алисы и Маруси, ChatGPT не привязан к российскому индексу — он опирается на собственное знание и на цитируемые источники с корректной Schema.org-разметкой. Для попадания в его ответ важны те же сигналы, что и для текстового GEO: Organization с полным NAP, Service / Product / Article, FAQPage. Голосовой режим лишь меняет форму подачи — требования к структуре данных остаются прежними.

Общая логика нейросетевого канала и механика Yandex GPT, на котором держатся Алиса и Маруся, — на pillar-странице GEO. Голосовой ответ и текстовый Featured Snippet собираются одним механизмом — подробнее в руководстве по Featured Snippets.

Speakable Schema

SpeakableSpecification — спецификация, лимиты и примеры

Speakable — это свойство в Schema.org, которое помечает конкретный фрагмент страницы как пригодный для зачитывания вслух. Технически это узел типа SpeakableSpecification внутри WebPage или FAQPage, в котором указывается, какие именно элементы страницы ассистент может произнести. Без этого свойства Алиса и Маруся всё равно могут процитировать сайт, но возьмут первый похожий на ответ фрагмент — и это редко именно тот текст, который вы хотели бы услышать в выдаче.

Указать фрагмент можно двумя способами: cssSelector или xpath. cssSelector привязывает Speakable к CSS-классу — например .voice-summary или .faq-short-answer; он короче, читаемее и переживает изменения вёрстки. xpath указывает путь в DOM-дереве — он точнее в сложных случаях, но хрупок: любая перестройка разметки его ломает. На практике для большинства сайтов достаточно cssSelector — отдельный класс на «голосовом» абзаце решает задачу.

Главный лимит — длина. SpeakableSpecification рассчитан примерно на 60 секунд устной речи, то есть около 50 слов. Speakable, повешенный на длинный абзац или на весь раздел статьи, обрезается в случайном месте или игнорируется целиком. Поэтому селектор должен указывать на заранее подготовленный фрагмент в 50 слов, а не на произвольный кусок контента. Ниже — два корректных примера: Speakable через cssSelector в узле WebPage и через xpath в узле FAQPage.

Speakable редко работает в одиночку: ассистент должен ещё понимать тематический контекст страницы — кто компания, что за услуга, что за продукт. Это даёт Schema.org-разметка Service / Product / Article в связке с Organization. Полный разбор узлов и примеры JSON-LD по вертикалям — на странице про Schema.org.

Пошаговая инструкция

Как написать текст под голос — шесть шагов

Голосовой текст пишется иначе, чем текст под глаза: он должен звучать как ответ человека в разговоре. Шесть шагов ниже — это конкретная процедура от сбора реальных голосовых запросов до проверки фрагмента на слух. Полный цикл по странице — около двух недель силами контент-редактора и разработчика; с нашей стороны это часть Build-пакета.

  1. 01

    Соберите реальные голосовые запросы

    Голосовой запрос звучит иначе, чем текстовый: вместо «ПЭТ упаковка Москва купить» человек спрашивает «где купить ПЭТ-упаковку в Москве». Это полные вопросительные конструкции — «где», «как», «сколько стоит», «кто делает». Соберите такие формулировки из обращений в продажи, из подсказок Yandex и из того, как клиенты реально описывают задачу голосом. Этот список вопросов становится каркасом для FAQPage и для «голосовых» абзацев на посадочных страницах.

  2. 02

    Напишите прямой ответ в первые 15-20 слов

    Структура «50-словного ответа»: первое предложение прямо отвечает на вопрос — кратко, без вводных, без истории вопроса. Если запрос «сколько стоит SEO-аудит» — первая фраза называет вилку цены и срок. Это то, что ассистент зачитает вслух за первые секунды. Не начинайте с «это зависит от многих факторов» — для голоса такой ответ бесполезен, пользователь уходит к следующему источнику в выдаче.

  3. 03

    Добавьте расшифровку в следующие 30 слов

    После прямого ответа идут ещё примерно 30 слов расшифровки: условия, оговорки, что входит, от чего зависит цена или срок. Вместе первая фраза и расшифровка дают связный фрагмент около 50 слов — ровно столько, сколько помещается в 60 секунд устной речи. Этот абзац пишется как разговорная реплика: короткие предложения, расшифрованные термины, никаких визуальных отсылок вроде «см. таблицу ниже».

  4. 04

    Оберните фрагмент в класс для Speakable

    «Голосовой» абзац получает отдельный CSS-класс — например .voice-summary для лида или .faq-short-answer для коротких ответов FAQ. Класс должен охватывать только сам фрагмент в 50 слов, а не весь раздел. Именно на этот селектор затем ссылается SpeakableSpecification в JSON-LD. Один и тот же класс используется на всех однотипных блоках страницы, чтобы разметка оставалась согласованной и предсказуемой.

  5. 05

    Привяжите SpeakableSpecification через cssSelector

    В JSON-LD узла WebPage или FAQPage добавляется поле speakable с типом SpeakableSpecification и массивом cssSelector — например [".voice-summary", ".faq-short-answer"]. cssSelector точнее xpath и переживает изменения вёрстки. На странице с блоком вопрос-ответ Speakable вешается на FAQPage, на пилларе или лендинге — на WebPage. Разметку проверяют валидатором schema.org и разделом «Структурированные данные» в Yandex Webmaster.

  6. 06

    Проверьте на слух и измеряйте регулярно

    Финальная проверка — задать запрос голосом Алисе, Марусе и ChatGPT Voice и послушать, что зачитывает ассистент: ваш фрагмент, конкурента или ничего. Прочитайте «голосовой» абзац вслух сами — если на слух он рассыпается, переписывайте. Дальше — регулярный замер: 5-10 голосовых запросов раз в неделю, фиксация результата в таблице. Без лога нет данных, есть только впечатления.

Типичные ошибки

Четыре способа сделать Speakable бесполезным

Эти ошибки встречаются не у новичков, а в разметке, которая на первый взгляд выглядит корректно. Speakable формально валиден, но ассистент либо обрезает фрагмент, либо зачитывает не то — потому что «голосовой» абзац написан как текст под глаза, а не под слух.

Speakable на длинных абзацах

SpeakableSpecification рассчитан примерно на 60 секунд речи — около 50 слов. Если cssSelector указывает на параграф из 200 слов или на h2 без выраженного ответа, Алиса и Маруся либо обрежут фрагмент в случайном месте, либо просто проигнорируют разметку. Решение — отдельный класс вроде .voice-summary или .faq-short-answer, привязанный только к заранее написанным «голосовым» 30-50 словам, а не ко всему телу статьи.

Технический жаргон в голосовом ответе

Текст, который хорошо читается глазами, на слух может рассыпаться: аббревиатуры, англицизмы, длинные перечни в скобках, ссылки «см. выше». Ассистент зачитывает фрагмент дословно — и пользователь слышит нечитаемую вслух конструкцию. Решение — писать «голосовой» абзац так, будто вы отвечаете человеку в разговоре: короткие предложения, расшифрованные термины, никаких визуальных отсылок к остальной странице.

Числовые списки без расшифровки

Speakable на маркированном списке из цифр («7, 14, 50, 350») даёт ассистенту набор чисел без контекста — пользователь слышит цифры, но не понимает, что они значат. Голосовой ответ должен быть связным предложением, а не таблицей. Решение — если фрагмент содержит числа, оберните их в полноценную фразу: не «50 слов», а «прямой ответ занимает около пятидесяти слов в начале параграфа».

Speakable без прямого ответа в первой фразе

Частая ошибка — привязать Speakable к абзацу, который начинается с вводных слов, истории вопроса или дисклеймера. Ассистент зачитает именно начало — и пользователь услышит «вопрос этот непростой, и здесь много нюансов» вместо ответа. Решение — первое предложение «голосового» фрагмента должно прямо отвечать на вопрос в 15-20 словах, а расшифровка идёт следом.

Заявка на AEO-аудит

Проверить, слышат ли вас Алиса и Маруся

Audit за 5-7 дней покажет, готов ли сайт к голосовому каналу: Speakable-разметка, FAQPage, структура «50-словного ответа», прогон голосовых запросов через Алису и Марусю. На основе отчёта решаете — внедрять самостоятельно или брать Build под ключ. Полный AEO-аудит и обзор всей экосистемы — в разделе SEO + GEO + AEO.

Кейс

Design Studio U — референсный стек для голосового слоя

Design Studio U — клиент спецайти, на котором голосовой AEO-слой собран как технический референс: Speakable на «голосовых» абзацах, HowTo для процессных страниц и DefinedTermSet для терминов. Эта связка показывает, как Speakable, прямой ответ в 50 слов и тематический контекст Schema.org работают вместе, а не по отдельности. Тот же стек мы переносим на проекты в других вертикалях — от производства до услуг.