Перейти к содержимому

llms.txt — спецификация и применение

llms.txt — что это, как составить и для чего бизнесу

llms.txt — это Markdown-файл в корне сайта, в котором куратор бренда выделил для LLM-краулеров (GPTBot, ClaudeBot, PerplexityBot, YandexGPTBot) самые важные страницы. Это «человекочитаемый sitemap для нейросетей». Спецификация — llmstxt.org (Jeremy Howard, сентябрь 2024). К 2026 году llms.txt — де-факто стандарт.

llms.txt — один из кураторских сигналов GEO. Это часть слоя оптимизации под нейросети наряду со Schema.org-разметкой и графом знаний — но самый быстрый в реализации.

Что такое llms.txt

Определение, спецификация llmstxt.org и история термина

llms.txt — это текстовый файл в формате Markdown, размещаемый в корне домена по адресу /llms.txt. В нём владелец сайта вручную отбирает самые важные страницы и снабжает каждую короткой аннотацией. Файл адресован не браузеру и не классическому поисковому роботу, а LLM-краулерам — программам, которые собирают данные для языковых моделей: GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot от Perplexity, YandexGPTBot от Яндекса.

Спецификация опубликована на llmstxt.org. Её автор — Джереми Ховард, сооснователь fast.ai и Answer.AI, известный исследователь в области прикладного машинного обучения. Предложение появилось в сентябре 2024 года как ответ на конкретную проблему: контекстное окно языковой модели ограничено, а типовой сайт устроен для человека с мышью и навигацией — ката­логи, фасетные фильтры, всплывающие меню. Краулеру нужен компактный, заранее отобранный маршрут, а не весь HTML целиком.

За полтора года после публикации llms.txt прошёл путь от инициативы одного исследователя до де-факто стандарта. К 2026 году файл публикуют Anthropic, Perplexity и большое число коммерческих сайтов. Это не утверждённый стандарт консорциума W3C — у него нет обязательной силы. Но индустрия приняла его так же, как когда-то приняла robots.txt: не по принуждению, а потому что он решает реальную задачу малой ценой. Подробнее о месте llms.txt в общей картине оптимизации под нейросети — на pillar-странице GEO.

«Человекочитаемый sitemap для нейросетей»

Самое короткое определение llms.txt — это sitemap, написанный для языковой модели человеческим языком. sitemap.xml перечисляет все URL без объяснений и порядка важности; llms.txt выбирает главное и поясняет, что и зачем. Машина читает первый, нейросеть опирается на второй.

Зачем это бизнесу

Что llms.txt даёт нейросети — и чего не даёт sitemap.xml

Когда LLM-краулер приходит на сайт без llms.txt, он действует наугад: идёт по ссылкам из навигации, пытается понять структуру по HTML, тратит ограниченное контекстное окно на служебные страницы, фильтры и дубли. У него нет способа узнать, что страница каталога важнее страницы вакансий, а ключевой кейс важнее архивной новости. Решение о важности он принимает сам — и часто ошибается, потому что устроен под обход, а не под понимание приоритетов бизнеса.

llms.txt снимает эту неопределённость. Файл говорит нейросети прямо: вот пятнадцать страниц, которые я считаю определяющими для понимания моей компании, и вот человеческие пояснения к каждой. Это кураторский сигнал от владельца — тот же по природе, что мета-теги или Schema.org-разметка, но адресованный конкретно языковым моделям. Нейросеть получает не сырой HTML, а уже осмысленный, отобранный и прокомментированный маршрут.

sitemap.xml эту задачу не решает и не должен. Он создан для поисковых роботов и оптимизирован под полноту индексации: все URL, даты последнего изменения, частота обновления — машинные поля без смысловых пояснений. sitemap отвечает на вопрос «какие страницы существуют»; llms.txt отвечает на вопрос «какие страницы понимают бизнес и что на них». Это разные оси: охват против кураторского смысла, машина против языковой модели. Поэтому файлы дополняют друг друга, а не конкурируют.

Формат файла

Структура llms.txt — четыре элемента спецификации

Спецификация llmstxt.org намеренно минималистична — это обычный Markdown без новых синтаксических конструкций. Любой редактор с превью отрендерит файл как чистый документ. Структура состоит из четырёх элементов: заголовка, слогана, секций и ссылок с аннотациями.

01Header

H1 с названием бренда

Файл открывается заголовком первого уровня — названием компании или проекта. Это единственный обязательный элемент спецификации llmstxt.org. Заголовок задаёт LLM-краулеру контекст: чей это индекс и о какой сущности идёт речь. Формулировка короткая, без слогана и без описания деятельности — только имя бренда так, как оно звучит в реальном употреблении.

02Tagline

Краткий слоган в формате blockquote

Сразу под заголовком — блок цитаты (строка, начинающаяся с «>») с одним-двумя предложениями о том, чем занимается компания. Это резюме сущности, которое нейросеть может процитировать дословно. Здесь уместно назвать профиль, географию и ключевую специализацию — то, что вы хотите услышать в ответе нейросети про свой бренд.

03Sections

Секции с заголовками второго уровня

Дальше файл делится на тематические секции через заголовки H2: «Каталог», «Услуги», «Кейсы», «Контакты», «Документация». Секции группируют ссылки по смыслу так же, как разделы в меню сайта. Спецификация допускает необязательную секцию в конце для второстепенных ссылок — то, что можно пропустить при ограниченном контексте.

04Links

Маркдаун-ссылки с аннотациями

Внутри каждой секции — список маркдаун-ссылок вида «[Название](/path/)» с короткой аннотацией после тире. Аннотация в одну-две строки объясняет, что находится по ссылке и почему она важна. Именно эти подписи отличают llms.txt от sitemap.xml: нейросеть читает их как человеческие пояснения и опирается на них при формировании ответа.

Примеры

Как выглядит llms.txt на практике

Спецификацию проще всего понять на готовых файлах. Ниже — два примера: фрагмент llms.txt самой спецайти (это наш собственный файл, мы контролируем его содержание) и обобщённая структурная заготовка для типового бизнес-сайта. Anthropic и Perplexity также публикуют свои llms.txt — это упоминается в самой спецификации; смотреть их стоит ради паттерна, а не ради копирования конкретных строк.

llms.txt спецайти — фрагмент

# спецайти

> Студия премиальных сайтов: дизайн-журнальная вёрстка,
> Schema.org-стек и оптимизация под нейросети (GEO/AEO).

## Услуги
- [SEO + GEO + AEO](/seo/) — полный стек видимости в поиске и нейросетях
- [AI-аудит сайта](/seo/audit/) — проверка готовности к Yandex GPT за 5-7 дней
- [Schema.org для бизнеса](/seo/schema-org/) — JSON-LD-разметка по вертикалям

## Материалы
- [Что такое GEO](/seo/geo/) — оптимизация под нейросети, 4 механизма
- [Как попасть в Yandex GPT](/seo/yandex-gpt/) — пошаговое руководство

## Контакты
- [Связаться со студией](/contacts/) — бриф, форматы работы, цены

Структурная заготовка

# Название компании

> Одно-два предложения о профиле, географии
> и ключевой специализации компании.

## Каталог
- [Категория А](/catalog/a/) — что это и для кого
- [Категория Б](/catalog/b/) — что это и для кого

## Кейсы
- [Кейс с тех-приложением](/cases/example/) — задача и результат

## Опционально
- [Архив новостей](/news/) — второстепенное, можно пропустить

Главный принцип в обоих примерах — отбор, а не полнота. В файле только те страницы, которые определяют понимание бизнеса: услуги, ключевые материалы, кейсы, контакты. Аннотация после тире написана человеческим языком и сама по себе является готовым фрагментом для цитирования нейросетью.

Пошаговая инструкция

Шесть шагов составления llms.txt

Каждый шаг — конкретное действие, не теоретический совет. Для типового бизнес-сайта весь файл собирается примерно за час-два работы силами контент-редактора и разработчика. Сложность не в синтаксисе, а в кураторском решении — что считать главным.

  1. 01

    Заголовок и идентификация бренда

    Создайте текстовый файл llms.txt и откройте его заголовком первого уровня — точным названием бренда. Пишите имя так, как оно реально употребляется: для спецайти это «спецайти» строчными буквами, для производителя — официальное название без сокращений и без юридической формы. Это якорь сущности: нейросеть связывает весь дальнейший индекс именно с этим именем, поэтому разнобой в написании здесь обходится дороже всего.

  2. 02

    Краткий слоган в blockquote

    Под заголовком добавьте блок цитаты с одним-двумя предложениями о профиле компании. Это резюме, которое LLM-краулер может процитировать целиком, поэтому формулируйте его как готовый ответ на вопрос «что это за компания». Укажите специализацию, географию работы и ключевое отличие. Избегайте маркетинговых клише вроде «лидер рынка» — нейросети считывают их как шум и не цитируют.

  3. 03

    Разбивка на секции

    Разделите файл на тематические секции через заголовки второго уровня по логике сайта: каталог или услуги, кейсы, статьи, контакты. Порядок секций имеет значение — наиболее важное ставьте выше, потому что при ограниченном контекстном окне краулер читает файл сверху вниз. Для второстепенных ссылок спецификация резервирует необязательную секцию в конце, которую модель может пропустить.

  4. 04

    Маркдаун-ссылки с аннотациями

    В каждую секцию добавьте список ссылок в формате «[Название](/path/) — аннотация». Указывайте абсолютные или корневые пути к реальным, индексируемым страницам. Аннотация в одну-две строки объясняет содержание страницы человеческим языком. Для бизнеса достаточно 10-15 ссылок на главные разделы — раздувать файл всем сайтом не нужно, ценность llms.txt именно в кураторском отборе.

  5. 05

    Валидация формата

    Проверьте файл на соответствие спецификации llmstxt.org: один H1 в начале, корректный blockquote, заголовки секций второго уровня, валидный синтаксис маркдаун-ссылок, отсутствие битых путей. Откройте файл в любом просмотрщике Markdown — он должен рендериться как чистый, читаемый документ. Прогоните пути через проверку ссылок, чтобы в индексе не осталось страниц с 404 или редиректами.

  6. 06

    Deploy в корень сайта

    Разместите файл по адресу /llms.txt в корне домена — так же, как robots.txt и sitemap.xml. Для статического экспорта на Next.js это файл в каталоге public. Убедитесь, что он отдаётся с типом text/plain или text/markdown и кодом 200. Поддерживайте файл в актуальном состоянии: при добавлении важных разделов или смене структуры сайта обновляйте llms.txt вместе с остальной разметкой.

Валидация

Где проверить и как протестировать llms.txt

Отдельного официального валидатора у llms.txt пока нет — спецификация молодая, и индустриальный инструмент уровня Schema Markup Validator ещё не появился. Практическая проверка состоит из трёх шагов. Откройте файл в любом просмотрщике Markdown — корректный llms.txt рендерится как аккуратный документ с одним заголовком, цитатой и списками. Сверьте структуру со спецификацией на llmstxt.org. Прогоните все пути через чекер ссылок, чтобы исключить 404 и редиректы.

После деплоя проверьте, что файл реально доступен: /llms.txt должен отдаваться с кодом 200 и текстовым типом контента. Самый честный функциональный тест — задать нейросети brand-trigger запрос и посмотреть, насколько точно она описывает структуру вашего предложения; это часть AI-аудита.

Связка с robots.txt

llms.txt работает в паре с allow-list в robots.txt

llms.txt подсказывает нейросети маршрут, но robots.txt решает, пустят ли краулера на сайт вообще. Эти файлы работают в связке: бессмысленно публиковать кураторский индекс, если robots.txt закрывает доступ LLM-краулерам. Поэтому к llms.txt добавляют явный allow-list для GPTBot, ClaudeBot, PerplexityBot и YandexGPTBot — он снимает любую неоднозначность и сообщает каждому AI-краулеру, что сайт для него открыт.

robots.txt — allow-list для LLM-краулеров

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: YandexGPTBot
Allow: /

Sitemap: https://example.ru/sitemap.xml

Явный allow-list — это страховка от непреднамеренной блокировки: широкие правила Disallow или агрессивные настройки CDN иногда отрезают AI-краулеров заодно с нежелательными ботами. Перечислив каждого по имени, вы фиксируете намерение явно. Эта связка — llms.txt плюс allow-list — входит в базовый GEO-стек наряду со Schema.org-разметкой; подробный разбор всего стека под Яндекс — в руководстве по Yandex GPT.

FAQ

Четыре вопроса про llms.txt

Короткие ответы (.faq-short-answer) выделены для голосовых ассистентов через Speakable Schema — Алиса и Маруся могут зачитывать их вслух.

Чем llms.txt отличается от robots.txt и sitemap.xml?

robots.txt управляет доступом краулеров, sitemap.xml перечисляет все URL для индексации, а llms.txt — кураторский человекочитаемый индекс ключевых страниц с аннотациями специально для языковых моделей.

Эти три файла решают разные задачи и не заменяют друг друга. robots.txt — это правила доступа: какому краулеру что разрешено или запрещено обходить. sitemap.xml — машинный перечень всех URL сайта с датами обновления, он нужен поисковым роботам для полноты индексации. llms.txt — третий файл другого назначения: это не «весь сайт», а отобранные владельцем 10-15 самых важных страниц с человеческими аннотациями, написанными так, чтобы языковая модель могла их процитировать. sitemap для машин и про охват, llms.txt для нейросетей и про кураторский смысл. На сайте имеют смысл все три одновременно.

llms.txt обязателен? Что будет, если его не публиковать?

Формально не обязателен — это не стандарт W3C. Но к 2026 году это де-факто норма: без llms.txt LLM-краулеры обходят сайт наугад, без кураторских подсказок от владельца.

Спецификация llms.txt — это не официальный стандарт консорциума, а инициатива Джереми Ховарда, опубликованная на llmstxt.org в сентябре 2024 года. Юридически опубликовать файл вас никто не обязывает, и сайт без него продолжит работать. Но к 2026 году llms.txt стал де-факто стандартом — его публикуют Anthropic, Perplexity и множество коммерческих сайтов. Без файла LLM-краулеры GPTBot, ClaudeBot и PerplexityBot всё равно обойдут сайт, но без вашей кураторской подсказки: они пойдут по ссылкам наугад и сами решат, что считать важным. llms.txt стоит примерно час работы и убирает эту неопределённость — поэтому отказываться от него нет практических причин.

Сколько ссылок должно быть в llms.txt для бизнес-сайта?

Для большинства бизнес-сайтов оптимально 10-15 ссылок на ключевые разделы. Ценность llms.txt в кураторском отборе, а не в полноте — для полного охвата есть sitemap.xml.

Жёсткого лимита спецификация не задаёт, но смысл файла — именно в отборе. Если вы продублируете в llms.txt весь sitemap, файл потеряет назначение: нейросеть снова окажется перед недифференцированным списком. Для типового бизнес-сайта достаточно 10-15 ссылок, охватывающих главные разделы: каталог или услуги, ключевые посадочные страницы, важные статьи, кейсы, контакты. В кейсе Pet Industria мы отобрали 12 ключевых страниц из существенно большего сайта — этого хватило, чтобы нейросеть видела структуру предложения. Крупный сайт с обширной документацией может позволить больше секций, но принцип тот же: каждая ссылка должна быть осознанно важной.

Где проверить, что llms.txt составлен правильно?

Откройте файл в любом просмотрщике Markdown — он должен рендериться как чистый документ. Проверьте структуру по спецификации llmstxt.org и прогоните все пути на отсутствие битых ссылок.

Отдельного официального валидатора у llms.txt пока нет — спецификация молодая. Практическая проверка состоит из трёх шагов. Первый: открыть файл в Markdown-просмотрщике (любой редактор с превью, GitHub, онлайн-рендер) — корректный llms.txt выглядит как аккуратный документ с одним заголовком, цитатой и списками. Второй: сверить структуру со спецификацией на llmstxt.org — один H1, blockquote-слоган, секции через H2, ссылки в валидном маркдаун-синтаксисе. Третий: прогнать все пути через любой чекер ссылок, чтобы в индексе не осталось 404 и редиректов. После деплоя убедитесь, что /llms.txt отдаётся с кодом 200 и текстовым типом контента.

Заявка на AI-аудит

Проверить, готов ли ваш сайт к LLM-краулерам

llms.txt — лишь один из кураторских сигналов. Audit за 5-7 дней покажет всю картину: Schema-стек, sameAs-граф, llms.txt, allow-list для AI-краулеров, AI-mention baseline. На основе отчёта решаете, делать самостоятельно или брать Build под ключ.

Вернуться к обзору всего стека — SEO + GEO + AEO. Перейти сразу к заявке — AI-аудит сайта.