Проверка текста по ключевым словам: Проверить текст на вхождение ключевых слов в режиме онлайн

Содержание

Текстометр — анализ сложности текста онлайн

Текстометр помогает бесплатно определить уровень сложности и читабельности текста, посчитать количество слов и знаков, найти среднюю длину слова и предложения, ключевые слова текста, рассчитать коэффициент лексического разнообразия текста, получить список слов текста и рассчитать время его чтения.

Русский как иностранный

Русский как родной

Определить

Вставить демо текст

О проекте

Текстометр помогает бесплатно определить уровень сложности текста на русском языке, рассчитать индексы удобочитаемости, узнать уровень текста по шкале CEFR, рассчитать посчитать количество слов и знаков, найти ключевые слова текста, рассчитать коэффициент лексического разнообразия текста, получить список слов из текста и рассчитать время его чтения, а также определить статистику по вхождению слов в лексические минимумы.

Уровень CEFR и ТРКИ/TORFL

Определение уровня сложности текста по шкале CEFR от А1 до С2 происходит автоматически, с помощью регрессионной модели, обученной на корпусе из 800 текстов из пособий по РКИ. В разделе Публикации вы можете найти статьи с более подробной информацией о том, как работает автоматическое определение сложности текста в нашем сервисе [2], о корпусе текстов из пособий РКИ RuFoLa [3] и о том, как использовать Текстометр на уроке русского языка [1].

Уровень ACTFL

Уровень сложности текста по шкале ACTFL предлагается с помощью таблицы соответствий CEFR и ACTFL в разделе рецептивных навыков. Подробнее о соответствиях здесь.

Может ли она ошибаться? Эксперименты показывают, что модель склонна немного завышать уровень сложности текста, поскольку она производит расчеты исходя из данных лексических минимумов. Практика же показывает, что студенты обычно знают (или угадывают из контекста) больше слов, чем в минимумах. Особенно это касается интернационализмов и слов, которые похоже звучат на родном языке ученика. Это стоит учитывать при подготовке текстов для славяно- или англоговорящих учеников. Подробнее об эксперименте со сравнением работы программы, мнения экспертов-преподавателей и самих студентов можно почитать здесь [4].

Оценка уровня сложности текста для школьников

Уровни сложности текста для иностранцев хорошо стандартизированы и задокументированы. В текстах для носителей языка понятие сложности текста многограннее: текст бывает написан короткими словами и фразами, что позволяет стандартным формулам читабельности отнести его к простым, но «продраться» сквозь незнакомые слова или стилистические особенности затруднительно.

Поэтому проверка текст на читабельность носителями языка наша система оценивает по двум критериям: структурная сложность и лексическая. Структурная сложность учитывает классическую формулу читабельности Флеша, адаптированную для русского языка, а также наличие частей речи и оборотов, затрудняющих чтение (причастия, пассивные формы и др.) Лексическая сложность рассчитывается на основании вхождения слов текста в специализированные частотные списки. Усредненная оценка по этим двум векторам сложности позволяет оценить уровень текста по возрасту и классу. Об этой технологии можно подробнее прочитать здесь [5].

Длина текста в словах, в знаках и предложениях

Объем текста в словах, знаках и предложениях являются базовыми характеристиками текста, особенно полезными для расчета времени, которое потребуется на его освоение, или при подготовке проверочных материалов, где объем текста обычно строго определен государственным стандартом по РКИ. Например, рекомендуемая длина текста для чтения уровня A1 составляет 250–300 слов, А2 – 600–700 слов и т.д.

Средняя длина слова и предложения

Подсчет средней длины слова и предложения служит для определения сложности текста или его отдельных фрагментов. Так, большое количество формул читабельности используют данные показатели в качестве основных (DuBay, 2004).

Коэффициент лексического разнообразия (lexical diversity)

Коэффициент лексического разнообразия рассчитывается как отношение количества уникальных слов текста к количеству всех слов текста и обозначается величиной от близкой к 0 до 1 (когда все слова в тексте уникальны и встретились только по одному разу). Эта мера полезна для оценки повторяемости, воспроизводимости лексики текста и также способна сигнализировать о его трудности. Например, коэффициент лексического разнообразия отрывка аутентичного публицистического текста в среднем составляет 0,8, а учебного текста уровня В1 – 0,5. Однако этот коэффициент стоит с осторожностью использовать на коротких учебных текстах: в одном абзаце, скорее всего, почти все знаменательные слова будут уникальны, тогда как в целом тексте более вероятно повторяются основные имена, локации, понятия и действия.

Поиск ключевых слов текста

Поиск ключевых слов текста вычисляется как отношение количества раз, которое слово встречается в анализируемом тексте к частоте слова по Национальному корпусу русского языка (мера TF/IDF с корректирующим коэффициентом). Наивысший рейтинг получают слова, которые часто встречаются в данном тексте, но редко – во всех других текстах корпуса, то есть максимально характерные именно для этого текста. Например, в тексте интервью с музыкантом слова музыка и рэп встречаются по три раза. Но при этом музыка встречается в Национальном корпусе 45 000 раз, а рэп – 270. С этой точки зрения, слово рэп является более характерным и необходимым для понимания данного текста. При этом появление слова в списке ключевых слов вовсе не означает, что оно должно остаться в тексте при адаптации: слово может быть заменено на синоним или снабжено толкованием. Его присутствие в списке говорит лишь о том, что оно играет важную роль для понимания данного текста и на него стоит обратить особое внимание при переработке текста.

Уровень сложности слов текста по шкале CEFR

Статистика по лексическим минимумам включает в себя информацию о том, сколько процентов текста покрывается лексическими минимумами того или иного уровня, а ниже указывается список слов, не вошедших в официальный лексический минимум стандартов ТРКИ данного уровня. Количество незнакомой лексики является важнейшим показателем языковой доступности текста: многочисленные исследования говорят о самой тесной связи знакомости лексики текста и успешности его понимания (Nation, 2006; Qian, 2002). Государственный стандарт по РКИ также содержит информацию о рекомендуемом количестве незнакомой лексики, который постепенно растет от 2–3% для уровня A1 до 10% для уровня C1.

Частотный анализ текста

Частотный анализ текста позволяет, во-первых, получить полный частотный список слов текста, а во-вторых, статистику по доле в тексте слов из списка 5 000 самых частотных слов русского языка. Для расчета статистики по частотности слов мы использовали Новый частотный словарь современного русского языка.

Расчетное время чтения текста

Расчет времени чтения текста опирается на информацию из государственного стандарта по РКИ и предлагает ориентировочное время чтения текста иностранным студентом в зависимости от задачи чтения – изучающего или просмотрового. Такая информация появляется в стандартах по РКИ начиная с уровня В1 и составляет для этого уровня 50 слов в минуту для изучающего чтения и 100 слов в минуту для просмотрового. Для уровней ниже В1 мы взяли на себя смелость продолжить эту шкалу расчетной скорости чтения исходя из педагогического опыта.

Виктория Максимова

преподаватель РКИ, основатель FB сообщества «Сторителлинг в РКИ»

Теперь, когда Текстометр появился, мне уже трудно представить, как бы я готовила тексты без него. Это незаменимый инструмент для моей работы: строгие объективные параметры оценки, простой и интуитивно понятный дизайн. Спасибо разработчикам проекта!

Анна Голубева

главный редактор издательства «Златоуст»

Сервис очень помогает в работе и при общении с авторами! Особенно полезен частотный список, объективирует, что целесообразно оставлять в тексте, а что адаптировать или тренировать. Спасибо коллегам из Института Пушкина!

Юлия Некрасова

преподаватель РКИ Университета Салерно

Очень ценная методическая находка! Огромный потенциал для подготовки заданий для уровней B1 — C1, диктантов, заданий для экзаменов и т.п. Прошу прощения за сленг, но огромный респект разработчикам!

Публикации

При ссылке на ресурс мы просим цитировать данную работу:

[1] Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. 2021. Т. 19. №3. C. 331-345

Ещё публикации о программе:

[2] Laposhina А. N., Veselovskaya Т. S., Lebedeva M. U., Kupreshchenko O. F. Automated Text Readability Assessment For Russian Second Language Learners // Komp’juternaja Lingvistika i Intellektual’nye Tehnologii Сер. «Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2018». Issue 17 (24), 2018

[3] Лапошина А.Н. Корпус учебников РКИ как инструмент анализа учебных материалов // Русский язык за рубежом. 2020. № 6 (283). С. 22-28

[4] Лапошина А. Н. Опыт экспериментального исследования сложности текстов по РКИ // Динамика языковых и культурных процессов в современной России [Электронный ресурс]. — Вып. 6. Материалы VI Конгресса РОПРЯЛ (г. Уфа, 11–14 октября 2018 года). — СПб.: РОПРЯЛ, 2018. С. 1154-1179

[5] Лапошина А. Н., Лебедева М.Ю., Берлин Хенис А.А. Влияние частотности слов текста на его сложность: экспериментальное исследование читателей младшего школьного возраста методом айтрекинга // Russian Journal of Linguistics. — 2022. — Т. 26. — №2. — C. 493-514.

Как расположение текста на странице влияет на ранжирование по ключевым словам

Текст — одна из наименее исследованных частей SEO, вокруг которой масса вопросов.

  • Насколько важен для ранжирования размер текста?
  • Какую длину считать идеальной?
  • Как на ранжирование влияют орфографические и грамматические ошибки, а также общая читабельность?

Кроме качественных характеристик текста, вопросы возникают и по его расположению на странице. SEO-специалисты и веб-разработчики часто используют фразу «видимое без прокрутки» (above the fold). Это обозначение текста, который отображается при загрузке без необходимости прокручивать страницу вниз.

Некоторые специалисты считают, что «видимый без прокрутки» контент важнее для SEO, чем тот, что расположен ниже на странице. Если быть точнее, важнее будут ключевые слова, которые присутствуют в этом тексте. Однако доказательств этой связи нет.



Читайте также:

Подробное руководство по текстовой SEO-оптимизации сайта


Джон Мюллер, представитель Google, в 2018 году отметил в Twitter, что расположение текста не является фактором ранжирования для поисковой системы.

Джон Мюллер уверял, что расположение контента неважно

Однако его коллега Гарри Иллайс отмечает, что расположение контента на странице может влиять на ранжирование. Он рассказал, что это особенно актуально для мобильных устройств, где текст отображается иначе, чем в десктопной версии сайта.

Чтобы проверить, как расположение текста влияет на ранжирование, британское WordPress-агентство Pedalo провело эксперимент.



Присоединяйтесь к нашему Telegram-каналу!

  • Теперь Вы можете читать последние новости из мира интернет-маркетинга в мессенджере Telegram на своём мобильном телефоне.
  • Для этого вам необходимо подписаться на наш канал.


Суть эксперимента

Специалисты агентства протестировали гипотезу: текст, который содержит ключевые слова и расположен внизу страницы (за пределами области «без прокрутки»), будет пессимизироваться Google при ранжировании по ключевым словам и будет располагаться ниже в поисковой выдаче, чем сайты с текстом в начале страницы.

Выбор ключевых слов

Чтобы провести эксперимент, специалисты создали набор ключевых слов, страниц с которыми в поисковой выдаче Google не существует. Это требовалось, чтобы у поисковой системы было как можно меньше информации об используемом термине, а пользователи бы его не искали. 

Ключевым словом стало “larantigranolo” — вымышленный продукт. После этого специалисты создали пять сайтов на WordPress:

  • prekenolosusa.uk;
  • wendevantoi.uk;
  • hajinadanlo.uk;
  • narimatoos. uk;
  • pasrengenio.uk со статьями о “larantigranolo” в 300 слов.

Продукт подавался как сорт кофе, от которого «все в восторге».

На пяти сайтах опубликовали статьи о larantigranolo

На всех сайтах указывался выдуманный регион, где собирают “larantigranolo” — “heventizazar”. Это было второе ключевое слово, которое отслеживали.

В статьях использовали одинаковое количество ключевых слов в примерно одних и тех же местах. Однако сам текст располагался в начале страницы или ниже. Чтобы оценить результат, специалисты отслеживали три ключевых слова:

  1. “larantigranolo coffee”;
  2. “larantigranolo”;
  3. “heventizazar”.

Важно отметить, что скорость индексации сайта Google могла повлиять на результаты. Все сайты запустили в один день, контент тоже был опубликован одновременно. Ни один из доменов ранее не использовался.

Специалисты не заходили на сайты из поисковой выдачи Google и не давали обратные ссылки на них. У всех сайтов была одна страница, чтобы предотвратить влияние другого контента на ранжирование. Дизайн и структура также были одинаковыми.



Читайте также:

Коммерческие факторы ранжирования для интернет-магазинов и сайтов услуг


Результаты

Чтобы оценить гипотезу, специалисты отслеживали ранжирование по ключевым словам пяти сайтов на протяжении двух месяцев.

Лучший результат показал сайт prekenolosusa.uk. Он ранжируется на первом месте по ключевым словам “larantigranolo coffee” и “heventizazar”. На этом сайте текст с ключевыми словами расположен высоко на странице.

Проверки выполнялись с использованием ПО, отслеживающего ранжирование страницы, с эмуляцией различного местоположения, а также вручную в браузере в режиме «инкогнито».

Сайт prekenolosusa.uk начал хорошо ранжироваться по ключевым словам в мае 2021 года и вышел на первое место в июне.

Показатели ранжирования для сайта prekenolosusa.uk

Если учитывать результаты этого сайта, гипотеза подтверждается: чем выше ключевые слова расположены на странице, тем лучше ранжирование. Однако не все сайты показывают аналогичные результаты.

В таблицах ниже представлены результаты ранжирования каждого сайта и указано, в какой части страницы расположено то или иное ключевое слово.

Результаты для ключевого слова “heventizazar”:

Гипотеза верна только для самого верхнего и самого нижнего размещения

Результаты для ключевого слова “larantigranolo coffee”:

Сайт с самым высоким размещением ключевого слова снова на первом месте

Результаты для ключевого слова “larantigranolo”:

Гипотезу сложно считать подтвержденной

Как видно из результатов, расположение текста на странице не всегда коррелирует с ранжированием. Однако сайт, на котором ключевые слова располагались в верхней части, демонстрирует лучшие результаты.



Читайте также:

Что такое поведенческие факторы сайта в Яндексе и почему они важны


В таблице ниже показано, как первое упоминание ключевого слова в одном из пяти абзацев коррелировало с ранжированием:

Сайт с самым ранним упоминание ключевого слова снова попал в топ

Таблица ниже показывает среднее ранжирование с учетом расположения всех трех ключевых слов:

И снова самый успешный сайт тот, где ключевые слова расположены выше

В обеих таблицах можно заметить, что сайт, в котором первое упоминание ключевого слова происходит в четвертом абзаце, ранжируется выше, чем предполагала гипотеза. Однако ранее уже упоминалось, что Google мог проиндексировать один сайт быстрее другого. Влияние могло оказать и построение предложений в тексте. В целом результаты подтверждают тренд, что расположение ключевых слов в зоне «видимое без прокрутки» может повлиять на ранжирование.

От теории к практике

При составлении долгосрочной SEO-стратегии веб-дизайнеры и контент-менеджеры должны учитывать расположение текста на сайте. Добавление в него ключевых слов в пределах «видимого без прокрутки» может улучшить ранжирование. 

Пишем правильные SEO-тексты

Сайт

Телефон

 

Источник: https://www.pedalo.co.uk/seo-experiment-text-position-keyword-rankings/

Проверка плотности ключевых слов → Инструменты для проверки SEO

Инструмент плотности ключевых слов.

Когда вы вводите URL-адрес или копируете и вставляете содержимое в поле ввода текста, этот инструмент извлекает общее количество ключевых слов, найденных в теле веб-страницы. После извлечения всех слов он автоматически рассчитает частоту / встречаемость для: комбинаций фраз из одного слова, комбинаций из двух слов и комбинаций слов из дерева. На основе этих чисел рассчитывается плотность ключевых слов.

Совет : Вам нужно ежедневно проверять больше URL-адресов? Keyword Density API →

Когда использовать этот инструмент?

(СОВЕТ) Хотите получить больше данных? Попробуйте API