Content Analyzer предназначен для анализа содержания тематических Web-страниц в реальном времени, выделения списков ключевых слов и словосочетаний, построения автореферата текста документа.
Content Analyzer в первую очередь будет полезен интернет-разработчикам для оптимизации своих Web-страниц под поисковые запросы и анализа чужих страниц выдаваемых поисковыми системами в результатах поиска по интересующим запросам.
Основные функциональные возможности
Content Analyzer имеет следующие основные функциональные возможности:
Возможность просмотра Web-страниц в интернете и с диска
Поддержка анализа содержания тематических Web-страниц на русском и английском языке
Поддержка кодировок текста Windows-1251, KOI8-R, ISO 8859-5
Динамическое выделение списков ключевых слов и словосочетаний
Динамическое построение автореферата текста документа
Возможности анализа списков ключевых слов и словосочетаний
Работа алгоритмов анализа в реальном времени
Основные расчетные характеристики
Content Analyzer определяет и рассчитывает следующие основные характеристики:
ЧА - частота термина/словосочетания в документе
ЧД - отношение частоты к числу слов документа
Я - язык
Тип - тип слова
А - аббревиатура
Н - возможное название
Ч - число
ВА - вес термина в документе (подсчитывается с учетом частоты и весовых коэффициентов)
ВД - вес термина к числу слов документа
FWID - ID полного слова
SWID - ID словоосновы
Порядок - внутренний порядок встречаемости словосочетаний/предоложений
ВСА - усредненный вес слов словосочетания/предложения
ЧС - число слов
Ограничения текущей версии
Текущая версия Content Analyzer является тестовой и предназначена для апробации алгоритмов и оптимизации настроек. Она имеет следующие ограничения:
Анализ и обработка текста ведется без словарей и тезаурусов