Содержание

Часто задаваемые вопросы (FAQ)

Часто задаваемые вопросы (FAQ)

С какой точностью сравнивает система?

Главная цель системы: Обнаружение 100% фактических различий между файлами. Система использует максимально чувствительные алгоритмы для выявления всех потенциальных различий. Это гарантирует, что ни одно реальное различие не будет пропущено.

Наряду с реальными различиями система может выявить ложноположительные различия, вызванные:

Ошибками OCR при распознавании текста со сканов
Низким качеством исходных файлов
Дефектами сканирования (засветы, искажения)
Плохой печатью или нечеткими символами
Артефактами изображения

Система выделяет все обнаруженные различия, после чего пользователь:

Просматривает каждое различие
Принимает решение — фактическое это различие или ложное срабатывание
Подтверждает реальные различия и отклоняет ложные

Такой подход обеспечивает 100% обнаружение фактических ошибок при минимальных трудозатратах на проверку ложных срабатываний.

Сколько времени занимает сравнение файлов?

Время сравнения зависит от нескольких факторов:

Сложность структуры документа
Количество страниц
Размер файлов

Сложность структуры: Простые документы (стандартный формат А4 с обычным текстом) обрабатываются быстрее. Сложные макеты (типографские документы с мелким шрифтом, многоколоночной версткой, большим количеством изображений) требуют больше времени.

Примерное время обработки:

Машиночитаемые инструкции: около 1 минуты
Сканы инструкций: 2-5 минут
Упаковки (машиночитаемые и сканы): 2-5 минут

Максимальный совокупный размер двух сравниваемых файлов — 100 МБ.

С какими языками работает система?

Система поддерживает широкий спектр языков, включая все наиболее распространенные языки мира.

Рекомендация: Перед началом работы с большим объемом документов на конкретном языке мы рекомендуем провести тестовое сравнение нескольких файлов, чтобы убедиться в корректности распознавания текста для вашего конкретного случая.

Если у вас возникли вопросы о поддержке конкретного языка или проблемы с качеством распознавания — обратитесь в службу поддержки, и мы поможем оптимизировать настройки системы для ваших документов.

Файлы каких форматов поддерживает система?

Поддерживаемые форматы: PDF, DOC, DOCX, PNG, JPEG, JPG

Есть ли требования к качеству входных файлов?

Система позволяет сравнивать файлы любого качества, однако для достижения наилучших результатов мы рекомендуем:

Разрешение: не менее 300 DPI (точек на дюйм)
Контрастность: черный текст на белом фоне без шумов и засветов
Состояние документа: страницы не должны быть смятыми, загнутыми или деформированными
Четкость: все символы и элементы должны быть различимы человеческим глазом

Если разрешение файла меньше 300 DPI, система предупредит об этом при загрузке, так как это может снизить качество и точность сравнения.

 Важно: Система не может распознать текст лучше, чем это возможно для человеческого глаза. Если в исходном файле невозможно визуально отличить реальную ошибку от дефекта сканирования (например, нечеткий или частично стертый символ), система также не сможет корректно определить природу этого дефекта. В таких случаях рекомендуется улучшить качество исходных файлов перед загрузкой в систему.

Сколько пользователей одновременно могут работать в системе?

Система поддерживает одновременную работу неограниченного количества пользователей для следующих операций:

Создание заданий на сравнение
Просмотр отчетов о сравнении
Скачивание отчетов

Ограничение: Процесс сравнения файлов может выполняться только для одного задания одновременно.

Если вы создали задание и нажали "Начать сравнение", пока уже выполняется сравнение другого пользователя:

Система уведомит вас об этом
Ваше задание автоматически сохранится со статусом "Черновик"
Все выделенные области и настройки сохранятся

После завершения текущего процесса сравнения:

Откройте сохраненный черновик
Нажмите "Начать сравнение" повторно
Все ранее выделенные области останутся на месте — их не нужно настраивать заново

Увеличение количества одновременных процессов сравнения находится в планах развития системы. В будущих версиях это ограничение будет снято.

Почему при сравнении одинаковых файлов система все равно выдает различия?

Система настроена на максимальную чувствительность, чтобы не пропустить ни одного фактического различия. Это означает, что результаты могут содержать как реальные различия, так и ложные срабатывания.

Причины ложных срабатываний:

Низкое качество исходных файлов
Дефекты сканирования (засветы, искажения)
Незначительные различия в рендеринге PDF
Неточности OCR при распознавании текста

Система выдает все потенциальные различия, включая сомнительные случаи. Финальное решение о том, является ли различие фактическим или это ложное срабатывание, принимает пользователь в процессе анализа отчета.

Такой подход гарантирует 100% обнаружение реальных различий — лучше проверить лишнее потенциальное различие, чем пропустить важную ошибку.

Почему система не может работать полностью автоматически без ручной корректировки разметки элементов?

Основная сложность для системы — огромное разнообразие входных файлов по качеству и оформлению.

Файлы высокого качества: При работе с качественными файлами (белый фон, четкие черные символы, высокое разрешение) система способна автоматически распознать все элементы без необходимости ручной корректировки.

Файлы низкого качества: При работе с файлами худшего качества (тонкая просвечивающая бумага, нечеткие символы, засветы, дефекты сканирования) автоматическое распознавание может быть затруднено. Типичные проблемы:

Текст или изображения перекрываются засветами
Изображения плохо пропечатаны
Размытые или искаженные символы
Деформация страниц

Преимущество ручной разметки: Возможность ручной корректировки позволяет системе успешно сравнивать файлы любого качества, особенно сканы с дефектами. Ручная разметка требуется только в тех случаях, когда автоматическое распознавание оказалось неточным.

Почему OCR (технология распознавания текста) может ошибаться даже при хорошем качестве файлов?

OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы.

OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки:

Похожие символы могут быть перепутаны (например, 0 и O, 1 и I)
Слитные или поврежденные символы могут быть распознаны неверно
Необычные шрифты или размеры могут снижать точность
Фоновый шум на изображении может мешать распознаванию

Ошибки OCR возможны только при работе со сканами, где текст представлен в виде изображения. При сравнении машиночитаемых файлов (PDF с текстовым слоем, DOC, DOCX) текст извлекается напрямую без использования OCR, поэтому ошибки распознавания в таких файлах исключены.

Заголовок захватывает сразу несколько столбцов текста

При автоматическом распознавании структуры документа заголовки, расположенные над несколькими текстовыми столбцами, могут помешать системе корректно определить количество столбцов. Если заголовок занимает ширину двух столбцов, система может интерпретировать всю страницу как одноколоночную структуру вместо двухколоночной.

Решение: Исключите такие заголовки из областей для сравнения на этапе подготовки задания. Это позволит системе правильно определить структуру столбцов и получить корректные результаты сравнения.

Альтернативный вариант: Если заголовки не были исключены на начальном этапе, потребуется:

Запустить ручную разметку после первичного сравнения
Вручную указать правильные границы текстовых столбцов
Запустить повторное сравнение

Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками.

Почему в отчете много ложных различий, хотя файлы хорошего качества?

Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла.

В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов:

Красный цвет — таблицы
Зеленый цвет — изображения
Синий/фиолетовый цвет — текстовые блоки и столбцы

Типичные ошибки распознавания:

Два текстовых столбца залиты одним цветом → система определила их как единый столбец
Изображение не выделено цветом → система не обнаружила изображение
Таблица выделена зеленым вместо красного → система распознала таблицу как изображение

Что делать при обнаружении ошибок:

Не анализируйте список различий — они будут некорректными из-за неправильного распознавания структуры
В отчете (статус "Ручная проверка") нажмите кнопку "Переразметить и сравнить"
Вручную скорректируйте разметку элементов:
- Выделите пропущенные изображения
- Правильно обозначьте границы каждого текстового столбца
- Исправьте неверно определенные таблицы
- И так далее
Запустите повторное сравнение

После ручной корректировки вы получите корректный отчет с точными результатами сравнения.

Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, влияющие на работу алгоритмов распознавания.