Главная цель системы: Обнаружение 100% фактических различий между файлами. Система использует максимально чувствительные алгоритмы для выявления всех потенциальных различий. Это гарантирует, что ни одно реальное различие не будет пропущено.
Наряду с реальными различиями система может выявить ложноположительные различия, вызванные:
Система выделяет все обнаруженные различия, после чего пользователь:
Такой подход обеспечивает 100% обнаружение фактических ошибок при минимальных трудозатратах на проверку ложных срабатываний.
Время сравнения зависит от нескольких факторов:
Сложность структуры: Простые документы (стандартный формат А4 с обычным текстом) обрабатываются быстрее. Сложные макеты (типографские документы с мелким шрифтом, многоколоночной версткой, большим количеством изображений) требуют больше времени.
Примерное время обработки:
Максимальный совокупный размер двух сравниваемых файлов — 100 МБ.
Система поддерживает широкий спектр языков, включая все наиболее распространенные языки мира.
Рекомендация: Перед началом работы с большим объемом документов на конкретном языке мы рекомендуем провести тестовое сравнение нескольких файлов, чтобы убедиться в корректности распознавания текста для вашего конкретного случая.
Если у вас возникли вопросы о поддержке конкретного языка или проблемы с качеством распознавания — обратитесь в службу поддержки, и мы поможем оптимизировать настройки системы для ваших документов.
Поддерживаемые форматы: PDF, DOC, DOCX, PNG, JPEG, JPG
Система позволяет сравнивать файлы любого качества, однако для достижения наилучших результатов мы рекомендуем:
Если разрешение файла меньше 300 DPI, система предупредит об этом при загрузке, так как это может снизить качество и точность сравнения.
Важно: Система не может распознать текст лучше, чем это возможно для человеческого глаза. Если в исходном файле невозможно визуально отличить реальную ошибку от дефекта сканирования (например, нечеткий или частично стертый символ), система также не сможет корректно определить природу этого дефекта. В таких случаях рекомендуется улучшить качество исходных файлов перед загрузкой в систему.
Система поддерживает одновременную работу неограниченного количества пользователей для следующих операций:
Ограничение: Процесс сравнения файлов может выполняться только для одного задания одновременно.
Если вы создали задание и нажали "Начать сравнение", пока уже выполняется сравнение другого пользователя:
После завершения текущего процесса сравнения:
Увеличение количества одновременных процессов сравнения находится в планах развития системы. В будущих версиях это ограничение будет снято.
Система настроена на максимальную чувствительность, чтобы не пропустить ни одного фактического различия. Это означает, что результаты могут содержать как реальные различия, так и ложные срабатывания.
Причины ложных срабатываний:
Система выдает все потенциальные различия, включая сомнительные случаи. Финальное решение о том, является ли различие фактическим или это ложное срабатывание, принимает пользователь в процессе анализа отчета.
Такой подход гарантирует 100% обнаружение реальных различий — лучше проверить лишнее потенциальное различие, чем пропустить важную ошибку.
Основная сложность для системы — огромное разнообразие входных файлов по качеству и оформлению.
Файлы высокого качества: При работе с качественными файлами (белый фон, четкие черные символы, высокое разрешение) система способна автоматически распознать все элементы без необходимости ручной корректировки.
Файлы низкого качества: При работе с файлами худшего качества (тонкая просвечивающая бумага, нечеткие символы, засветы, дефекты сканирования) автоматическое распознавание может быть затруднено. Типичные проблемы:
Преимущество ручной разметки: Возможность ручной корректировки позволяет системе успешно сравнивать файлы любого качества, особенно сканы с дефектами. Ручная разметка требуется только в тех случаях, когда автоматическое распознавание оказалось неточным.
OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы.
OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки:
Ошибки OCR возможны только при работе со сканами, где текст представлен в виде изображения. При сравнении машиночитаемых файлов (PDF с текстовым слоем, DOC, DOCX) текст извлекается напрямую без использования OCR, поэтому ошибки распознавания в таких файлах исключены.
При автоматическом распознавании структуры документа заголовки, расположенные над несколькими текстовыми столбцами, могут помешать системе корректно определить количество столбцов. Если заголовок занимает ширину двух столбцов, система может интерпретировать всю страницу как одноколоночную структуру вместо двухколоночной.
Решение: Исключите такие заголовки из областей для сравнения на этапе подготовки задания. Это позволит системе правильно определить структуру столбцов и получить корректные результаты сравнения.
Альтернативный вариант: Если заголовки не были исключены на начальном этапе, потребуется:
Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками.
Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла.
В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов:
Типичные ошибки распознавания:
Что делать при обнаружении ошибок:
После ручной корректировки вы получите корректный отчет с точными результатами сравнения.
Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, влияющие на работу алгоритмов распознавания.