page_3
Различия
Показаны различия между двумя версиями страницы.
| Предыдущая версия справа и слеваПредыдущая версияСледующая версия | Предыдущая версия | ||
| page_3 [2026/02/08 15:59] – makar | page_3 [2026/02/08 16:19] (текущий) – makar | ||
|---|---|---|---|
| Строка 1: | Строка 1: | ||
| ====== Часто задаваемые вопросы (FAQ) ====== | ====== Часто задаваемые вопросы (FAQ) ====== | ||
| - | ===== Почему система не может работать полностью автоматически без ручной корректировки разметки элементов? ===== | + | ===== С какой точностью |
| - | Основная сложность для | + | **Главная цель |
| + | Система | ||
| - | **Файлы высокого качества**: При работе с качественными файлами | + | Наряду |
| + | * Ошибками OCR при | ||
| + | * Низким качеством | ||
| + | * Дефектами сканирования (засветы, искажения) | ||
| + | * Плохой печатью или нечеткими символами | ||
| + | * Артефактами изображения | ||
| - | **Файлы низкого качества**: При работе с файлами худшего качества (тонкая просвечивающая бумага, нечеткие символы, засветы, дефекты | + | Система выделяет все обнаруженные различия, |
| - | * Текст или | + | - Просматривает каждое различие |
| - | * Изображения плохо пропечатаны | + | - Принимает решение — фактическое это различие |
| - | * Размытые или искаженные символы | + | - Подтверждает реальные различия и отклоняет ложные |
| - | * Деформация страниц | + | |
| - | Преимущество ручной разметки: Возможность ручной корректировки позволяет системе | + | Такой подход обеспечивает 100% обнаружение фактических ошибок при минимальных трудозатратах на проверку ложных срабатываний. |
| + | |||
| + | |||
| + | ===== Сколько времени занимает сравнение файлов? ===== | ||
| + | Время | ||
| + | * Сложность структуры документа | ||
| + | * Количество страниц | ||
| + | | ||
| + | |||
| + | **Сложность структуры: | ||
| + | |||
| + | Примерное время обработки: | ||
| + | * Машиночитаемые инструкции: | ||
| + | * Сканы инструкций: | ||
| + | * Упаковки (машиночитаемые и сканы): 2-5 минут | ||
| + | |||
| + | Максимальный совокупный размер двух сравниваемых файлов — 100 МБ. | ||
| Строка 23: | Строка 44: | ||
| - | + | ===== Файлы каких форматов поддерживает система? | |
| - | Файлы каких форматов поддерживает система? | + | |
| Поддерживаемые форматы: | Поддерживаемые форматы: | ||
| - | + | ===== Есть ли требования к качеству входных файлов? | |
| - | Есть ли требования к качеству входных файлов? | + | |
| Система позволяет сравнивать файлы любого качества, | Система позволяет сравнивать файлы любого качества, | ||
| - | * Разрешение: | + | |
| - | * Контрастность: | + | * Контрастность: |
| - | * Состояние документа: | + | * Состояние документа: |
| - | * Четкость: | + | * Четкость: |
| Если разрешение файла меньше 300 DPI, система предупредит об этом при загрузке, | Если разрешение файла меньше 300 DPI, система предупредит об этом при загрузке, | ||
| - |
Важно: | ||
| - | Система не может распознать текст лучше, чем это возможно для человеческого глаза. Если в исходном файле невозможно визуально отличить реальную ошибку от дефекта сканирования (например, | ||
| + | **
Важно: | ||
| - | Сколько пользователей одновременно могут работать в системе? | + | ===== Сколько пользователей одновременно могут работать в системе? |
| - | Создавать задачу | + | Система поддерживает одновременную работу неограниченного количества пользователей для следующих операций: |
| + | * Создание заданий на сравнение | ||
| + | * Просмотр отчетов о сравнении | ||
| + | * Скачивание отчетов | ||
| + | **Ограничение: | ||
| - | С какой точностью сравнивает | + | Если вы создали задание и нажали " |
| - | Главная цель системы - найти 100% фактических | + | * Система |
| + | * Ваше задание автоматически сохранится со статусом "Черновик" | ||
| + | * Все выделенные области и настройки сохранятся | ||
| + | После завершения текущего процесса сравнения: | ||
| + | - Откройте сохраненный черновик | ||
| + | - Нажмите " | ||
| + | - Все ранее выделенные области останутся на месте — их не нужно настраивать заново | ||
| - | Сколько | + | Увеличение количества |
| - | Время сравнения | + | |
| - | * Сложность структуры | + | |
| - | * Количество страниц | + | |
| - | * Размер файлов | + | |
| - | Сложность структуры: | ||
| - | Примерное время обработки: | + | ===== Почему при сравнении одинаковых файлов система все равно выдает различия? |
| - | * Машиночитаемые инструкции: | + | |
| - | * Сканы инструкций: | + | |
| - | * Упаковки (машиночитаемые и сканы): | + | |
| - | + | ||
| - | Ограничение: | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | Почему при сравнении одинаковых файлов система все равно выдает различия? | + | |
| Система настроена на максимальную чувствительность, | Система настроена на максимальную чувствительность, | ||
| Причины ложных срабатываний: | Причины ложных срабатываний: | ||
| - | * Низкое качество исходных файлов | + | |
| - | * Дефекты сканирования (засветы, | + | * Дефекты сканирования (засветы, |
| - | * Незначительные различия в рендеринге PDF | + | * Незначительные различия в рендеринге PDF |
| - | * Неточности OCR при распознавании текста | + | * Неточности OCR при распознавании текста |
| Система выдает все потенциальные различия, | Система выдает все потенциальные различия, | ||
| Строка 81: | Строка 95: | ||
| + | ===== Почему система не может работать полностью автоматически без ручной корректировки разметки элементов? | ||
| + | Основная сложность для системы — огромное разнообразие входных файлов по качеству и оформлению. | ||
| - | Почему OCR (технология распознавания текста) может ошибаться даже при хорошем качестве файлов? | + | **Файлы высокого качества**: |
| + | |||
| + | **Файлы низкого качества**: | ||
| + | * Текст или изображения перекрываются засветами | ||
| + | * Изображения плохо пропечатаны | ||
| + | * Размытые или искаженные символы | ||
| + | * Деформация страниц | ||
| + | |||
| + | **Преимущество ручной разметки: | ||
| + | |||
| + | |||
| + | ===== Почему OCR (технология распознавания текста) может ошибаться даже при хорошем качестве файлов? | ||
| OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы. | OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы. | ||
| - | Специфика работы OCR: | + | |
| OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки: | OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки: | ||
| - | * Похожие символы могут быть перепутаны (например, | + | |
| - | * Слитные или поврежденные символы могут быть распознаны неверно | + | * Слитные или поврежденные символы могут быть распознаны неверно |
| - | * Необычные шрифты или размеры могут снижать точность | + | * Необычные шрифты или размеры могут снижать точность |
| - | * Фоновый шум на изображении может мешать распознаванию | + | * Фоновый шум на изображении может мешать распознаванию |
| Ошибки OCR возможны только при работе со сканами, | Ошибки OCR возможны только при работе со сканами, | ||
| Строка 95: | Строка 122: | ||
| - | + | ===== Заголовок захватывает сразу несколько столбцов текста | |
| - | Заголовок захватывает сразу несколько столбцов текста | + | |
| При автоматическом распознавании структуры документа заголовки, | При автоматическом распознавании структуры документа заголовки, | ||
| - | Решение: | + | **Решение: |
| - | Альтернативный вариант: | + | **Альтернативный вариант: |
| - | * Запустить ручную разметку после первичного сравнения | + | * Запустить ручную разметку после первичного сравнения |
| - | * Вручную указать правильные границы текстовых столбцов | + | * Вручную указать правильные границы текстовых столбцов |
| - | * Запустить повторное сравнение | + | * Запустить повторное сравнение |
| Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками. | Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками. | ||
| - | Почему в отчете много ложных различий, | + | ===== Почему в отчете много ложных различий, |
| Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла. | Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла. | ||
| - | Как проверить корректность распознавания: | ||
| В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов: | В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов: | ||
| - | * Красный цвет — таблицы | + | |
| - | * Зеленый цвет — изображения | + | * Зеленый цвет — изображения |
| - | * Синий/ | + | * Синий/ |
| - | Типичные ошибки распознавания: | + | **Типичные ошибки распознавания: |
| - | * Два текстовых столбца залиты одним цветом → система определила их как единый столбец | + | * Два текстовых столбца залиты одним цветом → система определила их как единый столбец |
| - | * Изображение не выделено цветом → система не обнаружила изображение | + | * Изображение не выделено цветом → система не обнаружила изображение |
| - | * Таблица выделена зеленым вместо красного → система распознала таблицу как изображение | + | * Таблица выделена зеленым вместо красного → система распознала таблицу как изображение |
| Что делать при обнаружении ошибок: | Что делать при обнаружении ошибок: | ||
| - | 1. Не анализируйте список различий — они будут некорректными из-за неправильного распознавания структуры | + | - Не анализируйте список различий — они будут некорректными из-за неправильного распознавания структуры |
| - | 2. В отчете (статус " | + | |
| - | 3. Вручную скорректируйте разметку элементов: | + | |
| * Выделите пропущенные изображения | * Выделите пропущенные изображения | ||
| * Правильно обозначьте границы каждого текстового столбца | * Правильно обозначьте границы каждого текстового столбца | ||
| * Исправьте неверно определенные таблицы | * Исправьте неверно определенные таблицы | ||
| * И так далее | * И так далее | ||
| - | 4. Запустите повторное сравнение | + | - Запустите повторное сравнение |
| После ручной корректировки вы получите корректный отчет с точными результатами сравнения. | После ручной корректировки вы получите корректный отчет с точными результатами сравнения. | ||
| Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, | Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, | ||
page_3.1770555572.txt.gz · Последнее изменение: — makar
