page_3
Различия
Показаны различия между двумя версиями страницы.
| Предыдущая версия справа и слеваПредыдущая версияСледующая версия | Предыдущая версия | ||
| page_3 [2026/02/08 16:01] – makar | page_3 [2026/02/08 16:19] (текущий) – makar | ||
|---|---|---|---|
| Строка 1: | Строка 1: | ||
| ====== Часто задаваемые вопросы (FAQ) ====== | ====== Часто задаваемые вопросы (FAQ) ====== | ||
| - | ===== Почему система не может работать полностью автоматически без ручной корректировки разметки элементов? ===== | + | ===== С какой точностью |
| - | Основная сложность для | + | **Главная цель |
| + | Система | ||
| - | **Файлы высокого качества**: При работе с качественными файлами | + | Наряду |
| + | * Ошибками OCR при | ||
| + | * Низким качеством | ||
| + | * Дефектами сканирования (засветы, искажения) | ||
| + | * Плохой печатью или нечеткими символами | ||
| + | * Артефактами изображения | ||
| - | **Файлы низкого качества**: При работе с файлами худшего качества (тонкая просвечивающая бумага, нечеткие символы, засветы, дефекты | + | Система выделяет все обнаруженные различия, |
| - | * Текст или | + | - Просматривает каждое различие |
| - | | + | - Принимает решение — фактическое это различие |
| - | * Размытые или искаженные символы | + | |
| - | * Деформация страниц | + | |
| - | **Преимущество ручной разметки:** Возможность ручной корректировки позволяет системе | + | Такой подход обеспечивает 100% обнаружение фактических ошибок при минимальных трудозатратах на проверку ложных срабатываний. |
| + | |||
| + | |||
| + | ===== Сколько времени занимает сравнение файлов? ===== | ||
| + | Время | ||
| + | * Сложность структуры документа | ||
| + | * Количество страниц | ||
| + | | ||
| + | |||
| + | **Сложность структуры: | ||
| + | |||
| + | Примерное время обработки: | ||
| + | * Машиночитаемые инструкции: | ||
| + | * Сканы инструкций: | ||
| + | * Упаковки (машиночитаемые и сканы): 2-5 минут | ||
| + | |||
| + | Максимальный совокупный размер двух сравниваемых файлов — 100 МБ. | ||
| Строка 24: | Строка 45: | ||
| ===== Файлы каких форматов поддерживает система? | ===== Файлы каких форматов поддерживает система? | ||
| - | **Поддерживаемые форматы**: PDF, DOC, DOCX, PNG, JPEG, JPG | + | Поддерживаемые форматы: |
| Строка 39: | Строка 60: | ||
| + | ===== Сколько пользователей одновременно могут работать в системе? | ||
| + | Система поддерживает одновременную работу неограниченного количества пользователей для следующих операций: | ||
| + | * Создание заданий на сравнение | ||
| + | * Просмотр отчетов о сравнении | ||
| + | * Скачивание отчетов | ||
| - | Сколько пользователей одновременно могут работать в системе? | + | **Ограничение:** Процесс сравнения |
| - | Создавать задачу на сравнение, знакомиться с отчетом | + | |
| + | Если вы создали задание и нажали " | ||
| + | * Система уведомит вас об этом | ||
| + | * Ваше задание автоматически сохранится со статусом " | ||
| + | * Все выделенные области и настройки сохранятся | ||
| - | С какой точностью сравнивает система? | + | После завершения текущего процесса |
| - | Главная цель системы | + | |
| + | - Нажмите | ||
| + | - Все ранее выделенные области останутся на месте — их не нужно настраивать | ||
| - | + | Увеличение количества одновременных процессов сравнения находится в планах развития системы. В будущих версиях это ограничение | |
| - | Сколько | + | |
| - | Время сравнения зависит от нескольких факторов: | + | |
| - | * Сложность структуры документа | + | |
| - | * Количество | + | |
| - | * Размер файлов | + | |
| - | + | ||
| - | Сложность структуры: | + | |
| - | + | ||
| - | Примерное время обработки: | + | |
| - | * Машиночитаемые инструкции: около 1 минуты | + | |
| - | * Сканы | + | |
| - | * Упаковки (машиночитаемые и сканы): | + | |
| - | + | ||
| - | Ограничение: Максимальный совокупный размер двух | + | |
| - | + | ===== Почему при сравнении одинаковых файлов система все равно выдает различия? | |
| - | Почему при сравнении одинаковых файлов система все равно выдает различия? | + | |
| Система настроена на максимальную чувствительность, | Система настроена на максимальную чувствительность, | ||
| Причины ложных срабатываний: | Причины ложных срабатываний: | ||
| - | * Низкое качество исходных файлов | + | |
| - | * Дефекты сканирования (засветы, | + | * Дефекты сканирования (засветы, |
| - | * Незначительные различия в рендеринге PDF | + | * Незначительные различия в рендеринге PDF |
| - | * Неточности OCR при распознавании текста | + | * Неточности OCR при распознавании текста |
| Система выдает все потенциальные различия, | Система выдает все потенциальные различия, | ||
| Строка 79: | Строка 95: | ||
| + | ===== Почему система не может работать полностью автоматически без ручной корректировки разметки элементов? | ||
| + | Основная сложность для системы — огромное разнообразие входных файлов по качеству и оформлению. | ||
| - | Почему OCR (технология распознавания текста) может ошибаться даже при хорошем качестве файлов? | + | **Файлы высокого качества**: |
| + | |||
| + | **Файлы низкого качества**: | ||
| + | * Текст или изображения перекрываются засветами | ||
| + | * Изображения плохо пропечатаны | ||
| + | * Размытые или искаженные символы | ||
| + | * Деформация страниц | ||
| + | |||
| + | **Преимущество ручной разметки: | ||
| + | |||
| + | |||
| + | ===== Почему OCR (технология распознавания текста) может ошибаться даже при хорошем качестве файлов? | ||
| OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы. | OCR (Optical Character Recognition) — это технология распознавания текста с изображений. Даже современные OCR-системы не являются абсолютно точными из-за особенностей принципа работы. | ||
| - | Специфика работы OCR: | + | |
| OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки: | OCR анализирует изображение и пытается распознать символы на основе их визуального сходства с известными буквами и цифрами. При этом возможны ошибки: | ||
| - | * Похожие символы могут быть перепутаны (например, | + | |
| - | * Слитные или поврежденные символы могут быть распознаны неверно | + | * Слитные или поврежденные символы могут быть распознаны неверно |
| - | * Необычные шрифты или размеры могут снижать точность | + | * Необычные шрифты или размеры могут снижать точность |
| - | * Фоновый шум на изображении может мешать распознаванию | + | * Фоновый шум на изображении может мешать распознаванию |
| Ошибки OCR возможны только при работе со сканами, | Ошибки OCR возможны только при работе со сканами, | ||
| Строка 93: | Строка 122: | ||
| - | + | ===== Заголовок захватывает сразу несколько столбцов текста | |
| - | Заголовок захватывает сразу несколько столбцов текста | + | |
| При автоматическом распознавании структуры документа заголовки, | При автоматическом распознавании структуры документа заголовки, | ||
| - | Решение: | + | **Решение: |
| - | Альтернативный вариант: | + | **Альтернативный вариант: |
| - | * Запустить ручную разметку после первичного сравнения | + | * Запустить ручную разметку после первичного сравнения |
| - | * Вручную указать правильные границы текстовых столбцов | + | * Вручную указать правильные границы текстовых столбцов |
| - | * Запустить повторное сравнение | + | * Запустить повторное сравнение |
| Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками. | Это временное ограничение системы. В будущих версиях данная функциональность будет улучшена для автоматического корректного распознавания многоколоночных структур с заголовками. | ||
| - | Почему в отчете много ложных различий, | + | ===== Почему в отчете много ложных различий, |
| Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла. | Большое количество ложных различий обычно указывает на то, что система неверно определила структуру элементов файла. | ||
| - | Как проверить корректность распознавания: | ||
| В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов: | В начале отчета о сравнении представлены скриншоты исходных страниц с цветовой визуализацией распознанных элементов: | ||
| - | * Красный цвет — таблицы | + | |
| - | * Зеленый цвет — изображения | + | * Зеленый цвет — изображения |
| - | * Синий/ | + | * Синий/ |
| - | Типичные ошибки распознавания: | + | **Типичные ошибки распознавания: |
| - | * Два текстовых столбца залиты одним цветом → система определила их как единый столбец | + | * Два текстовых столбца залиты одним цветом → система определила их как единый столбец |
| - | * Изображение не выделено цветом → система не обнаружила изображение | + | * Изображение не выделено цветом → система не обнаружила изображение |
| - | * Таблица выделена зеленым вместо красного → система распознала таблицу как изображение | + | * Таблица выделена зеленым вместо красного → система распознала таблицу как изображение |
| Что делать при обнаружении ошибок: | Что делать при обнаружении ошибок: | ||
| - | 1. Не анализируйте список различий — они будут некорректными из-за неправильного распознавания структуры | + | - Не анализируйте список различий — они будут некорректными из-за неправильного распознавания структуры |
| - | 2. В отчете (статус " | + | |
| - | 3. Вручную скорректируйте разметку элементов: | + | |
| * Выделите пропущенные изображения | * Выделите пропущенные изображения | ||
| * Правильно обозначьте границы каждого текстового столбца | * Правильно обозначьте границы каждого текстового столбца | ||
| * Исправьте неверно определенные таблицы | * Исправьте неверно определенные таблицы | ||
| * И так далее | * И так далее | ||
| - | 4. Запустите повторное сравнение | + | - Запустите повторное сравнение |
| После ручной корректировки вы получите корректный отчет с точными результатами сравнения. | После ручной корректировки вы получите корректный отчет с точными результатами сравнения. | ||
| Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, | Качество автоматического распознавания напрямую зависит от качества исходных файлов. Даже при визуально хорошем качестве могут присутствовать незаметные артефакты, | ||
page_3.1770555711.txt.gz · Последнее изменение: — makar
