Каирская Гениза – коллекция еврейских рукописей – дает уникальный взгляд на историю между 950 и 1250 годами нашей эры. К сожалению, листья разбросаны по музеям и библиотекам всего мира. Сейчас исследователи пытаются соединить фрагменты с помощью компьютера.
Обнаруженные около 1800 года, сейчас они разбросаны по всему миру:фрагменты рукописей из генизы (кладового помещения) синагоги в Каире, Египет. Поскольку документы в генизах принято сжигать с течением времени, рукописи имеют особое значение. Каирская гениза (так называется коллекция) дает уникальный взгляд на историю периода 950–1250 годов нашей эры.
К сожалению, ученым нелегко изучать документы, поскольку они хранятся в разных библиотеках. Самая большая коллекция фрагментов — около 193 000 из 280 000 штук — находится в Кембридже (Англия), но есть также крупные коллекции в Нью-Йорке (США) и Манчестере (Англия). К счастью, все больше и больше фрагментов оцифровываются. Однако остается проблема:какие фрагменты соединяются вместе и составляют рукопись?
С помощью компьютера
Исследователи из Тель-Авивского университета (Израиль) и проекта Friedberg Genizah разработали систему под названием joins может определить; группы фрагментов, взятых из одного документа. Используя методы обработки изображений, они анализируют коллекцию отсканированных страниц и на основе этого всегда оценивают, принадлежат ли два фрагмента друг другу.
Что затрудняет анализ, среди прочего, так это то, что при сканировании не учитывался какой-либо автоматический анализ. То есть фон не всегда одинаковый, фрагменты не обязательно прямые, иногда на снимке ставится линейка и т. д. Поэтому перед проведением замеров фотографию необходимо отредактировать. Вы можете видеть это на левом изображении выше:система сначала выделяет фрагмент на фотографии, распрямляет его и делает черно-белым изображением (чтобы компьютер мог быстро с ним работать).
Где прямые линии?
Одним из этапов анализа является определение ориентации строк:текст прямой или слегка перекошенный и насколько? Для этого система использует преобразование Хафа изображения — широко используемый метод определения прямых линий на изображении.
Чтобы создать преобразование Хафа, сначала для каждого пикселя определяется, на каких прямых линиях оно может лежать (см. иллюстрацию ниже).
Возможные линии можно описать формулой x*cos(t) + y*sin(t) =R, где R — длина нормали между началом координат и рассматриваемой линией, а t угол между нормалью и осью X. На основе этого можно составить список R/t для каждого пикселя в комбинациях изображений, где каждая комбинация представляет собой определенную линию, на которой может лежать точка. Если вы построите этот список (t по оси X и R по оси Y), поэтому для каждого пикселя вы получаете ряд точек, которые можно соединить. Этот график — с линией для каждого пикселя изображения — называется преобразованием Хафа.
Преобразование Хафа отображает прямые линии на фотографии. Белое пятно на графике означает, что существует множество пикселей, соответствующих определенному R/t. -комбинация. Другими словами, эти пиксели находятся на одной линии. А поскольку пикселей много, возможно, это линия, которую тоже хорошо видно на фотографии.
Читайте правильно
Фотографии Каирской Генизы не содержат настоящих прямых линий, но пиксели букв на линии всегда находятся на линии. Вы можете увидеть это в преобразовании Хафа (см. ниже), потому что, если присмотреться, вы увидите десять отдельных строк под углом -90° и +90°:они соответствуют десяти строкам текста, расположенным горизонтально на листе.П>
Компьютер может вычислить, где можно увидеть эти четкие линии, потому что это точка t. где дисперсия самая высокая. Например, система определяет, как располагаются строки текста на бумаге:например, является ли наибольшее отклонение при t =45, то текст поворачивается на угол 45°.
От текста к цифрам
Ориентация текста имеет значение, поскольку система использует профиль проекции. делает текст. Затем пиксели в столбце суммируются по горизонтали и вертикали (см. изображение ниже). Если вы создадите этот профиль, не обращая внимания на поворот текста, результат будет неверным.
На основе профиля система измеряет ряд характеристик текста, таких как количество строк, межстрочный интервал и высота строки. Это «физические измерения» на схеме в начале статьи. При анализе почерка система также определяет ключевые точки. изображения; точки во фрагменте, которые выделяются дополнительно. Для этого используется метод SIFT (см. вставку).
Физические измерения и ключевые точки на самом деле это не что иное, как цифры. Таким образом, фрагмент рукописи преобразуется в ряд значений, который называется вектором признаков. Компьютер справится с этим проще, чем с картинкой.
Обучение
Теперь возвращаемся к исходной цели:определить, принадлежат ли два фрагмента одному и тому же документу. Для этого посмотрите на векторы объектов. из двух частей. Чем больше они похожи, тем больше вероятность, что тексты взяты из одного документа. Тогда они будут иметь примерно одинаковый размер шрифта, межстрочный интервал и/или ключевые точки. Но как узнать, насколько похожи два вектора признаков? есть, или, скорее, откуда компьютер знает? На самом деле, это вопрос обучения.
В системе есть классификатор — (математическая) программа, использующая входной объект, например вектор признаков. можно определить, к какой группе он принадлежит. То есть, если у вас есть фрагмент сценария, классификатор какому документу он принадлежит. Для этого программа должна уметь оценивать объект; когда что-то принадлежит группе А (документ А), а когда нет? Вы узнаете об этом из классификатора. с тренировочным набором совокупность фрагментов, которые, как вы знаете, связаны друг с другом. классификатор с помощью этой информации узнает, что отличает одну группу от другой. Например, на рисунке ниже вы можете видеть, что по размеру лепестка можно узнать, с каким типом ириса вы имеете дело.
Новые пары
Исследователи составили обучающую выборку Каирской Генизы с известными объединениями.; пары фрагментов, которые определенно принадлежат друг другу. Это научило классификатор чтобы оценить, когда происходит соединение. Когда исследователи затем вводили новые фрагменты парами, классификатор они говорят или нет присоединяйтесь были.
Результаты были неоднозначными. В тесте на коллекции одного института он оказался верным в восьмидесяти процентах случаев. Однако был проведен тест и с фрагментами из разных коллекций, для чего система особенно полезна (чтобы исследователям не приходилось ездить туда-сюда). Вот и появилась система с девятью тысячами возможных объединений. первые две тысячи из них были проверены вручную. Только двадцать четыре процента обнаруженных присоединений оказался прав.
Несмотря на несколько разочаровывающие результаты, к исследованию все еще присоединилось около тысячи новых присоединившихся. доставленный. Это довольно много по сравнению с несколькими тысячами обнаруженных экспертами на данный момент. Однако система пока не может функционировать без ручных проверок, для этого слишком низкий балл распознавания. Но это приятное дополнение и шаг в правильном направлении.