Начата работа над парсером библейских ссылок

ПарсерПочти завершена работа над парсером библейских ссылок. На сегодняшний день реализовано распознавание ссылок как в восточном, так и западном стандартах написания ссылки на места Писания (см. рисунок).

Но, пока названия книг идут так, как записаны в ссылке. А это не очень хорошо, т.к. для чтения может использоваться источник с ссылками на одном языке, а текст Писания, установленный по-умолчанию, на другом языке. Соответственно в модуле с текстом Писания полученная ссылка может быть не распознана.
Поэтому думаю добавить дополнительный XML-файл, который будет содержать классификатор книг Библии. для имени книги по классификатору будет использоваться одно из распространенных трех буквенных английских наименований книги, а к нему будут прикреплены все сокращения, которые мне удастся собрать. В то же время реализую автоматическое расширение данного классификатора (путем дописывания данных в исходный XML-файл) из используемых пользователем модулей с текстами Писания.

3 Replies to “Начата работа над парсером библейских ссылок

  1. Я начинал делать парсер, даже работает в какой то мере, но нужно дорабатывать.
    нее забывай что необходимо помнить:
    1) на разных языках они работают по разному
    2) обязательно нужно проверять что идёт после текста, т.е. может случится так «рф 10» это руфь 10 глава, но в контексте может быть так «Принятый НПА о чём либо в РФ 10.04.2010» 🙂 весьма забавно выходит или если тут с годами более понятно, может быть более сложные варианты вроде «РФ 10 апр», вроде как выделяется часть, но не совсем верно.
    2) даже внутри одного языка (на пример JS в 9 IE работает не то что не так как в других браузерах, но и даже есть разница с iE8)
    3) посмотри в сторону джефри фридла

  2. А ещё не всегда однозначно что понимать под ПС 1, 2 — это первый псалом второй стих или 1 и 2 псалмы? 🙂

    1. Ну, во-первых я не рассматриваю парсер отдельно от программы для изучения именно Библии. Поэтому вариант «Принятый НПА о чём либо в РФ 10.04.2010» отпадает.

      А, во-вторых есть стандарты сокращенного написания мест Писания. То есть, два стандарта скоращений: восточный и западный. Я отталкиваюсь только от них (http://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D0%BA%D1%80%D0%B0%D1%89%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BD%D0%B0%D0%B7%D0%B2%D0%B0%D0%BD%D0%B8%D0%B9_%D0%BA%D0%BD%D0%B8%D0%B3_%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%B8). К примеру ваш вариант «ПС 1, 2» — это именно Псалом гл.1 и гл.2, так как после запятой стоит пробел. Если бы его не было, то это было бы западное написание гл1. стих 2. Хотя, конечно, можно внести корректировку в зависимости от языка исходного текста. Но, можно ошибиться, т.к. часто при переводе с других языков на русский неграмотный переводчик может оставить западный стиль ссылок. Либо надо строго брать по стандарту, либо оценивать по критической массе ссылок сначала стиль, а уж потом делать выводы.

Комментирование закрыто