UDICT - комп'ютерний список слів української мови

Мета проекту

Проект UDICT є спробою створення словника слів української мови. Такий словник уявляється міг би послужитися при розробці програм перевірки правопису української мови (spell-checker'ів).

Для створення словника використовувалися джерела українських текстів доступні на Інтернеті. Ідея, що послужилася при створенні словника дуже проста. Використати доступні в Інтернеті тексти українською мовою для сканування їх та створення таким чином словника всіх слів, що трапляються.

Це вже не перша така спроба. Напочатку ми вирішили, що буде достатнім просто створити список всіх слів, що трапляються в усіх наявних текстах і потім вичитати вручну помилки в цьому списку. Але, як засвідчив власний досвід така практика виявилася досить безрезультативною. Словник було створено досить швидко. Кілька його версій мали по кілька десятків тисяч слів. Але вичитка словників виявилася дуже кропіткою роботою. Настільки кропіткою, що стало зрозуміло - цей проект не буде закінчений ніколи.

Намагалися ми також використати для вичитки готового текту єдиний spell-checker для української мови, який ми мали. Це була програма Дарвін для Windows. Досвід роботи з цим spell-checker'ом ще додав впевненості в необхідності розробки дійсно українського словника. Ми виявили кілька дуже серйозних недоліків при роботі з Дарвіном:

він не здібен працювати з файлами великого об'єму;
дуже часто словник не розпізнає українських слів. В такій ситуації дуже часто на заміну Дарвін пропонує російські слова або відверті русизми.
як і всяка програма, що працює в MS Windows Дарвін страждає від нестабільності.

Поки що ми не зустрічали некомерційної альтернативи, тому ми продовжуємо роботу над цим проектом і запрошуємо всіх бажаючих приєднуватися до нас.

Ідея, що перевела проект з жевріючого стану в робочий, відшукалася досить несподівано і, звичайно-ж, виявилася дуже простою. Розробники подібного проекту з Росії користуються схожою методикою - скануючи тексти вони створюють список слів. Але показником вірності слова є частота трапляння слова в тексті. Звичайно-ж вірно написані слова трапляються в текстах набагато частіше, ніж описки. Тому, набравши досить велику статистику українських текстів можна з досить високою долею вірогідності відсіяти з отриманого списку невірні слова.

Втілення проекту

Для втілення цієї ідеї в життя була розроблена програма, яка сканує тексти написані українською мовою, розбиває поданий текст на окремі слова, відфільтровує написане англійською мовою та знаки пунктуації і додає ці слова до словника.

Словник має дуже просту структуру. Кожен рядок - це слово і число, яке показує скільки разів дане слово було знайдене в тексті. Слово і число розділені між собою символом табуляції.

Програма читає даний файл на початку роботи, читає вхідні дані, поновлює словник і записує його знову на диск. При великому розмірі словника операція читання словника з диску та запис його назад на диск займають досить багато часу, але дякуючи цьому, за будь-яких умов файл словника записаний на диску і це гарантує від неприємностей.

В процесі роботи програми виявилося, що потрібні деякі доробки та доповнення до алгоритму роботи.

Невідповідність стандартам кодування

Але іншою проблемою при цьому є також невідповідність українських кодових таблиц в різних текстах. Цьому сприяє відсутність чітких стандартів в галузі застосування української мови в комп'ютеризації як в Україні, так і поза її межами. Окрім надзвичайно великої кількості таких стандартів, великий негативний вплив має недостатнє розуміння цієї проблеми особами, які друкують українські тексти.

На доказ наведемо кілька прикладів:

Стандарти.

Є кілька стандартів, які претендують на те, що вони підтримують українську мову. Серед них найчастіше застосовується в Інтернеті стандарт KOI8-U, описаний в стандарті RFC-2319. Незважаючи на це в багатьох джерелах використовується кодова таблиця KOI8-R, яка не підтримує української мови. Літери української мови, яких немає в російській (і, є, ї та ґ) якраз і приносять найбільше неприємностей.

Літера "і".

Трапляється дуже багато джерел, де замість української літери "і" вживається англійська "i". Це дуже важко помітити, просто читаючи текст, але проводячи комп'ютерну обробку, я почав помічати дуже багато розірваних слів (як, наприклад, "роз" і "рваних"). Придившись уважніше помітив причину цього і довелося ввести в програму фільтр, який змінює англійське "i" на українське "і".

Апостроф.

Як виявилося найбільше проблем доставляє апостроф. Здається, що цей маленький значок не заслуговує навіть на найменшу увагу серед більшості авторів текстів. В ході обробки текстів мені вдалося виявити як мінімум п'ять різноманітних варіантів апострофа: перший, найбільш розповсюджений варіант - це одинарна лапка "'" (вісімковий код \047), яка і повинна вживатися, як апостроф, наступний - це задня лапка "`" (код \140), в деяких виданнях замість апострофа використовується символ із кодом \134. Але найбільше розчарування принесли файли Телевізійної Служби Новин (http://www.1plus1.net/slots/tch/online/). В різних файлах однієї і тієї-ж організації зустрічається три (три!) різних варіанти апострофа: це - "'", подвійні лапки (") і ще навіть пара символів \242\020 в якості апострофа.

Літера "ґ"

В деяких джерелах літера "ґ" має невірний код (невідповідний до стандарту KOI8-U).

Російські слова

При обробці HTML джерел виявилося, в словник стали заноситися російські слова, в той час, як переглядаючи тексти, HTML-browser'ом (Netscape, w3/Emacs та Lynx) я цих російських слів не бачив. Більш детальний аналіз виявив, що в цих джерелах HTML коментарі здебільшого написані російською мовою. Ще одне джерело російських слів при аналізі HTML текстів є таґ META. Як коментарі, так і META невидимі на екрані browser'а і тому їх важко помітити при звичайному перегляді в Інтернеті. Так з'явився ще один фільтр, який просто викидає всі коментарі з HTML і таґи META.

Російські слова, що інколи все-таки трапляються в текстах, виявити машинними засобами обробки мені здається неможливо, або дуже важко і тому доводиться з цим миритися. Але натомісць я намагався вилучити з оброблюваних джерел тексти, написані російською мовою. Як виявилося (і що, до речі, було для мене особисто неабияким сюрпризом) більшість українського законодавства до 1989 року написане російською мовою. І тому при занесенні в словник слів з законів України, я просто вирішив, що буде краще зовсім не обробляти ці тексти (тобто закони до 1989 року), аніж виловлювати з цього об'єму деякі випадкові українські файли.

Тож вважаючи на описані негаразди я гадаю, що робота над цим словником, попереду ще велика. Але не зважаючи не незакінченість проекту, від віддається на громадський осуд і буде доповнюватися та коригуватися з часом.

Стан проекту

Цей проект ні в якому разі не можна вважати закінченим (а на даний момент навіть придатним до вживання). Словник являє собою звичайний величезний файл (біля 1,4М компресовані програмою bzip2 - за станом на квітень 1999) із списком слів та числом, яке вказує на кількість разів, скільки це слово зустрілося в тих текстах, які я обробив.

Проект зупинився на деякий час (це пишеться вже в жовтні 1999 року), бо мені просто не вистачає на нього часу. Тому я, сподіваючись на підтримку з боку величезного та всесильного ІНТЕРНЕТУ (а особливо його україномовної частини), публікую всі необхідні матеріали, зібрані під час моєї роботи над цим проектом. А саме:

вихідний файл (сам власне словник) за станом на 8 грудня 2000
файл із списком оброблених джерел та коментарями
Перл скрипт, який використовувався мною при обробці текстів (він напевне далекий від найкращих зразків світового програмування, але прислужився).

Все публікується тут на основах загальної ліцензії GNU (general Public License - GPL) і може використовуватися та розповсюджуватися відповідно до неї.

Що потрібно для продовження проекту

поповнення списку слів;
очищення словника від сміття - граматичні помилки, описки, російські слова. Для цього може знадобитися розробка деякого алґоритму для частотного та/або граматичного аналізу текстів/словника.
побудова спел-чекера. Найбільш придатним уявляється використання вільно-доступної GNU програми ispell. Потрібна розробка хеш-таблиць для ispell (бажаючі?).

Що потрібно ще?

З повагою,

Дмитро Ковальов, kov@tokyo.email.ne.jp

Токіо, 1999 рік.

Counter:

from Oct 23 1999