Stefán Briem

Raw Machine Translation
from Icelandic to English

 English homepage           Dansk        Esperanto        Íslenska


Status of the project
This is written 20 January, 2004. During the last year considerable improvements have been made on the software for machine translation from Icelandic to English. This applies to the analysis part of the program as well as to the vocabulary. On the other hand, it still remains to improve the treatment of the indefinite article in English. Unfortunably, it shows up more often than it should. Today, new samples were added below.

This is written at the beginning of a new year, on 1 January 2001. Exactly two years ago, raw machine translation from English to Icelandic was presented on this web. Now, the same kind of translation in the opposite direction, from Icelandic to English, is ready for presentation. My software for raw machine translation from Icelandic to English is running. However, still remains to finish a  number of  features in order to achieve a better result. Some of these features are easily dealt with, when the requried time shows up. The translation samples below are not the result of a customized approach, and it should be kept in mind that a better result is usually achieved when the translation is customized for each task, see the webpage on Machine Translation. The samples will be renewed on this webpage when improvements give occasion for that.

The vocabulary for the translation software is mainly achieved by inverting the vocabulary from my software for translation from English to Icelandic, but that vocabulary was in a great measure compiled fram English-Icelandic dictionaries and wordlists. Furthermore, compound words are much more common in Icelandic than in English. For these reasons, it happens quite often during translation that Icelandic words are not found in the vocabulary. This can be coped with, partly by enlarging the vocabulary on the basis of Icelandic-English dictionaries and partly by adding to the software analysis of parts of Icelandic compound words, without the words themselves being registered.

The morphology for English as well as Icelandic is almost completed.

The translation program translates, at this stage, just one sentence at a time. Therefore, pronouns referring to noun phrases in the preceding sentence, will sometimes be translated incorrectly. On the other hand, the program is constructed in a way different from my corresponding program for translation from English to Icelandic. The main difference is, that the syntactic analysis is almost completed in a separate step before the actual translation to English. And the analysis of the source text sentences is performed quite differently, because Icelandic is a typical inflectional language, while English is only slightly inflected. The main features that will be elaborated in near future are:


Samples of translation

Sample 8 (20.01.2004) Part of a course description at Continuing Education - Icelandic University, Spring 2004
Sample 7 (20.01.2004) Part of a course description in Tölvuvísir, January - June 2004
Sample 6 (20.01.2004) Part of a news item on the newspaper Morgunblaðið's web http://www.mbl.is at 15 UT
Sample 5 (20.01.2004) Part of a news item on the newspaper Morgunblaðið's web http://www.mbl.is at 15 UT
Sample 4 (20.01.2004) News item in the newspaper Fréttablaðið 17 January 2004
Sample 3 (20.01.2004) Part of a news item in the newspaper Fréttablaðið 17 January 2004
Sample 2 (01.01.2003) From the book Palli var einn í heiminum by Jens Sigsgaard, translated from Danish by Vilbergur Júlíusson
Sample 1 (01.01.2003) From the language technology web http://www.tungutaekni.is

Sample 8
Icelandic source text:
English translation:
Enska í rannsóknum og raunvísindum

Fjallað um enskt tungutak, málvenjur og form bréfa og skýrslna í rannsóknum og raunvísindum. Þátttakendur þjálfa sig með því að hlýða á fræðsluþætti, lesa fjölbreytta texta til að auka fagorðaforða, gera munnlega grein fyrir fagorðum og skýrslum og skrifa stutta samantekt. Kynnt er hvernig gera á meginmál skýrslna, uppsetningu, mismunandi texta. hvernig byggja skal rökstuðning og setja þær fram (visual aids). Helstu atriði málnotkunar kynnt s.s. stíll, notkun orðaforða, tengiorð og rökrétt uppbygging málsgreinar. Einnig farið í notkun heimildaskrár og tilvitnanir. Þátttakendur skrifa mismunandi texta sem tengjast áhugasviði hvers og eins. Gert er ráð fyrir að þátttakendur flytji stuttar ræður til að þjálfa fagorðaforða sinn og auka sjálfstraust í kynningu og framsetningu.
 

English in researches and natural sciences

Dealt with an English tongue, parlances and form of letters and reports in researches and natural sciences. Participants practise whereas hearken a documentary, read miscellaneous texts to besides a fagorðaforði, do an oral branch for terms and reports and write a short compilation. Presented is how do on body of reports, an installation, varying texta. how build shall an argumentation and put them forwards a visual of aid. A chiefest items of usage presented s.s. a style, an use of vocabulary, a conjunctive and a logical build-up of paragraph. Also put on use bibliographies and quotations. Participants write a varying text which attach a field of hot spring and eins. Done is an advice for that participants carry short speeches to drill their fagorðaforði and increase a self-confidence in a presentation and a presentation.

Sample 7
Icelandic source text:
English translation:
Vinnustaðajóga

Fyrir hverja?
Markmiðið með þessu námskeiði er að kenna einfaldar æfingar sem hægt er að gera á vinnustað án sérstakrar aðstöðu eða búnaðar.

Markmið æfinganna er að mýkja líkamann og koma í veg fyrir þreytu og stirðleika við langar setur við skrifborð og á fundum. Einnig verða kenndar mjög einfaldar en góðar aðferðir við að draga úr streitu og ná fram slökun. Æfingarnar er hægt að framkvæma hvar sem er án sérstakra tækja og ekki þarf að koma í sérstökum fatnaði.

A vinnustaðajóga

For who?
The goal hereby a course is teaching simple practices which slowed is doing on a workplace without an especial position or an equipment.

The goal of the practices is softening the body and prevent a fatigue and a stiffness at long sittings at a desk and on meetings. Also become elevated very simple but good methods at to reduce a stress and a cadaver forwards a relaxation. The practices is slowed to carry out anywhere without especial devices and not needs to come in an especial clothing.

Sample 6
Icelandic source text:
English translation:
Lýtalæknir staðfestir að Berlusconi hafi fengið andlitslyftingu
AP
Silvio Berlusconi, forsætisráðherra Ítalíu, eins og hann leit út fyrir andlitslyftinguna. Ítalska þjóðin er spennt að sjá hvernig forsætisráðherrann lítur út eftir aðgerðina.

Staðfest hefur verið að Silvio Berlusconi fór í lýtaaðgerð og líklega einnig í megrun. Ítalski lýtaskurðlæknirinn Angelo Villa staðfesti að forsætisráðherra Ítalíu, Silvio Berlusconi, hefði fengið andlitslyftingu hjá sér. Aðgerðin hefði tekið eina klukkustund og hann væri mjög ánægður með árangurinn. Læknirinn virðist nokkuð sáttur við sjálfan sig og sagði í viðtali við ítalska dagblaðið La Repubblica að andlitið væri hverjum stjórnmálamanni ómetanlegt. Þegar slíkur tæki ákvörðum um að bæta útlit sitt væri mikilvægast af öllu að velja besta lýtalækninn.

Plastic surgeon confirms to Berlusconi has got a face-lifting
AP
Silvio Berlusconi, prime minister of Italy, as he looked for the face-lifting. The Italian nation is clasped to see the what kind of prime minister looks of the operation.

Confirmed has been to Silvio Berlusconi put on a lýtaaðgerð and likely also in an emaciation. An Italian lýtaskurðlæknir Angelo error confirmed to prime minister of Italy, Silvio Berlusconi, had got a face-lifting by oneself. The operation had taken one hour and he was delighted with the result. The physician seems any sáttur at oneself and said in an interview at Italian newspaper La Repubblica that the face was who politician inestimable. When such acceptable destine of to improve his aspect was chief of all to choose the best plastic surgeon.

Sample 5
Icelandic source text:
English translation:
Maður á Akureyri handtekinn vegna hótana um beitingu skotvopns

Á níunda tímanum í morgun bárust lögreglunni á Akureyri upplýsingar um að maður væri með skotvopn í íbúð við Hafnarstræti í miðbæ Akureyrar og hefði haft uppi hótanir um að beita því. Var svæðinu þegar lokað af lögreglu. Að því er segir í tilkynningu frá lögreglunni á Akureyri náðu lögregluþjónar símasambandi við þá sem voru í húsinu. Leystist málið á þann hátt að tveir karlmenn komu sjálfviljugir, hvor í sínu lagi og óvopnaðir, út úr húsinu og voru þeir handteknir. Báðir voru mennirnir í annarlegu ástandi og var sá, sem hafði uppi hótanirnar, settur í fangageymslu. Við leit í íbúðinni fundust tveir veiðihnífar og loftskammbyssa ásamt lítilræði af fíkniefnum.

A man on Akureyri arrested because of threats of an application of firearm

On the ninth time in a morning circulated the police on an Akureyri of information of that a man had a firearm in an apartment at Hafnarstræti in downtown of Akureyri and had had upstairs threats of to apply it.
Was the area when closed of a police. To it is says in a notification from the police on Akureyri achieved policemen símasambandi at who were in the house. Unknit the language thereby that two men came voluntary, separately and unarmed, ex the house and were they arrested. Both were the men in a strange condition and a lee saw, which had the yuppie threats, set in a fangageymsla. At a search in the apartment found two veiðihnífar and loftskammbyssa along with a trifle of drugs.

Sample 4
Islandsk kildetekst:
English translation:
INDVERSK BÖRN
Stefnt er að því að bólusetja milljónir indverskra barna til að útrýma mænusótt í landinu.
Mænusótt útrýmt:
250 milljónir bólusettar
SAMEINUÐU ÞJÓÐIRNAR Lögð hefur verið fram áætlun um að bólusetja 250 milljónir barna gegn mænusótt í þeim sex löndum þar ekki hefur tekist að útrýma sjúkdómnum. Í kjölfar neyðarfundar Alþjóðaheilbrigðisstofnunarinnar undirrituðu ríkisstjórnir Nígeríu, Afganistan, Indlands, Egyptalands, Níger og Pakistan, yfirlýsingu þess efnis að þær ætluðu að beita sér fyrir því sjúkdómnum yrði útrýmt á þessu ári.
Þegar alþjóðlegri herferð gegn mænusótt var hrundið af stað árið 1988 var sjúkdómurinn enn við lýði í 125 löndum og um 1000 börn smituðust daglega. Í fyrra voru aðeins skráð 677 tilfelli mænusóttar í heiminum öllum.
Indian children
directed is to it to vaccinate millions Indian children to eliminate a poliomyelitis ashore.
A poliomyelitis eliminated:
250 millions vaccinated
United Nations skim has been forwards a plan of to vaccinate 250 millions knock up against a poliomyelitis in those six lands there not has succeeded to eliminate the disease. In the wake neyðarfundur of the Alþjóðaheilbrigðisstofnun signed governments Nigeria Afghanistan, India, Egypt Niger and Pakistan, a declaration that one material that they intended to go in for the it disease became be eliminated hereon a year.
When an international campaign against a poliomyelitis was triggered the year 1988 was the disease still at mobs in 125 lands and of 1000 children most infective daily. Yesteryear were only registered 677 cases of poliomyelitis in the world all.

Sample 3
Islandsk kildetekst:
English translation:
NEYTENDUR Olíuverzlun Íslands telur ótrúverðugt að Atlantsolía hafi stöðvað sölu á bensíni vegna eldsneytisskort í ljósi þess að nýir aðilar hafi ekki getað áætlað þá sölu sem verið hefur á stöð fyrirtækisins undanfarnar vikur, enda hafi einungis verið um nokkuð þúsund lítra að ræða. Líklegt sé að markmiðið hafi verið að vekja á sér athygli og þrýsta á um að fá úthlutað tilteknum fjölda lóða á Reykjavíkursvæðinu.

Í tilkynningu sem félagið hefur sent frá sér segir: "Það hefur tekið Olís 76 ár að fá þær lóðir sem félagið hefur yfir að ráða, en félagið hefur verið einn stærsti atvinnuveitandi og skattgreiðandi í Reykjavík í áratugi".

Olís telur athyglivert að hinn nýi aðili virðist ekki hafa uppi neinar áætlanir um að þjónusta landsbyggðina heldur hyggist fleyta rjómanum með rekstur á stærsta markaðssvæðinu. Þá hafi í umfjöllun undanfarinna daga verið gefið í skyn að lækkun Olís til jafns við nýjan keppinaut hafi verið óeðlileg. Staðreyndin sé hins vegar að í fjölda ára hafi samkeppni á eldsneytismarkaði verið hörð og verðstríð brotist út reglulega, ýmist á landsvísu eða á afmörkuðum svæðum. Lækkunin síðustu daga skeri sig á engan hátt úr þeirri þróun sem verið hefur undanfarin ár. Það sé því rangt að halda því fram að hinn nýi aðili hafi aukið samkeppni á eldsneytismarkaði.

Consumers Olíuverzlun of Iceland counts unplausible that Atlantsolía has stopped a sale on a gasoline a weighted eldsneytisskort in its light that new parties have not been_able_to plan that one sale which been has on the station of the company foregone weeks, and also has only been of any thousand of liter to discuss. Likely is that the goal has been awakening on oneself attention and press of to get allocated specific number of lots on the Reykjavíkursvæði.
In a notification the which company has sent forth says: It has taken Olí 76 years to get those lots the which company recites to rule, but the company has been one biggest atvinnuveitandi and a taxpayer in Reykjavik in a decade.
An olís counts an athyglivert to the new party seems not have upstairs any plans of to serve the provinces proof sets out float the cream with an operation on the biggest fairground. Then has in a coverage foregone days been hinted to depression Olí to equal at a new competitor has been abnormal. The fact is on the other hand that in number of years has a competition on an eldsneytismarkaður been hard and a price war broken out regular, sometimes on a landsvísa or on circumscribed areas. The depression last days cuts oneself in no way from that one development which been has a foregone oar. It is so wrong holding it forwards to the new party has increased a competition on an eldsneytismarkaður.

Sample 2
Icelandic source text:
English translation:
Palli var einn í heiminum.
Það er snemma morguns.
Palli litli skríður fram úr rúminu sínu.
Hann vill ekki sofa lengur.
Þetta er víst mjög snemma morguns.
Allt er svo kyrrt og hljótt.
Sólin skín inn um gluggann, og Palli er ekkert syfjaður.
Palli læðist fram á ganginn og að svefnherbergi mömmu sinnar og pabba.
Hann opnar dyrnar og gáir inn.
Svo gengur hann að rúmi mömmu sinnar, en mamma er ekki þar.
Svo gengur hann að rúmi pabba síns, en pabbi er ekki þar.
Hvert hafa þau mamma og pabbi farið?
Palli fer nú aftur inn í herbergið sitt.
Hann vill ekki sofa meira.
Hann ætlar að klæða sig og fara út að leika sér.
Og nú klæðir hann sig sjálfur.
Hann er orðinn svo stór.
Svo þvær hann sér bara svolítið í framan.
Síðan gáir hann inn í stofuna og eldhúsið.
En hann sér engan.
En hvað það er gaman að vera aleinn heima svona snemma morguns!
Palli gengur niður tröppurnar og út á götuna.
Hann veit, að hann má ekki fara niður á götuna, án þess að biðja um leyfi.
En nú eru þau pabbi hans og mamma ekki heima.
Og hann verður að fara og leita að þeim.
Á götunni stendur strætisvagn, rétt við tröppurnar.
Palli gáir inn í strætisvagninn, en það er enginn maður í honum, - enginn bílstjóri, - ekkert fólk.
Hvar getur allt fólkið verið?
Palli gengur niður í mjólkurbúðina.
Hann þekkir svo vel stúlkuna, sem afgreiðir mjólkina.
En stúlkan er ekki í búðinni, og þar er heldur enginn maður að kaupa mjólk.
Á götunni er enginn maður.
Allt er kyrrt og hljótt.
Enginn bíll á ferðinni, - enginn strætisvagn, - enginn maður.
Það er enginn til í öllum heiminum nema Palli.
Palli was one in the world.
It is early in the morning.
Palli little crawls forwards from its bed.
He will not sleep longer.
This is surely very early in the morning.
All is so still and silent.
The sun shines in of the window, and Palli is a naught sleepy.
Palli creeps into the walk and to a bedroom of mom their and dad.
He opens the doors and looks in.
So walks he to a bed of mom their, but mom isn't there.
So walks he to a bed of dad their, but dad isn't there.
Who have them mom and dad gone?
Palli goes now again into its room.
He will not sleep greater.
He intends to dress and go out to play.
And now dresses he oneself self.
He is become so big.
So washes he sees merely some in forward.
The page looks he into the room and the kitchen.
But he sees no.
But who it is a fun to be alone home thus early in the morning!
Palli goes down the steps and out on the street.
He knows, that he mustn't descend on the street, without beg a permission.
But now are they dad him and moms not home.
And he must go and look for them.
On the street stands a bus, rightly at the steps.
Palli looks into the bus, but it is no man in him, - no driver, - no people.
Where can the all people been?
Palli goes down in the creamery.
He knows so well the girl, which expedites the milk.
But the girl isn't in the shop, and there is holds no man to buy milk.
On the street is no man.
All who still and silent.
No car on the journey, - no bus, - no man.
It is no to in the all world unless Palli.

Sample 1
Icelandic source text:
English translation:
Talgervlar eru verkfæri sem koma í stað mannsraddar og geta lesið upp tölvutækan texta.
Talgervlar eru mjög gagnlegir blindu fólki, en þeir geta gert margt fleira.
Með þeim má láta tölvuna lesa upp fyrir sig tölvupóst í gegnum síma, eða lesa texta á meðan ekið er.
Talgervlar geta einnig svarað sjálfvirkt í síma og eru að verða hluti af símkerfum.

Á ensku og fleiri tungumálum eru til forrit sem túlka talað mál og rita það sem texta inn í tölvuna.
Það getur verið mikið hagræði í að geta lesið tölvunni fyrir í stað þess að þurfa að slá inn allan texta með lyklaborðinu.
Mörg tæki eru nú svo smá að þar er ekki pláss fyrir lyklaborð og því er mjög gagnlegt að geta notað röddina til samskipta við þau.
Viðfangsefnum tungutækni má skipta í tvennt eftir því hvort um er að ræða ritað mál eða talað.
Vinnuaðferðir eru nokkuð ólíkar sem og hráefnið sem notað er.

Hvað varðar hið ritaða mál og almenna uppbyggingu tungumálsins þarf að greina texta af ýmsu tagi og koma upp málsöfnum og skrám.
Forsendur fyrir því að unnt sé að búa til tól sem skili góðum árangri og notendur verði sáttir við er að byggt sé á mjög stóru og fjölbreyttu textasafni.
Texta í þetta safn þarf að velja af kostgæfni og gæta þess að þar sé að finna góð dæmi um sem allra flest tilbrigði íslensks máls; formlegt mál og óformlegt, ritgerðir og samtöl, blaðamál og skáldverk, fræðitexta, tölvupóst, lagamál, auglýsingatexta, stjórnmálaumræður o.s.frv.

Orðasöfn og önnur söfn, sem eru hráefni tungutækninnar, eru miklu stærri en hingað til hefur þekkst í íslenskum málfræðirannsóknum og því þarf að nýta tölvutækni til hins ýtrasta við gerð þeirra.
Söfnin þurfa einnig að miðast við tunguna eins og hún er á hverjum tíma. Orðaforðinn er stöðugt að breytast og aukast, og því eru söfn sem eru eldri en tíu eða tuttugu ára að jafnaði lítils virði.
Þetta er vegna þess að tól tungutækninnar þurfa að vinna með hið lifandi mál.
 

Speech synthesizers are tools which supplant a mannsrödd and can recite a machine-readable text.
Speech synthesizers are very useful blind people, but they can do many more.
Therewith may let the computer recite for oneself electronic mail per a telephone, or read subtitle during driven is.
Speech synthesizers can also answer automatic in a telephone and are becoming a part of símkerfi.
In English and more languages exist programs which interpret a spoken language and write who subtitle into the computer.
It can be a great advantage in to can read the computer for in its place to need to key all text with the keyboard.
Many devices are now so little to there isn't a space for a keyboard and it is very useful to can employ the voice to communications thereby.
A tasks language technology may bisect thereafter if of is to discuss written a language or spoken.
Vinnuaðferð are any unlike which and the raw material as used is.

Who concerns the written a language and the general build-up of the language needs to analyze a text assorted and emerge málsafn and files.
Premises therefor that possible is to make tools which return a success and users become reconciliations at is to built is owns very big and a miscellaneous corpus.
A text in this collection needs to choose of a diligence and look after it that there is to find good examples of which all most variations an Icelandic language a formal language and informal, treatises and conversations, a blaðamál and a skáldverk, a fræðitexti, an electronic mail, a legalese, an auglýsingatexti, a stjórnmálaumræða etc.
Glossaries and other collections, which are the raw materials of the language technology, are great bigger than thus far has known each other in Icelandic málfræðirannsókn and it needs to utilize a tölvutækni to the utmost at their type.
The collections need also to miðast at the tongue as she is on who time.
The vocabulary is constantly changing and increase, and so are collections which are older than ten or twenty years typically halfpenny.
This is because the tools of the language technology need to work with the living language.

Last changed 20 January 2004