Taalbeheersing en AI

Menselijke creativiteit en genialiteit uiten we in de vorm van praten, schrijven of kunstige handvaardigheden. Communicatiemogelijkheden waarmee de mens de wereld om zich heen kan beïnvloeden en veranderen. Gereedschap en techniek verbetert, versterkt en perfectioneert die aangeboren menselijke vaardigheden. Zoals een fiets ons met dezelfde spierkracht sneller kan laten bewegen. Of een telraam ons sneller kan laten rekenen. Of een kwast ons mooiere afbeeldingen laat maken. Door toevoeging van energie, zoals ooit de stoommachine en later verbrandingsmotor en elektriciteit, kunnen we die vaardigheden zelfs ordes van grootte versterken. De ontwikkeling van grote taalmodellen versterkt onze vaardigheid in schrijven en het bijbehorende lezen. Computer ondersteunde taalmodellen kunnen taal, ons menselijk communicatiemiddel, enorm versterken en perfectioneren. En – belangrijker nog – kunnen we informatie en kennis die we digitaal hebben vastgelegd, in menselijke vorm gaan gebruiken. De computer kan nu ‘menselijk’ schrijven en lezen en hiervan afgeleid, ook menselijk praten en luisteren. En de computer ons wéér een beetje beter ondersteunt.

Wat is een ‘groot taalmodel’?

Een groot taalmodel is een taalmodel dat zich onderscheidt doordat het voor algemene doeleinden tekst kan genereren: zogenaamde ‘generatieve kunstmatige intelligentie’. Omdat het generiek inzetbaar is, wijkt het af van gewone taalmodellen die alleen voor specifieke doelen inzetbaar zijn. Taalmodellen leggen diepe, statistische relaties tussen woorden en het gebruik daarvan. Door deze ‘taalvaardigheid’ lijkt het steeds meer of een mens de conversatie voert. Door op deze basis teksten te genereren, waarbij het model ook nog toegang heeft tot specifieke informatie of kennis, kan de computer ons op ‘menselijke wijze’ over die informatie en kennis informeren. Specifieke informatie en content de we als mens niet zelf meer hoeven te ‘genereren en vast te leggen’, maar direct vanuit de computer kunnen gebruiken.

Grote taalmodellen hebben kennis van zowel syntaxis (taalkunde of zinsleer) en semantiek (betekenisleer). Syntaxis is alles wat te maken heeft met de opbouw, structuur en ‘verbindbaarheid’ van zinsdelen en zinnen: hoe schrijf je een logische zin. Semantiek houdt zich bezig met de betekenis van symbolen, woorden en groepen van woorden: welke boodschap staat in die zin. Hier speelt morfologie een rol: morenen zijn de kleinste ‘betekenisdragende’ eenheden in een woord. De kleinste bouwstenen van hoe een taal is opgebouwd en die bij alle talen in de tijd de meeste stabiele elementen blijven. Een bouwsteen voor zowel klankleer, spraakleer als taalverandering. Het taalmodel werkt wel met de context maar heeft zelf géén besef van enige betekenis en heeft als zodanig ook geen enkele vorm van menselijke intelligentie. Daarom geldt de definitie ‘kunstmatige’ intelligentie voor de logische wijze hoe een computer schijnbare intelligentie toont.  

Taalvaardigheid

Taalvaardigheid is het vermogen om te luisteren, spreken, lezen en schrijven in zowel samenhang als continuïteit. Taalvaardigheid stelt een persoon in staat taal te gebruiken in het dagelijkse leven. Daarnaast geeft het ons het vermogen om gedachten, ideeën, meningen en informatie vanuit de eigen kennis en gedachten met de buitenwereld te communiceren. Taalvaardigheid staat in directe relatie met de woordenschat die een persoon in de betreffende taal heeft. Immers woorden zijn bouwstenen van elke taal. Hoe meer woorden iemand ter beschikking heeft, hoe genuanceerder iemand zijn gedachten kan vormen en uiten. 

Ieder mens heeft meestal de grootste woordenschat in de taal waarmee hij of zij is opgegroeid, de moedertaal. Het is de taal die tijdens de jeugd, zonder formeel taalonderwijs, spelenderwijs wordt verworven. Bijzonder is dat in de moedertaal, het aantal intuïties over hoe iets wel en niet gezegd wordt, het hoogst is en alleen in de jonge jaren wordt geleerd. In de taalkunde wordt de puberteit doorgaans als afsluiting beschouwd van de periode waarin ‘moedertaalverwerving’ mogelijk is. Een taal die daarna wordt geleerd – een tweede taal – heeft doorgaans naast een kleinere woordenschat ook minder intuïviteit over hóe de taal te gebruiken. Hoe goed iemand een tweede taal ook leert spreken, het niveau van de eigen moedertaal wordt nooit meer bereikt. Aan accent, zinsopbouw, woordkeuze en grammaticale fouten horen moedertaalsprekers altijd duidelijk dat het niet de moedertaal van de spreker is.

Gedachten en creativiteit uiten

Het formuleren en spreken in de moedertaal is altijd de meest genuanceerde wijze hoe iemand zijn kennis, gevoelens en ideeën kan uiten en overdragen. De meeste volwassenen hebben een woordenschat van 20.000 tot 40.000 woorden, minder dan 10% van de ruim 430.000 woorden die de Nederlandse taal heeft. In het dagelijks verkeer gebruiken daar weer 10% van, ongeveer 2000 woorden. De Engelse taal heeft van de westerse talen de meeste woorden, ongeveer 750.000. Zij hebben vele extra woorden voor begrippen, situaties en gevoelens waar wij in het Nederlands zelfs geen woord voor hebben. Ondanks dat wij als Nederlander vaak goed Engels kunnen spreken, zullen we ons nooit zo goed in die taal kunnen uiten. Daar komen taalmodellen ons te hulp: zij hebben die geleerde woordenschat en intuïtie wel.

Je kunt als Nederlander proberen je gedachten en ideeën direct te formuleren in bijvoorbeeld het Engels. Echter de variatie en nuancering die je in het Nederlands kunt aanbrengen, zal  altijd veel groter zijn. Daarom is er ook discussie over docenten die niet in hun moederstaal doceren. De kennisoverdracht die ze ‘kunnen’ realiseren, zal altijd beperkter zijn dan wanneer zij die overdracht in hun moedertaal zouden doen. Dat is ook de reden dat ik het Nederlands blog, hoe vaak mensen mij ook hebben gevraagd dat direct in het Engels, een tweede taal voor mij, te doen. En oude vertaalsystemen waren altijd gebrekkig en vertaalden een tekst vrij primitief. 

Taalmodellen als hulpmiddel

Maar de laatste nieuwe taalmodellen kunnen teksten die zijn geschreven in een moedertaal, nu vaak met alle variaties en nuanceringen, perfect vertalen in een andere taal. Onder mijn Nederlandstalige blogs, plaats ik sinds een jaar ook standaard een ChatGPT-vertaling in het Engels die in mijn ogen nu inderdaad de variatie en nuances, en dus de kwaliteit heeft, die ik in elke tekst probeer aan te brengen. Dat geldt natuurlijk voor alle andere talen die intussen op deze wijze met de computer kunnen worden vertaald. Men zegt wel eens dat schrijven in je moedertaal ‘recht uit je hart komt’ en zo zonder na te denken op natuurlijke wijze je gedachten op papier zet.  

De fantastische nieuwe taalmodellen stellen ons in staat ‘to write like any native’, mits we eerst onze eigen tekst in onze moedertaal hebben geschreven. Onze gedachten en nuanceringen in de zinnen hebben kunnen zetten. Niet mechanisch maar op een natuurlijke wijze onze gedachten en boodschappen ‘vanuit het hart’ op papier zetten. Daar gaat immers ‘kunstmatige intelligentie’ mis: een computer heeft geen hart. Heeft geen emotie, passie, geloof en overtuiging.

Peter Hinssen schreef in ‘Het einde van afgrijselijk’ al dat computer-gecorrigeerde taal zo saai en mechanisch is, dat het snel irriteert. Foutloos geschreven lappen tekst zonder boodschap. Zonder gepassioneerde inhoud. Zonder enige menselijkheid. Prima voor handleidingen, trainingen, software en andere zakelijke maar emotieloze teksten. Niet uitnodigend om te lezen. Al snel zó irritant, dat je het opzij legt en liever een goed, spannend geschreven artikel of boek pakt. AI is een gereedschap, maar levert nooit de menselijke creativiteit en passie die normale communicatie zo levendig en spannend maakt. Dus laat ChatGPT nooit je sollicitatiebrieven, je persoonlijke brieven en zeker niet je liefdesbrieven schrijven . . . voor de ervaren lezer en schrijver, val je direct door de mand. 

Photo by Google DeepMind

        —————————-  translated by Chat GPT ——————————————

Language Proficiency and AI

Human creativity and genius are expressed through speaking, writing, or artistic skills. These are communication methods that allow humans to influence and change the world around them. Tools and technology improve, enhance, and perfect these innate human abilities. Just as a bicycle can make us move faster with the same muscle power, or an abacus can help us calculate faster. By adding energy, such as with the steam engine, internal combustion engine, and later electricity, we can amplify these skills by orders of magnitude. The development of large language models now enhances our writing and reading abilities. Computer-assisted language models can significantly strengthen and perfect language, our human communication medium. More importantly, we can use the information and knowledge we have digitally recorded in a human-like form. Computers can now ‘write’ and ‘read’ in human ways and, derived from this, also ‘speak’ and ‘listen’ like humans. This allows computers to support us even better.

What is a ‘large language model’? A large language model is distinguished by its ability to generate text for general purposes: so-called ‘generative artificial intelligence.’ Because it is generically applicable, it differs from ordinary language models that are only used for specific purposes. Language models establish deep statistical relationships between words and their usage. This ‘language proficiency’ increasingly makes it seem as if a human is conducting the conversation. By generating texts on this basis, and with access to specific information or knowledge, computers can inform us about that information and knowledge in a ‘human-like’ manner. Specific information and content that we as humans no longer need to ‘generate and record’ ourselves can be used directly from the computer.

Large language models have knowledge of both syntax (linguistics or sentence structure) and semantics (study of meaning). Syntax involves everything related to the composition, structure, and ‘connectivity’ of sentence parts and sentences: how to write a logical sentence. Semantics deals with the meaning of symbols, words, and groups of words: what message is conveyed in that sentence. Morphology plays a role here: morphemes are the smallest meaning-carrying units in a word. These are the smallest building blocks of a language, remaining the most stable elements across time in all languages. They form a foundation for phonetics, speech, and language change. While the language model works with context, it has no awareness of any meaning and, as such, lacks any form of human intelligence. Hence the definition of ‘artificial’ intelligence: the way a computer seemingly shows intelligence.

Language Proficiency Language proficiency is the ability to listen, speak, read, and write in both coherence and continuity. It enables a person to use language in daily life and allows us to communicate thoughts, ideas, opinions, and information from our own knowledge and thoughts with the outside world. Language proficiency is directly related to the vocabulary a person has in that language. Words are, after all, the building blocks of any language. The more words someone has at their disposal, the more nuanced they can form and express their thoughts.

Every person usually has the largest vocabulary in their native language, the language they grew up with. It is the language acquired during childhood without formal language education, through play. In the native language, the number of intuitions about how something should or shouldn’t be said is highest and is only learned during the early years. In linguistics, puberty is generally considered the end of the period during which ‘native language acquisition’ is possible. A language learned after this – a second language – typically has a smaller vocabulary and less intuition about how to use it. No matter how well someone learns to speak a second language, they will never reach the level of their native language. Native speakers will always be able to tell from accent, sentence structure, word choice, and grammatical errors that it is not the speaker’s native language.

Expressing Thoughts and Creativity Formulating and speaking in the native language is always the most nuanced way for someone to express and convey their knowledge, feelings, and ideas. Most adults have a vocabulary of 20,000 to 40,000 words, less than 10% of the more than 430,000 words in the Dutch language. They use about 10% of that in daily communication, approximately 2,000 words. The English language has the most words among Western languages, around 750,000. They have many extra words for concepts, situations, and feelings for which we have no words in Dutch. Even though we Dutch often speak English well, we will never be able to express ourselves as well in that language. This is where language models come to our aid: they do have that vocabulary and intuition.

As a Dutch speaker, you can try to formulate your thoughts and ideas directly in English, but the variation and nuance you can bring in Dutch will always be much greater. This is also why there is discussion about teachers who do not teach in their native language. The knowledge transfer they can achieve will always be more limited than if they did it in their native language. That’s also why I blog in Dutch, despite many requests to do so directly in English, a second language for me. Old translation systems were always flawed and translated texts quite primitively.

Language Models as a Tool But the latest language models can now often perfectly translate texts written in a native language, with all variations and nuances, into another language. For the past year, I have been including a ChatGPT translation in English under my Dutch blogs, which I believe now indeed has the variation and nuances, and thus the quality, that I try to incorporate into every text. This, of course, applies to all other languages that can now be translated by computer in this way. It is often said that writing in your native language ‘comes straight from the heart’ and naturally puts your thoughts on paper without thinking.

The fantastic new language models allow us to ‘write like any native,’ provided we first write our text in our native language. We can put our thoughts and nuances into the sentences. Not mechanically, but naturally, putting our thoughts and messages ‘from the heart’ on paper. This is where ‘artificial intelligence’ fails: a computer has no heart. It has no emotion, passion, belief, or conviction.

Peter Hinssen already wrote in ‘The End of Horrible’ that computer-corrected language is so dull and mechanical that it quickly irritates. Flawlessly written blocks of text without a message. Without passionate content. Without any humanity. Great for manuals, training, software, and other business but emotionless texts. Not inviting to read. Quickly so irritating that you put it aside and prefer a well, excitingly written article or book. AI is a tool, but it never delivers the human creativity and passion that makes normal communication so lively and exciting. So never let ChatGPT write your job applications, personal letters, and especially not your love letters… for the experienced reader and writer, you’ll be caught out immediately.