Undo last two changes.
[kopensolaris-gnu/glibc.git] / iconv / gconv_trans.c
1 /* Transliteration using the locale's data.
2    Copyright (C) 2000 Free Software Foundation, Inc.
3    This file is part of the GNU C Library.
4    Contributed by Ulrich Drepper <drepper@cygnus.com>, 2000.
5
6    The GNU C Library is free software; you can redistribute it and/or
7    modify it under the terms of the GNU Library General Public License as
8    published by the Free Software Foundation; either version 2 of the
9    License, or (at your option) any later version.
10
11    The GNU C Library is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Library General Public License for more details.
15
16    You should have received a copy of the GNU Library General Public
17    License along with the GNU C Library; see the file COPYING.LIB.  If not,
18    write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330,
19    Boston, MA 02111-1307, USA.  */
20
21 #include <assert.h>
22 #include <dlfcn.h>
23 #include <search.h>
24 #include <stdint.h>
25 #include <string.h>
26
27 #include <bits/libc-lock.h>
28 #include "gconv_int.h"
29 #include "../locale/localeinfo.h"
30
31
32 int
33 __gconv_transliterate (struct __gconv_step *step,
34                        struct __gconv_step_data *step_data,
35                        void *trans_data __attribute__ ((unused)),
36                        const unsigned char *inbufstart,
37                        const unsigned char **inbufp,
38                        const unsigned char *inbufend,
39                        unsigned char **outbufstart, size_t *irreversible)
40 {
41   /* Find out about the locale's transliteration.  */
42   uint_fast32_t size;
43   uint_fast32_t layers;
44   uint32_t *from_idx;
45   uint32_t *from_tbl;
46   uint32_t *to_idx;
47   uint32_t *to_tbl;
48   uint32_t *winbuf;
49   uint32_t *winbufend;
50   uint_fast32_t low;
51   uint_fast32_t high;
52
53   /* The input buffer.  There are actually 4-byte values.  */
54   winbuf = (uint32_t *) *inbufp;
55   winbufend = (uint32_t *) inbufend;
56
57   /* If there is no transliteration information in the locale don't do
58      anything and return the error.  */
59   size = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_TRANSLIT_HASH_SIZE);
60   if (size == 0)
61     goto no_rules;
62
63   /* Get the rest of the values.  */
64   layers = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_TRANSLIT_HASH_LAYERS);
65   from_idx = (uint32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TRANSLIT_FROM_IDX);
66   from_tbl = (uint32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TRANSLIT_FROM_TBL);
67   to_idx = (uint32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TRANSLIT_TO_IDX);
68   to_tbl = (uint32_t *) _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TRANSLIT_TO_TBL);
69
70   /* Test whether there is enough input.  */
71   if (winbuf + 1 > winbufend)
72     return (winbuf == winbufend
73             ? __GCONV_EMPTY_INPUT : __GCONV_INCOMPLETE_INPUT);
74
75   /* The array starting at FROM_IDX contains indeces to the string table
76      in FROM_TBL.  The indeces are sorted wrt to the strings.  I.e., we
77      are doing binary search.  */
78   low = 0;
79   high = size;
80   while (low < high)
81     {
82       uint_fast32_t med = (low + high) / 2;
83       uint32_t idx;
84       int cnt;
85
86       /* Compare the string at this index with the string at the current
87          position in the input buffer.  */
88       idx = from_idx[med];
89       cnt = 0;
90       do
91         {
92           if (from_tbl[idx + cnt] != winbuf[cnt])
93             /* Does not match.  */
94             break;
95           ++cnt;
96         }
97       while (from_tbl[idx + cnt] != L'\0' && winbuf + cnt < winbufend);
98
99       if (cnt > 0 && from_tbl[idx + cnt] == L'\0')
100         {
101           /* Found a matching input sequence.  Now try to convert the
102              possible replacements.  */
103           uint32_t idx2 = to_idx[med];
104
105           do
106             {
107               /* Determine length of replacement.  */
108               uint_fast32_t len = 0;
109               int res;
110               const unsigned char *toinptr;
111
112               while (to_tbl[idx2 + len] != L'\0')
113                 ++len;
114
115               /* Try this input text.  */
116               toinptr = (const unsigned char *) &to_tbl[idx2];
117               res = DL_CALL_FCT (step->__fct,
118                                  (step, step_data, &toinptr,
119                                   (const unsigned char *) &to_tbl[idx2 + len],
120                                   (unsigned char **) outbufstart,
121                                   irreversible, 0, 0));
122               if (res != __GCONV_ILLEGAL_INPUT)
123                 {
124                   /* If the conversion succeeds we have to increment the
125                      input buffer.  */
126                   if (res == __GCONV_EMPTY_INPUT)
127                     {
128                       *inbufp += cnt * sizeof (uint32_t);
129                       ++*irreversible;
130                       res = __GCONV_OK;
131                     }
132
133                   return res;
134                 }
135
136               /* Next replacement.  */
137               idx2 += len + 1;
138             }
139           while (to_tbl[idx2] != L'\0');
140
141           /* Nothing found, continue searching.  */
142         }
143       else if (cnt > 0)
144         /* This means that the input buffer contents matches a prefix of
145            an entry.  Since we cannot match it unless we get more input,
146            we will tell the caller about it.  */
147         return __GCONV_INCOMPLETE_INPUT;
148
149       if (winbuf + cnt >= winbufend || from_tbl[idx + cnt] < winbuf[cnt])
150         low = idx;
151       else
152         high = idx;
153     }
154
155  no_rules:
156   /* Maybe the character is supposed to be ignored.  */
157   if (_NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_TRANSLIT_IGNORE_LEN) != 0)
158     {
159       int n = _NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_TRANSLIT_IGNORE_LEN);
160       uint32_t *ranges = (uint32_t *) _NL_CURRENT (LC_CTYPE,
161                                                    _NL_CTYPE_TRANSLIT_IGNORE);
162       uint32_t wc = *(uint32_t *) (*inbufp);
163       int i;
164
165       /* Test whether there is enough input.  */
166       if (winbuf + 1 > winbufend)
167         return (winbuf == winbufend
168                 ? __GCONV_EMPTY_INPUT : __GCONV_INCOMPLETE_INPUT);
169
170       for (i = 0; i < n; ranges += 3, ++i)
171         if (ranges[0] <= wc && wc <= ranges[1]
172             && (wc - ranges[0]) % ranges[2] == 0)
173           {
174             /* Matches the range.  Ignore it.  */
175             *inbufp += 4;
176             ++*irreversible;
177             return __GCONV_OK;
178           }
179         else if (wc < ranges[0])
180           /* There cannot be any other matching range since they are
181              sorted.  */
182           break;
183     }
184
185   /* One last chance: use the default replacement.  */
186   if (_NL_CURRENT_WORD (LC_CTYPE, _NL_CTYPE_TRANSLIT_DEFAULT_MISSING_LEN) != 0)
187     {
188       uint32_t *default_missing = (uint32_t *)
189         _NL_CURRENT (LC_CTYPE, _NL_CTYPE_TRANSLIT_DEFAULT_MISSING);
190       const unsigned char *toinptr = (const unsigned char *) default_missing;
191       uint32_t len = _NL_CURRENT_WORD (LC_CTYPE,
192                                        _NL_CTYPE_TRANSLIT_DEFAULT_MISSING_LEN);
193       int res;
194
195       /* Test whether there is enough input.  */
196       if (winbuf + 1 > winbufend)
197         return (winbuf == winbufend
198                 ? __GCONV_EMPTY_INPUT : __GCONV_INCOMPLETE_INPUT);
199
200       res = DL_CALL_FCT (step->__fct,
201                          (step, step_data, &toinptr,
202                           (const unsigned char *) (default_missing + len),
203                           (unsigned char **) outbufstart,
204                           irreversible, 0, 0));
205
206       if (res != __GCONV_ILLEGAL_INPUT)
207         {
208           /* If the conversion succeeds we have to increment the
209              input buffer.  */
210           if (res == __GCONV_EMPTY_INPUT)
211             {
212               /* This worked but is not reversible.  */
213               ++*irreversible;
214               *inbufp += 4;
215               res = __GCONV_OK;
216             }
217
218           return res;
219         }
220     }
221
222   /* Haven't found a match.  */
223   return __GCONV_ILLEGAL_INPUT;
224 }
225
226
227 /* Structure to represent results of found (or not) transliteration
228    modules.  */
229 struct known_trans
230 {
231   /* This structure must remain the first member.  */
232   struct trans_struct info;
233
234   const char *fname;
235   void *handle;
236   int open_count;
237 };
238
239
240 /* Tree with results of previous calls to __gconv_translit_find.  */
241 static void *search_tree;
242
243 /* We modify global data.   */
244 __libc_lock_define_initialized (static, lock);
245
246
247 /* Compare two transliteration entries.  */
248 static int
249 trans_compare (const void *p1, const void *p2)
250 {
251   struct known_trans *s1 = (struct known_trans *) p1;
252   struct known_trans *s2 = (struct known_trans *) p2;
253
254   return strcmp (s1->info.name, s2->info.name);
255 }
256
257
258 /* Open (maybe reopen) the module named in the struct.  Get the function
259    and data structure pointers we need.  */
260 static int
261 open_translit (struct known_trans *trans)
262 {
263   __gconv_trans_query_fct queryfct;
264
265   trans->handle = __libc_dlopen (trans->fname);
266   if (trans->handle == NULL)
267     /* Not available.  */
268     return 1;
269
270   /* Find the required symbol.  */
271   queryfct = __libc_dlsym (trans->handle, "gconv_trans_context");
272   if (queryfct == NULL)
273     {
274       /* We cannot live with that.  */
275     close_and_out:
276       __libc_dlclose (trans->handle);
277       trans->handle = NULL;
278       return 1;
279     }
280
281   /* Get the context.  */
282   if (queryfct (trans->info.name, &trans->info.csnames, &trans->info.ncsnames)
283       != 0)
284     goto close_and_out;
285
286   /* Of course we also have to have the actual function.  */
287   trans->info.trans_fct = __libc_dlsym (trans->handle, "gconv_trans");
288   if (trans->info.trans_fct == NULL)
289     goto close_and_out;
290
291   /* Now the optional functions.  */
292   trans->info.trans_init_fct =
293     __libc_dlsym (trans->handle, "gconv_trans_init");
294   trans->info.trans_context_fct =
295     __libc_dlsym (trans->handle, "gconv_trans_context");
296   trans->info.trans_end_fct =
297     __libc_dlsym (trans->handle, "gconv_trans_end");
298
299   trans->open_count = 1;
300
301   return 0;
302 }
303
304
305 int
306 internal_function
307 __gconv_translit_find (struct trans_struct *trans)
308 {
309   struct known_trans **found;
310   const struct path_elem *runp;
311   int res = 1;
312
313   /* We have to have a name.  */
314   assert (trans->name != NULL);
315
316   /* Acquire the lock.  */
317   __libc_lock_lock (lock);
318
319   /* See whether we know this module already.  */
320   found = __tfind (trans, &search_tree, trans_compare);
321   if (found != NULL)
322     {
323       /* Is this module available?  */
324       if ((*found)->handle != NULL)
325         {
326           /* Maybe we have to reopen the file.  */
327           if ((*found)->handle != (void *) -1)
328             /* The object is not unloaded.  */
329             res = 0;
330           else if (open_translit (*found) == 0)
331             {
332               /* Copy the data.  */
333               *trans = (*found)->info;
334               res = 0;
335             }
336         }
337     }
338   else
339     {
340       size_t name_len = strlen (trans->name) + 1;
341       int need_so = 0;
342       struct known_trans *newp;
343
344       /* We have to continue looking for the module.  */
345       if (__gconv_path_elem == NULL)
346         __gconv_get_path ();
347
348       /* See whether we have to append .so.  */
349       if (name_len <= 3 || memcmp (&trans->name[name_len - 3], ".so", 3) != 0)
350         need_so = 1;
351
352       /* Create a new entry.  */
353       newp = (struct known_trans *) malloc (sizeof (struct known_trans)
354                                             + (__gconv_max_path_elem_len
355                                                + name_len + 3)
356                                             + name_len);
357       if (newp != NULL)
358         {
359           char *cp;
360
361           /* Clear the struct.  */
362           memset (newp, '\0', sizeof (struct known_trans));
363
364           /* Store a copy of the module name.  */
365           newp->info.name = (char *) (newp + 1);
366           cp = __mempcpy ((char *) newp->info.name, trans->name, name_len);
367
368           newp->fname = cp;
369
370           /* Seach in all the directories.  */
371           for (runp = __gconv_path_elem; runp->name != NULL; ++runp)
372             {
373               cp = __mempcpy (__stpcpy ((char *) newp->fname, runp->name),
374                               trans->name, name_len);
375               if (need_so)
376                 memcpy (cp, ".so", sizeof (".so"));
377
378               if (open_translit (newp) == 0)
379                 {
380                   /* We found a module.  */
381                   res = 0;
382                   break;
383                 }
384             }
385
386           /* In any case we'll add the entry to our search tree.  */
387           if (__tsearch (newp, &search_tree, trans_compare) == NULL)
388             {
389               /* Yickes, this should not happen.  Unload the object.  */
390               res = 1;
391               /* XXX unload here.  */
392             }
393         }
394     }
395
396   __libc_lock_unlock (lock);
397
398   return res;
399 }