1da2e3ebdSchin /***********************************************************************
2da2e3ebdSchin *                                                                      *
3da2e3ebdSchin *               This software is part of the ast package               *
4*b30d1939SAndy Fiddaman *          Copyright (c) 1985-2011 AT&T Intellectual Property          *
5da2e3ebdSchin *                      and is licensed under the                       *
6*b30d1939SAndy Fiddaman *                 Eclipse Public License, Version 1.0                  *
77c2fbfb3SApril Chin *                    by AT&T Intellectual Property                     *
8da2e3ebdSchin *                                                                      *
9da2e3ebdSchin *                A copy of the License is available at                 *
10*b30d1939SAndy Fiddaman *          http://www.eclipse.org/org/documents/epl-v10.html           *
11*b30d1939SAndy Fiddaman *         (with md5 checksum b35adb5213ca9657e911e9befb180842)         *
12da2e3ebdSchin *                                                                      *
13da2e3ebdSchin *              Information and Software Systems Research               *
14da2e3ebdSchin *                            AT&T Research                             *
15da2e3ebdSchin *                           Florham Park NJ                            *
16da2e3ebdSchin *                                                                      *
17da2e3ebdSchin *                 Glenn Fowler <gsf@research.att.com>                  *
18da2e3ebdSchin *                  David Korn <dgk@research.att.com>                   *
19da2e3ebdSchin *                   Phong Vo <kpv@research.att.com>                    *
20da2e3ebdSchin *                                                                      *
21da2e3ebdSchin ***********************************************************************/
22da2e3ebdSchin #pragma prototyped
23da2e3ebdSchin /*
24da2e3ebdSchin  * regcmp implementation
25da2e3ebdSchin  */
26da2e3ebdSchin 
27da2e3ebdSchin #include <ast.h>
28da2e3ebdSchin #include <libgen.h>
29da2e3ebdSchin #include <regex.h>
30da2e3ebdSchin #include <align.h>
31da2e3ebdSchin 
32da2e3ebdSchin #define INC		(2*1024)
33da2e3ebdSchin #define TOT		(16*1024)
34da2e3ebdSchin #define SUB		10
35da2e3ebdSchin 
36da2e3ebdSchin typedef struct
37da2e3ebdSchin {
38da2e3ebdSchin 	char*		cur;
39da2e3ebdSchin 	regex_t		re;
40da2e3ebdSchin 	unsigned char	sub[SUB];
41da2e3ebdSchin 	int		nsub;
42da2e3ebdSchin 	size_t		size;
43da2e3ebdSchin 	char		buf[ALIGN_BOUND2];
44da2e3ebdSchin } Regex_t;
45da2e3ebdSchin 
46da2e3ebdSchin __DEFINE__(char*, __loc1, 0);
47da2e3ebdSchin 
48da2e3ebdSchin static void*
block(void * handle,void * data,size_t size)49da2e3ebdSchin block(void* handle, void* data, size_t size)
50da2e3ebdSchin {
51da2e3ebdSchin 	register Regex_t*	re = (Regex_t*)handle;
52da2e3ebdSchin 
53da2e3ebdSchin 	if (data || (size = roundof(size, ALIGN_BOUND2)) > (re->buf + re->size - re->cur))
54da2e3ebdSchin 		return 0;
55da2e3ebdSchin 	data = (void*)re->cur;
56da2e3ebdSchin 	re->cur += size;
57da2e3ebdSchin 	return data;
58da2e3ebdSchin }
59da2e3ebdSchin 
60da2e3ebdSchin char*
regcmp(const char * pattern,...)61da2e3ebdSchin regcmp(const char* pattern, ...)
62da2e3ebdSchin {
63da2e3ebdSchin 	register char*		s;
64da2e3ebdSchin 	register Regex_t*	re;
65da2e3ebdSchin 	register size_t		n;
66da2e3ebdSchin 	register int		c;
67da2e3ebdSchin 	register int		p;
68da2e3ebdSchin 	int			b;
69*b30d1939SAndy Fiddaman 	int			e;
70da2e3ebdSchin 	int			i;
71da2e3ebdSchin 	int			j;
72da2e3ebdSchin 	int			nsub;
73da2e3ebdSchin 	register Sfio_t*	sp;
74da2e3ebdSchin 	unsigned char		paren[128];
75da2e3ebdSchin 	unsigned char		sub[SUB];
76da2e3ebdSchin 	va_list			ap;
77da2e3ebdSchin 
78da2e3ebdSchin 	va_start(ap, pattern);
79*b30d1939SAndy Fiddaman 	if (pattern || !*pattern || !(sp = sfstropen()))
80*b30d1939SAndy Fiddaman 		e = 1;
81*b30d1939SAndy Fiddaman 	else
82da2e3ebdSchin 	{
83*b30d1939SAndy Fiddaman 		e = 0;
84*b30d1939SAndy Fiddaman 		memset(paren, 0, sizeof(paren));
85*b30d1939SAndy Fiddaman 		n = 0;
86*b30d1939SAndy Fiddaman 		p = -1;
87*b30d1939SAndy Fiddaman 		b = 0;
88*b30d1939SAndy Fiddaman 		nsub = 0;
89*b30d1939SAndy Fiddaman 		s = (char*)pattern;
90*b30d1939SAndy Fiddaman 		do
91da2e3ebdSchin 		{
92*b30d1939SAndy Fiddaman 			while (c = *s++)
93da2e3ebdSchin 			{
94*b30d1939SAndy Fiddaman 				if (c == '\\')
95da2e3ebdSchin 				{
96da2e3ebdSchin 					sfputc(sp, c);
97*b30d1939SAndy Fiddaman 					if (!(c = *s++))
98*b30d1939SAndy Fiddaman 						break;
99da2e3ebdSchin 				}
100*b30d1939SAndy Fiddaman 				else if (b)
101da2e3ebdSchin 				{
102*b30d1939SAndy Fiddaman 					if (c == ']')
103*b30d1939SAndy Fiddaman 						b = 0;
104da2e3ebdSchin 				}
105*b30d1939SAndy Fiddaman 				else if (c == '[')
106*b30d1939SAndy Fiddaman 				{
107*b30d1939SAndy Fiddaman 					b = 1;
108*b30d1939SAndy Fiddaman 					if (*s == '^')
109*b30d1939SAndy Fiddaman 					{
110*b30d1939SAndy Fiddaman 						sfputc(sp, c);
111*b30d1939SAndy Fiddaman 						c = *s++;
112*b30d1939SAndy Fiddaman 					}
113*b30d1939SAndy Fiddaman 					if (*s == ']')
114*b30d1939SAndy Fiddaman 					{
115*b30d1939SAndy Fiddaman 						sfputc(sp, c);
116*b30d1939SAndy Fiddaman 						c = *s++;
117*b30d1939SAndy Fiddaman 					}
118*b30d1939SAndy Fiddaman 				}
119*b30d1939SAndy Fiddaman 				else if (c == '(')
120*b30d1939SAndy Fiddaman 				{
121*b30d1939SAndy Fiddaman 					/*
122*b30d1939SAndy Fiddaman 					 * someone explain in one sentence why
123*b30d1939SAndy Fiddaman 					 * a cast is needed to make this work
124*b30d1939SAndy Fiddaman 					 */
125da2e3ebdSchin 
126*b30d1939SAndy Fiddaman 					if (p < (int)(elementsof(paren) - 1))
127*b30d1939SAndy Fiddaman 						p++;
128*b30d1939SAndy Fiddaman 					paren[p] = ++n;
129*b30d1939SAndy Fiddaman 				}
130*b30d1939SAndy Fiddaman 				else if (c == ')' && p >= 0)
131da2e3ebdSchin 				{
132*b30d1939SAndy Fiddaman 					for (i = p; i > 0; i--)
133*b30d1939SAndy Fiddaman 						if (paren[i])
134*b30d1939SAndy Fiddaman 							break;
135*b30d1939SAndy Fiddaman 					if (*s == '$' && (j = *(s + 1)) >= '0' && j <= '9')
136da2e3ebdSchin 					{
137*b30d1939SAndy Fiddaman 						s += 2;
138*b30d1939SAndy Fiddaman 						j -= '0';
139*b30d1939SAndy Fiddaman 						if (nsub <= j)
140*b30d1939SAndy Fiddaman 						{
141*b30d1939SAndy Fiddaman 							if (!nsub)
142*b30d1939SAndy Fiddaman 								memset(sub, 0, sizeof(sub));
143*b30d1939SAndy Fiddaman 							nsub = j + 1;
144*b30d1939SAndy Fiddaman 						}
145*b30d1939SAndy Fiddaman 						sub[j] = paren[i] + 1;
146da2e3ebdSchin 					}
147*b30d1939SAndy Fiddaman 					paren[i] = 0;
148da2e3ebdSchin 				}
149*b30d1939SAndy Fiddaman 				sfputc(sp, c);
150da2e3ebdSchin 			}
151*b30d1939SAndy Fiddaman 		} while (s = va_arg(ap, char*));
152*b30d1939SAndy Fiddaman 	}
153da2e3ebdSchin 	va_end(ap);
154*b30d1939SAndy Fiddaman 	if (e)
155*b30d1939SAndy Fiddaman 		return 0;
156da2e3ebdSchin 	if (!(s = sfstruse(sp)))
157da2e3ebdSchin 	{
158da2e3ebdSchin 		sfstrclose(sp);
159da2e3ebdSchin 		return 0;
160da2e3ebdSchin 	}
161da2e3ebdSchin 	re = 0;
162da2e3ebdSchin 	n = 0;
163da2e3ebdSchin 	do
164da2e3ebdSchin 	{
165da2e3ebdSchin 		if ((n += INC) > TOT || !(re = newof(re, Regex_t, 0, n)))
166da2e3ebdSchin 		{
167da2e3ebdSchin 			if (re)
168da2e3ebdSchin 				free(re);
169da2e3ebdSchin 			sfstrclose(sp);
170da2e3ebdSchin 			return 0;
171da2e3ebdSchin 		}
172da2e3ebdSchin 		re->cur = re->buf;
173da2e3ebdSchin 		re->size = n + ALIGN_BOUND2 - sizeof(Regex_t);
174da2e3ebdSchin 		regalloc(re, block, REG_NOFREE);
175da2e3ebdSchin 		c = regcomp(&re->re, s, REG_EXTENDED|REG_LENIENT|REG_NULL);
176da2e3ebdSchin 		regalloc(NiL, NiL, 0);
177da2e3ebdSchin 	} while (c == REG_ESPACE);
178da2e3ebdSchin 	sfstrclose(sp);
179da2e3ebdSchin 	if (c)
180da2e3ebdSchin 	{
181da2e3ebdSchin 		free(re);
182da2e3ebdSchin 		return 0;
183da2e3ebdSchin 	}
184da2e3ebdSchin 	if (re->nsub = nsub)
185da2e3ebdSchin 		memcpy(re->sub, sub, (nsub + 1) * sizeof(sub[0]));
186da2e3ebdSchin 	return (char*)re;
187da2e3ebdSchin }
188da2e3ebdSchin 
189da2e3ebdSchin char*
regex(const char * handle,const char * subject,...)190da2e3ebdSchin regex(const char* handle, const char* subject, ...)
191da2e3ebdSchin {
192da2e3ebdSchin 	register Regex_t*	re;
193da2e3ebdSchin 	register int		n;
194da2e3ebdSchin 	register int		i;
195da2e3ebdSchin 	register int		k;
196da2e3ebdSchin 	char*			sub[SUB + 1];
197da2e3ebdSchin 	regmatch_t		match[SUB + 1];
198da2e3ebdSchin 	va_list			ap;
199da2e3ebdSchin 
200da2e3ebdSchin 	va_start(ap, subject);
201da2e3ebdSchin 	if (!(re = (Regex_t*)handle) || !subject)
202*b30d1939SAndy Fiddaman 		k = 1;
203*b30d1939SAndy Fiddaman 	else
204*b30d1939SAndy Fiddaman 	{
205*b30d1939SAndy Fiddaman 		k = 0;
206*b30d1939SAndy Fiddaman 		for (n = 0; n < re->nsub; n++)
207*b30d1939SAndy Fiddaman 			sub[n] = va_arg(ap, char*);
208*b30d1939SAndy Fiddaman 	}
209da2e3ebdSchin 	va_end(ap);
210*b30d1939SAndy Fiddaman 	if (k)
211*b30d1939SAndy Fiddaman 		return 0;
212da2e3ebdSchin 	if (regexec(&re->re, subject, SUB + 1, match, 0))
213da2e3ebdSchin 		return 0;
214da2e3ebdSchin 	for (n = 0; n < re->nsub; n++)
215da2e3ebdSchin 		if (i = re->sub[n])
216da2e3ebdSchin 		{
217da2e3ebdSchin 			i--;
218da2e3ebdSchin 			k = match[i].rm_eo - match[i].rm_so;
219*b30d1939SAndy Fiddaman 			strlcpy(sub[n], subject + match[i].rm_so, k);
220da2e3ebdSchin 			*(sub[n] + k) = 0;
221da2e3ebdSchin 		}
222da2e3ebdSchin 	__loc1 = (char*)subject + match[0].rm_so;
223da2e3ebdSchin 	return (char*)subject + match[0].rm_eo;
224da2e3ebdSchin }
225