.\" -*- coding: UTF-8 -*-
.ie t .ds dg \(dg
.el .ds dg (!)
'\" t
.\" From Henry Spencer's regex package (as found in the apache
.\" distribution). The package carries the following copyright:
.\"
.\" Copyright 1992, 1993, 1994 Henry Spencer. All rights reserved.
.\" %%%LICENSE_START(MISC)
.\" This software is not subject to any license of the American Telephone
.\" and Telegraph Company or of the Regents of the University of California.
.\"
.\" Permission is granted to anyone to use this software for any purpose
.\" on any computer system, and to alter it and redistribute it, subject
.\" to the following restrictions:
.\"
.\" 1. The author is not responsible for the consequences of use of this
.\" software, no matter how awful, even if they arise from flaws in it.
.\"
.\" 2. The origin of this software must not be misrepresented, either by
.\" explicit claim or by omission. Since few users ever read sources,
.\" credits must appear in the documentation.
.\"
.\" 3. Altered versions must be plainly marked as such, and must not be
.\" misrepresented as being the original software. Since few users
.\" ever read sources, credits must appear in the documentation.
.\"
.\" 4. This notice may not be removed or altered.
.\" %%%LICENSE_END
.\"
.\" In order to comply with `credits must appear in the documentation'
.\" I added an AUTHOR paragraph below - aeb.
.\"
.\" In the default nroff environment there is no dagger \(dg.
.\"
.\" 2005-05-11 Removed discussion of `[[:<:]]' and `[[:>:]]', which
.\" appear not to be in the glibc implementation of regcomp
.\"
.\"*******************************************************************
.\"
.\" This file was generated with po4a. Translate the source file.
.\"
.\"*******************************************************************
.TH regex 7 "15 juin 2024" "Pages du manuel de Linux 6.9.1"
.SH NOM
regex – Expressions rationnelles POSIX.2
.SH DESCRIPTION
Les expressions rationnelles («\ ER\ »), définies par POSIX.2 existent sous
deux formes\ : les ER modernes (en gros, celles de \fBegrep\fP(1) que POSIX.2
appelle expressions rationnelles «\ étendues\ ») et les ER obsolètes (en
gros, celles de \fBed\fP(1)\ — les ER « basiques » pour POSIX.2) (N.d.T.\ : le
terme «\ officiel\ » pour la traduction de «\ regular expression\ » est «\ expression rationnelle\ » et c'est celui employé ici, mais consultez
https://fr.wikipedia.org/wiki/Expression_régulières). Les ER obsolètes
existent surtout à titre de compatibilité avec d'anciens programmes\ et
elles seront abordées à la fin. POSIX.2 laisse de côté certains aspects
syntaxiques et sémantiques des ER\ ; un signe «\ \*(dg\ » indique une
interprétation qui peut ne pas être totalement portable sur d'autres
implémentations de POSIX.2.
.P
Une ER (moderne) est une\*(dg ou plusieurs \fIbranches\fP non vides\*(dg,
séparées par «\ |\ ». Elle correspond à tout ce qui correspond à l'une des
branches.
.P
Une branche est une\*(dg ou plusieurs \fIpièces\fP concaténées. Elle correspond
à ce qui correspond à la première pièce, suivi de ce qui correspond à la
seconde, et ainsi de suite.
.P
Une pièce est un \fIatome\fP suivi éventuellement d'un unique\*(dg «\ *\ », «\ +\ », «\ ?\ » ou d'un \fIencadrement\fP. Un atome suivi de «\ *\ » correspond à
une séquence de zéro ou plusieurs correspondances pour l'atome. Un atome
suivi d'un «\ +\ » correspond à une séquence d’une ou plusieurs
correspondances pour l'atome. Un atome suivi d'un «\ ?\ » correspond à une
séquence de zéro ou une correspondance pour l'atome.
.P
Un \fIencadrement\fP est un «\ {\ » suivi d'un entier décimal non signé, suivi
éventuellement d'une virgule, suivie éventuellement d'un autre entier
décimal non signé, toujours suivis d'un «\ }\ ». Les entiers doivent être
entre 0 et \fBRE_DUP_MAX\fP (255\*(dg) compris et, s'il y en a deux, le second
ne doit pas être plus petit que le premier. Un atome suivi d'un encadrement
contenant un entier \fIi\fP et pas de virgule correspond à une séquence de \fIi\fP
correspondances pour l'atome exactement. Un atome suivi d'un encadrement
contenant un entier \fIi\fP et une virgule correspond à une séquence d'au moins
\fIi\fP correspondances pour l'atome. Un atome suivi d'un encadrement contenant
deux entiers \fIi\fP et \fIj\fP correspond à une séquence de \fIi\fP à \fIj\fP (compris)
correspondances pour l'atome.
.P
An atom is a regular expression enclosed in "\fI()\fP" (matching a match for
the regular expression), an empty set of "\fI()\fP" (matching the null
string)\*(dg, a \fIbracket expression\fP (see below), \[aq].\[aq] (matching any
single character), \[aq]\[ha]\[aq] (matching the null string at the
beginning of a line), \[aq]$\[aq] (matching the null string at the end of a
line), a \[aq]\[rs]\[aq] followed by one of the characters
"\fI\[ha].[$()|*+?{\[rs]\fP" (matching that character taken as an ordinary
character), a \[aq]\[rs]\[aq] followed by any other character\*(dg (matching
that character taken as an ordinary character, as if the \[aq]\[rs]\[aq] had
not been present\*(dg), or a single character with no other significance
(matching that character). A \[aq]{\[aq] followed by a character other than
a digit is an ordinary character, not the beginning of a bound\*(dg. It is
illegal to end an RE with \[aq]\[rs]\[aq].
.P
Une \fIexpression entre crochets\fP est une liste de caractères encadrés par «\ \fI[]\fP\ ». Elle correspond normalement à n'importe quel caractère de la liste
(mais voir ci\-après). Si la liste débute par «\ ^\ », elle correspond à
n'importe quel caractère \fIsauf\fP ceux de la liste (mais voir ci\-après). Si
deux caractères de la liste sont séparés par un «\ \-\ », ils représentent
tout \fIl'intervalle\fP de caractères entre eux (compris). Par exemple
« \fI[0\-9]\fP » en ASCII représente n'importe quel chiffre décimal. Il est
illégal\*(dg d'utiliser la même limite dans deux intervalles, comme «\ \fIa\-c\-e\fP\ ». Les intervalles dépendent beaucoup de l'ordre de classement des
caractères et les programmes portables doivent éviter de les utiliser.
.P
To include a literal \[aq]]\[aq] in the list, make it the first character
(following a possible \[aq]\[ha]\[aq]). To include a literal \[aq]\-\[aq],
make it the first or last character, or the second endpoint of a range. To
use a literal \[aq]\-\[aq] as the first endpoint of a range, enclose it in
"\fI[.\fP" and "\fI.]\fP" to make it a collating element (see below). With the
exception of these and some combinations using \[aq][\[aq] (see next
paragraphs), all other special characters, including \[aq]\[rs]\[aq], lose
their special significance within a bracket expression.
.P
Dans une expression entre crochets, un élément de classement (un seul
caractère ou une séquence de caractères qui se comporte comme un seul, ou un
nom de séquence de classement pour l’un ou l’autre) entre «\ \fI[.\fP\ » et «\ \&\fI.]\fP\ » correspond à la séquence des caractères de cet élément de
classement. Une séquence est un seul élément de la liste d'expressions entre
crochets. Une expression entre crochets contenant un élément de classement
multicaractère peut donc correspondre à plus d'un caractère. Par exemple, si
la séquence inclut un élément de classement «\ ch\ », alors l'ER «\ \fI[[.ch.]]*c\fP\ » correspond aux cinq premiers caractères de «\ chchcc\ ».
.P
Dans une expression entre crochets, un élément de classement encadré par «\ \fI[=\fP\ » et «\ \fI=]\fP\ » est une classe d'équivalence, correspondant aux
séquences de caractères de tous les éléments de classement équivalents à
celui\-ci, y compris lui\-même (s'il n'y a pas d'autres éléments équivalents,
le fonctionnement est le même que si l'encadrement était «\ \fI[.\fP\ » et «\ \&\fI.]\fP\ »). Par exemple, si o et \(^o sont membres d'une classe équivalence,
alors «\ \fI[[=o=]]\fP\ », «\ \fI[[=\(^o=]]\fP\ », et «\ \fI[o\(^o]\fP\ » sont tous
synonymes. Une classe d'équivalence ne doit\*(dg pas être une borne
d'intervalle.
.P
Dans une expression entre crochets, le nom d'une \fIclasse de caractères\fP
encadré par «\ \fI[:\fP\ » et «\ \fI:]\fP\ » correspond à la liste de tous les
caractères de la classe. Les noms des classes standard sont\ :
.P
.RS
.TS
l l l.
alnum digit punct
alpha graph space
blank lower upper
cntrl print xdigit
.TE
.RE
.P
.\" As per http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=295666
.\" The following does not seem to apply in the glibc implementation
.\" .P
.\" There are two special cases\*(dg of bracket expressions:
.\" the bracket expressions "\fI[[:<:]]\fP" and "\fI[[:>:]]\fP" match
.\" the null string at the beginning and end of a word respectively.
.\" A word is defined as a sequence of
.\" word characters
.\" which is neither preceded nor followed by
.\" word characters.
.\" A word character is an
.\" .I alnum
.\" character (as defined by
.\" .BR wctype (3))
.\" or an underscore.
.\" This is an extension,
.\" compatible with but not specified by POSIX.2,
.\" and should be used with
.\" caution in software intended to be portable to other systems.
Ces classes correspondent aux classes de caractères définies pour
\fBwctype\fP(3). Une localisation peut en fournir d'autres. Une classe de
caractères ne doit pas être utilisée comme borne d'intervalle.
.P
Dans le cas où une ER peut correspondre à plusieurs sous\-chaînes d'une
chaîne donnée, elle correspond à celle qui commence le plus tôt dans la
chaîne. Si l'ER peut correspondre à plusieurs sous\-chaînes débutant au même
point, elle correspond à la plus longue sous\-chaîne. Les sous\-expressions
correspondent aussi à la plus longue sous\-chaîne possible, à condition que
la correspondance complète soit la plus longue possible, avec les
sous\-expressions débutant le plus tôt dans l'ER ayant priorité sur celles
débutant plus loin. Notez que les sous\-expressions de haut niveau ont donc
priorité sur les sous\-expressions de bas niveau les composant.
.P
La longueur des correspondances est mesurée en caractères, pas en éléments
de classement. Une chaîne vide est considérée comme plus longue qu'aucune
correspondance. Par exemple «\ \fIbb*\fP\ » correspond aux trois caractères du
milieu de «\ abbbc\ », «\ \fI(wee|week)(knights|nights)\fP\ » correspond aux
dix caractères de «\ weeknights\ », quand «\ \fI(.*).*\fP\ » est mis en
correspondance avec «\ abc\ », la sous\-expression entre parenthèses
correspond aux trois caractères, et si «\ \fI(a*)*\fP\ » est mis en
correspondance avec «\ bc\ », l'ER entière et la sous\-ER entre parenthèses
correspondent toutes deux avec la chaîne vide.
.P
Si une correspondance sans distinction de casse est demandée, toutes les
différences entre capitales et minuscules disparaissent de l'alphabet. Quand
un symbole alphabétique existant dans les deux casses apparait hors d'une
expression entre crochets, il est remplacé par une expression contenant les
deux casses (par exemple «\ x\ » devient «\ \fI[xX]\fP\ »). Lorsqu'il apparaît
dans une expression entre crochets, tous ses équivalents sont ajoutés («\ \fI[x]\fP\ » devient «\ \fI[xX]\fP\ » et «\ \fI[\[ha]x]\fP\ » devient «\ \fI[\[ha]xX]\fP\ »).
.P
Aucune limite particulière n'est imposée sur la longueur des ER\*(dg. Les
programmes destinés à être portables devraient limiter leurs ER à
256 octets, car une implémentation peut refuser les expressions plus longues
pour demeurer compatible avec POSIX.
.P
Obsolete ("basic") regular expressions differ in several respects.
\[aq]|\[aq], \[aq]+\[aq], and \[aq]?\[aq] are ordinary characters and there
is no equivalent for their functionality. The delimiters for bounds are
"\fI\[rs]{\fP" and "\fI\[rs]}\fP", with \[aq]{\[aq] and \[aq]}\[aq] by themselves
ordinary characters. The parentheses for nested subexpressions are
"\fI\[rs](\fP" and "\fI\[rs])\fP", with \[aq](\[aq] and \[aq])\[aq] by themselves
ordinary characters. \[aq]\[ha]\[aq] is an ordinary character except at the
beginning of the RE or\*(dg the beginning of a parenthesized subexpression,
\[aq]$\[aq] is an ordinary character except at the end of the RE or\*(dg the
end of a parenthesized subexpression, and \[aq]*\[aq] is an ordinary
character if it appears at the beginning of the RE or the beginning of a
parenthesized subexpression (after a possible leading \[aq]\[ha]\[aq]).
.P
Finally, there is one new type of atom, a \fIback reference\fP: \[aq]\[rs]\[aq]
followed by a nonzero decimal digit \fId\fP matches the same sequence of
characters matched by the \fId\fPth parenthesized subexpression (numbering
subexpressions by the positions of their opening parentheses, left to
right), so that, for example, \fI\[dq]\[rs]([bc]\[rs])\[rs]1\[dq]\fP matches
\fI\[dq]bb\[dq]\fP or \fI\[dq]cc\[dq]\fP but not \fI\[dq]bc\[dq]\fP.
.SH BOGUES
Utiliser deux sortes d'ER est une ineptie.
.P
La norme POSIX.2 actuelle dit que «\ )\ » est un caractère ordinaire en
l'absence de la «\ (\ » correspondante. C'est dû à une erreur
d'interprétation et cela changera probablement. Évitez d'en tenir compte.
.P
Back references are a dreadful botch, posing major problems for efficient
implementations. They are also somewhat vaguely defined (does
"\fIa\[rs](\[rs](b\[rs])*\[rs]2\[rs])*d\fP" match "abbbd"?). Avoid using them.
.P
.\" As per http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=295666
.\" The following does not seem to apply in the glibc implementation
.\" .P
.\" The syntax for word boundaries is incredibly ugly.
Les spécifications de POSIX.2 sur les correspondances sans distinction de
casse sont assez vagues. La définition « une casse implique toutes les
casses » donnée plus haut est le consensus actuel parmi les implémentations
comme étant la bonne interprétation.
.SH AUTEUR
.\" Sigh... The page license means we must have the author's name
.\" in the formatted output.
Cette page est tirée du paquet regex de Henry Spencer.
.SH "VOIR AUSSI"
\fBgrep\fP(1), \fBregex\fP(3)
.P
POSIX.2, section 2.8 (Regular Expression Notation).
.PP
.SH TRADUCTION
La traduction française de cette page de manuel a été créée par
Christophe Blaess ,
Stéphan Rafin ,
Thierry Vignaud ,
François Micaux,
Alain Portal ,
Jean-Philippe Guérard ,
Jean-Luc Coulon (f5ibh) ,
Julien Cristau ,
Thomas Huriaux ,
Nicolas François ,
Florentin Duneau ,
Simon Paillard ,
Denis Barbier ,
David Prévot ,
Frédéric Hantrais
et
Jean-Paul Guillonneau
.
.PP
Cette traduction est une documentation libre ; veuillez vous reporter à la
.UR https://www.gnu.org/licenses/gpl-3.0.html
GNU General Public License version 3
.UE
concernant les conditions de copie et
de distribution. Il n'y a aucune RESPONSABILITÉ LÉGALE.
.PP
Si vous découvrez un bogue dans la traduction de cette page de manuel,
veuillez envoyer un message à
.MT debian-l10n-french@lists.debian.org
.ME .