Python RegEx: re.match(), re.search(), re.findall() mit Beispiel
Was ist ein regulรคrer Ausdruck in Python?
A Regulรคrer Ausdruck (RE) In einer Programmiersprache handelt es sich um eine spezielle Textzeichenfolge, die zur Beschreibung eines Suchmusters verwendet wird. Es ist รคuรerst nรผtzlich, um Informationen aus Texten wie Code, Dateien, Protokollen, Tabellenkalkulationen oder sogar Dokumenten zu extrahieren.
Wรคhrend mit dem Python Regulรคrer Ausdruck: Das Erste, was man erkennen muss, ist, dass alles im Wesentlichen ein Zeichen ist und wir Muster schreiben, die einer bestimmten Zeichenfolge entsprechen, die auch als Zeichenfolge bezeichnet wird. ASCII- oder lateinische Buchstaben sind diejenigen, die Sie auf Ihrer Tastatur finden, und Unicode wird verwendet, um den fremdsprachigen Text abzugleichen. Dazu gehรถren Ziffern und Satzzeichen sowie alle Sonderzeichen wie $#@!% usw.
Zum Beispiel, a Python Ein regulรคrer Ausdruck kรถnnte ein Programm anweisen, nach einem bestimmten Text in der Zeichenfolge zu suchen und das Ergebnis dann entsprechend auszudrucken. Der Ausdruck kann Folgendes enthalten:
- Textabgleich
- Wiederholung
- Verzweigung
- Musterkomposition etc.
Regulรคrer Ausdruck oder RegEx in Python wird als RE bezeichnet (REs, Regexes oder Regex-Muster) werden importiert durch re Modul. Python unterstรผtzt regulรคre Ausdrรผcke durch Bibliotheken. RegEx in Python unterstรผtzt verschiedene Dinge wie Modifikatoren, Bezeichner und Leerzeichen.
| Identifiers | Modifikatoren | Leerzeichen | Flucht erforderlich |
|---|---|---|---|
| \d= eine beliebige Zahl (eine Ziffer) | \d stellt eine Ziffer dar. Beispiel: \d{1,5} Es wird eine Ziffer zwischen 1,5 wie 424,444,545 usw. deklariert. | \n = neue Zeile | . + * ? [] $ ^ () {} | \ |
| \D= alles andere als eine Zahl (eine Nicht-Ziffer) | + = entspricht 1 oder mehr | \s= Leerzeichen | |
| \s = Leerzeichen (Tab, Leerzeichen, Zeilenumbruch usw.) |
? = entspricht 0 oder 1 | \t =Tab | |
| \S= alles andere als ein Leerzeichen | * = 0 oder mehr | \e = Flucht | |
| \w = Buchstaben (Entspricht alphanumerischen Zeichen, einschlieรlich โ_โ) | $ entspricht dem Ende einer Zeichenfolge | \r = Wagenrรผcklauf | |
| \W =alles auรer Buchstaben ( Entspricht einem nicht alphanumerischen Zeichen auรer โ_โ) | ^ รbereinstimmung mit dem Anfang einer Zeichenfolge | \f= Formularvorschub | |
| . = alles auรer Buchstaben (Punkte) | | Entspricht entweder oder x/y | ------ | |
| \b = jedes Zeichen auรer der neuen Zeile | [] = Bereich oder โVarianzโ | ------ | |
| \. | {x} = diese Menge an vorhergehendem Code | ------ |
Syntax fรผr regulรคre Ausdrรผcke (RE).
import re
- Modul โreโ inklusive Python wird hauptsรคchlich fรผr die Suche und Manipulation von Zeichenfolgen verwendet
- Wird auch hรคufig fรผr Webseiten verwendet โKratzenโ (groรe Datenmengen von Websites extrahieren)
Wir beginnen das Ausdrucks-Tutorial mit dieser einfachen รbung, indem wir die Ausdrรผcke (w+) und (^) verwenden.
Beispiel fรผr w+- und ^-Ausdruck
- โ^โ: Dieser Ausdruck entspricht dem Anfang einer Zeichenfolge
- โw+โ: Dieser Ausdruck entspricht dem alphanumerischen Zeichen in der Zeichenfolge
Hier sehen wir eine Python RegEx Beispiel, wie wir w+ und ^ Ausdrรผcke in unserem Code verwenden kรถnnen. Wir behandeln die Funktion re.findall() in Python, spรคter in diesem Tutorial, aber fรผr den Moment konzentrieren wir uns einfach auf den Ausdruck \w+ und \^.
Wenn wir beispielsweise fรผr unsere Zeichenfolge โguru99, Bildung macht Spaรโ den Code mit w+ und ^ ausfรผhren, erhalten wir die Ausgabe โguru99โ.
import re xx = "guru99,education is fun" r1 = re.findall(r"^\w+",xx) print(r1)
Denken Sie daran, wenn Sie das +-Zeichen aus dem w+ entfernen, รคndert sich die Ausgabe und es wird nur das erste Zeichen des ersten Buchstabens ausgegeben, z. B. [g]
Beispiel fรผr einen \s-Ausdruck in der re.split-Funktion
- โsโ: Dieser Ausdruck wird zum Erstellen eines Leerzeichens in der Zeichenfolge verwendet
Um zu verstehen, wie dieser RegEx in Python funktioniert, beginnen wir mit einem einfachen Python RegEx-Beispiel einer Split-Funktion. Im Beispiel haben wir jedes Wort mithilfe der Funktion โre.splitโ aufgeteilt und gleichzeitig den Ausdruck \s verwendet, der es ermรถglicht, jedes Wort in der Zeichenfolge separat zu analysieren.
Wenn Sie diesen Code ausfรผhren, erhalten Sie die Ausgabe ['we', 'are', 'splitting', 'the', 'words'].
Sehen wir uns nun an, was passiert, wenn Sie โ\โ aus s entfernen. In der Ausgabe gibt es kein โsโ-Alphabet. Dies liegt daran, dass wir โ\โ aus der Zeichenfolge entfernt haben und โsโ als regulรคres Zeichen ausgewertet wird und die Wรถrter daher รผberall dort aufgeteilt werden, wo โsโ in der Zeichenfolge gefunden wird.
Ebenso gibt es eine Reihe anderer Python regulรคrer Ausdruck, den Sie auf verschiedene Weise verwenden kรถnnen in Python wie \d, \D, $, \., \b usw.
Hier ist der vollstรคndige Code
import re xx = "guru99,education is fun" r1 = re.findall(r"^\w+", xx) print((re.split(r'\s','we are splitting the words'))) print((re.split(r's','split the words')))
Als nรคchstes werden wir die Arten von Methoden sehen, die mit regulรคren Ausdrรผcken verwendet werden in Python.
Verwendung regulรคrer Ausdrucksmethoden
Das Paket โreโ bietet mehrere Methoden, um Abfragen auf einer Eingabezeichenfolge durchzufรผhren. Wir werden die Methoden von re in Python:
- re.match()
- Forschung()
- re.findall()
Hinweis: Basierend auf den regulรคren Ausdrรผcken, Python bietet zwei verschiedene primitive Operationen. Die Methode match sucht nur am Anfang der Zeichenfolge nach einer รbereinstimmung, wรคhrend search an einer beliebigen Stelle in der Zeichenfolge nach einer รbereinstimmung sucht.
re.match()
re.match() Funktion von re in Python durchsucht das regulรคre Ausdrucksmuster und gibt das erste Vorkommen zurรผck. Python Die RegEx Match-Methode sucht nur am Anfang der Zeichenfolge nach einer รbereinstimmung. Wenn also in der ersten Zeile eine รbereinstimmung gefunden wird, gibt sie das รbereinstimmungsobjekt zurรผck. Wenn jedoch in einer anderen Zeile eine รbereinstimmung gefunden wird, Python Die RegEx-Match-Funktion gibt null zurรผck.
Betrachten Sie beispielsweise den folgenden Code von Python re.match()-Funktion. Die Ausdrรผcke โw+โ und โ\Wโ werden mit den Wรถrtern รผbereinstimmen, die mit dem Buchstaben โgโ beginnen, und danach wird alles, was nicht mit โgโ beginnt, nicht erkannt. Um die รbereinstimmung fรผr jedes Element in der Liste oder Zeichenfolge zu รผberprรผfen, fรผhren wir die For-Schleife in diesem aus. Python re.match() Beispiel.
re.search(): Muster im Text finden
Forschung() Funktion durchsucht das regulรคre Ausdrucksmuster und gibt das erste Vorkommen zurรผck. Im Gegensatz Python re.match(), es werden alle Zeilen des Eingabestrings รผberprรผft. Python Die Funktion re.search() gibt ein รbereinstimmungsobjekt zurรผck, wenn das Muster gefunden wird, und โnullโ, wenn das Muster nicht gefunden wird.
Wie verwende ich search()?
Um die Funktion search() zu verwenden, mรผssen Sie importieren Python re-Modul zuerst und fรผhren Sie dann den Code aus. Python Die Funktion re.search() รผbernimmt das zu scannende โMusterโ und den โTextโ aus unserem Hauptstring
Hier suchen wir zum Beispiel nach zwei Literalzeichenfolgen โSoftwaretestsโ โguru99โ in einer Textzeichenfolge โSoftware Tests macht Spaรโ. Fรผr โSoftwaretestsโ haben wir die รbereinstimmung gefunden, daher gibt es die Ausgabe von Python Beispiel fรผr re.search(): โEine รbereinstimmung gefundenโ. Fรผr das Wort โguru99โ konnten wir jedoch nichts in der Zeichenfolge finden, daher wird die Ausgabe โKeine รbereinstimmungโ zurรผckgegeben.
re.findall()
finde alle() Das Modul wird verwendet, um nach โallenโ Vorkommen zu suchen, die einem bestimmten Muster entsprechen. Im Gegensatz dazu gibt das Modul search() nur das erste Vorkommen zurรผck, das dem angegebenen Muster entspricht. findall() durchlรคuft alle Zeilen der Datei und gibt alle nicht รผberlappenden Musterรผbereinstimmungen in einem einzigen Schritt zurรผck.
So verwenden Sie re.findall() in Python?
Hier haben wir eine Liste von E-Mail-Adressen und mรถchten, dass alle E-Mail-Adressen aus der Liste abgerufen werden. Wir verwenden die Methode re.findall() in Python. Es werden alle E-Mail-Adressen aus der Liste gefunden.
Hier ist der vollstรคndige Code fรผr ein Beispiel von re.findall()
import re
list = ["guru99 get", "guru99 give", "guru Selenium"]
for element in list:
z = re.match("(g\w+)\W(g\w+)", element)
if z:
print((z.groups()))
patterns = ['software testing', 'guru99']
text = 'software testing is fun?'
for pattern in patterns:
print('Looking for "%s" in "%s" ->' % (pattern, text), end=' ')
if re.search(pattern, text):
print('found a match!')
else:
print('no match')
abc = 'guru99@google.com, careerguru99@hotmail.com, users@yahoomail.com'
emails = re.findall(r'[\w\.-]+@[\w\.-]+', abc)
for email in emails:
print(email)
Python Flags
Viele Python Regex-Methoden und Regex-Funktionen nehmen ein optionales Argument namens Flags an. Diese Flags kรถnnen die Bedeutung der gegebenen Python Regex-Muster. Um diese zu verstehen, werden wir uns ein oder zwei Beispiele dieser Flags ansehen.
Verschiedene Flaggen in Python Dazu gehรถren
| Syntax fรผr Regex-Flags | Was macht diese Flagge? |
|---|---|
| [re.M] | Berรผcksichtigen Sie Anfang/Ende jede Zeile |
| [re.I] | Die Groร-/Kleinschreibung wird ignoriert |
| [bez.S] | Machen [ . ] |
| [re.U] | Make { \w,\W,\b,\B} folgt den Unicode-Regeln |
| [re.L] | Lassen Sie {\w,\W,\b,\B} dem Gebietsschema folgen |
| [re.X] | Kommentare in Regex zulassen |
Beispiel fรผr re.M- oder Multiline-Flags
Bei mehrzeiligen Mustern entspricht das Zeichen [^] dem ersten Zeichen der Zeichenfolge und dem Anfang jeder Zeile (unmittelbar nach jeder neuen Zeile). Wรคhrend der Ausdruck โwโ verwendet wird, um das Leerzeichen mit Zeichen zu markieren. Wenn Sie den Code ausfรผhren, gibt die erste Variable โk1โ nur das Zeichen โgโ fรผr das Wort โguru99โ aus, wรคhrend beim Hinzufรผgen des Flags โmehrzeiligโ die ersten Zeichen aller Elemente in der Zeichenfolge abgerufen werden.
Hier ist der Code
import re xx = """guru99 careerguru99 selenium""" k1 = re.findall(r"^\w", xx) k2 = re.findall(r"^\w", xx, re.MULTILINE) print(k1) print(k2)
- Wir haben die Variable xx fรผr die Zeichenfolge โguru99โฆ. careerguru99โฆ.seleniumโ deklariert.
- Fรผhren Sie den Code aus, ohne mehrzeilige Flags zu verwenden. Die Ausgabe erfolgt nur โgโ aus den Zeilen
- Fรผhren Sie den Code mit dem Flag โmultilineโ aus. Wenn Sie โk2โ drucken, wird die Ausgabe als โgโ, โcโ und โsโ ausgegeben.
- Den Unterschied sehen wir also nach und vor dem Hinzufรผgen mehrerer Zeilen im obigen Beispiel.
Ebenso kรถnnen Sie auch andere Python Flags wie re.U (Unicode), re.L (Gebietsschema folgen), re.X (Kommentare zulassen) usw.
Python 2 Beispiel
Die obigen Codes sind Python 3 Beispiele, Wenn Sie in laufen wollen Python 2 Bitte beachten Sie den folgenden Code.
# Example of w+ and ^ Expression
import re
xx = "guru99,education is fun"
r1 = re.findall(r"^\w+",xx)
print r1
# Example of \s expression in re.split function
import re
xx = "guru99,education is fun"
r1 = re.findall(r"^\w+", xx)
print (re.split(r'\s','we are splitting the words'))
print (re.split(r's','split the words'))
# Using re.findall for text
import re
list = ["guru99 get", "guru99 give", "guru Selenium"]
for element in list:
z = re.match("(g\w+)\W(g\w+)", element)
if z:
print(z.groups())
patterns = ['software testing', 'guru99']
text = 'software testing is fun?'
for pattern in patterns:
print 'Looking for "%s" in "%s" ->' % (pattern, text),
if re.search(pattern, text):
print 'found a match!'
else:
print 'no match'
abc = 'guru99@google.com, careerguru99@hotmail.com, users@yahoomail.com'
emails = re.findall(r'[\w\.-]+@[\w\.-]+', abc)
for email in emails:
print email
# Example of re.M or Multiline Flags
import re
xx = """guru99
careerguru99
selenium"""
k1 = re.findall(r"^\w", xx)
k2 = re.findall(r"^\w", xx, re.MULTILINE)
print k1
print k2
Testen Sie Ihre Python Wissen
1. Mit welcher Methode werden alle Vorkommen eines Musters in einer Zeichenfolge gefunden?
- Forschung()
- re.match()
- re.findall()
- erneut teilen()
2. Was stellt die Zeichenklasse \d in regulรคren Ausdrรผcken dar?
- Beliebige Ziffer (0-9)
- Alle Zeichen, die keine Ziffern sind
- Alle Leerzeichen
- Jeder Buchstabe oder jede Zahl
3. Welche Funktion wรผrden Sie verwenden, um eine Zeichenfolge basierend auf Leerzeichen aufzuteilen?
- re.split(r'\s', Zeichenfolge)
- re.findall(r'\w+', Zeichenfolge)
- re.match(r'\s+', Zeichenfolge)
- re.split(r'\w+', Zeichenfolge)
4. Was ist der Hauptunterschied zwischen re.match() und re.search()?
- re.match() sucht nach einem Muster am Anfang einer Zeichenfolge, wรคhrend re.search() nach einem Muster an einer beliebigen Stelle in der Zeichenfolge sucht.
- re.match() gibt alle รbereinstimmungen zurรผck, wรคhrend re.search() die erste รbereinstimmung zurรผckgibt.
- re.search() ist schneller als re.match().
- Beide Funktionen verhalten sich gleich.
Zusammenfassung
Ein regulรคrer Ausdruck in a Programmiersprache ist eine spezielle Textzeichenfolge, die zur Beschreibung eines Suchmusters verwendet wird. Es umfasst Ziffern und Satzzeichen sowie alle Sonderzeichen wie $#@!% usw. Der Ausdruck kann Literale enthalten
- Textabgleich
- Wiederholung
- Verzweigung
- Musterkomposition etc.
In Python, ein regulรคrer Ausdruck wird als RE bezeichnet (REs, Regexes oder Regex-Muster) werden eingebettet durch Python re-Modul.
- Modul โreโ inklusive Python wird hauptsรคchlich fรผr die Suche und Manipulation von Zeichenfolgen verwendet
- Wird auch hรคufig fรผr das โScrapingโ von Webseiten verwendet (Extrahieren groรer Datenmengen von Websites).
- Zu den regulรคren Ausdrucksmethoden gehรถren: re.match(),re.search()& re.findall()
- Andere Python RegEx-Ersetzungsmethoden sind sub() und subn(), die verwendet werden, um รผbereinstimmende Zeichenfolgen in re zu ersetzen.
- Python Flags Viele Python Regex-Methoden und Regex-Funktionen nehmen ein optionales Argument namens Flags an.
- Diese Flags kรถnnen die Bedeutung des angegebenen Regex-Musters รคndern
- Verschiedene Python In Regex-Methoden verwendete Flags sind re.M, re.I, re.S usw.







