Apache Solr bemutatója: Mi az a Solr? Architecture és telepítés

Mi az Apache Solr?

Apache Solr egy nyílt forráskódú keresőszerver-platform, amelybe bele van írva Java nyelvet az Apache szoftveralapítvány. Nagyon méretezhető, és készen áll a keresőmotor telepítésére nagy mennyiségű szövegközpontú adat kezelésére. Az Apache Solr használatának célja nagy mennyiségű webtartalom indexelése és keresése, valamint releváns tartalom biztosítása a keresési lekérdezés alapján.

Az Apache Solr egy REST-API alapú HTTP burkoló az Apache Lucene teljes szövegű keresőmotor körül. A fordított index olyan szavak listája, ahol minden szóbejegyzés azokra a dokumentumokra hivatkozik, amelyekben tárolva van. Így a „guru99” keresési lekérdezéshez az összes dokumentumot megkapjuk, egyszerű „get” művelettel.

Az Apache Solr története

  • 1999: Doug Cutting kiadta a Lucene-t
  • 2004: A Solr-t Yonik Seeley fejlesztette ki a CNET-en egy részvállalaton belüli projektként
  • 2006: A CNET közzéteszi a forráskódot az Apache szoftvernek adományozva Foundation
  • 2008: Megjelent a Solr 1.3 továbbfejlesztett keresési lehetőségekkel és teljesítménynöveléssel
  • 2010: Lucene és Solr egyesülése
  • 2012: Megjelent a Solr 4.0-s verziója, új Solr Cloud funkcióval
  • 2016: Megjelent a Solr 6.0, amely támogatja a párhuzamos SQL lekérdezések végrehajtását

Az Apache Solr jellemzői

Íme az Apache Solr fontos funkciói:

  • Automatikus terheléselosztás
  • Szabvány alapú nyílt interfészek – XML, JSON és HTTP
  • Az ajánlások és a helyesírási javaslatok támogatottak
  • Az automatikus kiegészítés és a térbeli keresés támogatása
  • Beépített biztonság a hitelesítéshez és engedélyezéshez
  • Lehetővé teszi többnyelvű kulcsszókeresés végrehajtását
  • Automatikus kiegészítés/előre gépelés
  • Kötegelt és streaming feldolgozás
  • A gépi tanulási modellek felépítése egyszerű
  • Kifejezetten nagy mennyiségű internetes forgalomhoz optimalizálva
  • Átfogó HTML csodálati felületek
  • A séma és a séma nélküli konfigurációt egyaránt támogatja
  • Fazettált keresés és szűrés
  • Központi konfiguráció az egészhez Cluster

Az Apache Solrban használt kulcskifejezések

Ebben a Solr keresőmotor oktatóanyagában megismerjük az Apache Solrban használt kulcsszavakat:

Kulcsfogalom Leírás
Solr Core A Solr Core az összes dokumentumból származó szövegek és mezők indexeként definiálható. Egy Solr-példány egy vagy több Solr magot tartalmazhat.

Core = a Lucene Index + Solr konfiguráció egy példánya

Solr Példány A Solr-példány egy példány, amelyen a Solr fut Java Virtuális gép (JVM). Önálló módban csak egy példányt kínál, míg felhő módban egy vagy több példány is lehet.
Indexelés Az indexelés egy módszer a dokumentum tartalmának a Solr Indexhez való hozzáadására. Az Apache Solr Apache Lucene Inverted Index technikát használ.
dokumentum Ez egy csoport mezők és azok értékei. A dokumentum az Apache Core-ban tárolt adatok alapegysége. Egy Apache mag egy vagy több dokumentumot tartalmazhat.
Mező A mező egy kulcs-érték pár, amely a tényleges adatokat egy dokumentumban tárolja. A kulcs megadja a mező nevét, és az értéket, amely tartalmazza a mezőadatokat. Egy dokumentum egy vagy több mezőt tartalmazhat. Az Apache Solr használja a dokumentumtartalom indexelésére.
Nyugodt API-k A Solr-ral való kommunikációhoz nem szükséges használni Java programozás. Ehelyett az Apache Solr biztosítja pihentető szolgáltatások kommunikálni vele. Különféle fájlformátumokban küldhet dokumentumokat és fogadhat eredményeket, például JSON, XML és CSV.
Teljes szöveges keresés A Solr funkciókat kínál a teljes szöveges kereséshez, például tokenek, kifejezések, helyesírás-ellenőrzés, automatikus kiegészítés, helyettesítő karakter stb.
Admin felület A Solr egy könnyen használható, felhasználóbarát, funkciókkal működő felhasználói felületet kínál. A felület segítségével olyan feladatokat hajthat végre, mint a naplók kezelése, dokumentumok hozzáadása, törlése, frissítése és keresése.
Szövegközpontú és Relevancia szerint rendezve Az Apache Solr a szöveges dokumentumok keresésére szolgál, és az eredmények a felhasználó lekérdezésének megfelelően jelennek meg.
Csomópont A Solr felhőben minden egyes példány csomópontként ismert.
Cluster A fürt csomópontok gyűjteménye.
Gyűjtemény A fürtnek van egy logikai indexe, amelyet gyűjteménynek is neveznek.
szilánk Ez a gyűjtemény egy kis területe, amely az index egyetlen vagy több másolatát kínálja.
Másolat A replika a szilánk másolata, amely egy csomópontban fut.
Vezető Ez a szilánk másolata, amely elküldi a Solr Cloud kéréseit a többi replikához.

Apache Solr Architectúra

Most ebben a Solr keresési oktatóanyagban ismerkedjünk meg az Apache Solr-ral Architectúra:

Apache Solr Architectúra
Apache Solr Architectúra

Az Apache Solr a következő összetevőket veszélyezteti

Kérdés

A lekérdezéselemző elemzi azokat a lekérdezéseket, amelyeket át kell adnia a Solr-nak. Ellenőrzi a lekérdezést, hogy ellenőrizze a szintaktikai hibákat. A lekérdezések elemzése után lefordítja a Lucene által ismert formátumba.

Kéréskezelő

Az Apache Solrnak küldött kérelmeket a kéréskezelő dolgozza fel. A kérés lehet lekérdezési kérés vagy indexfrissítési kérés. Ki kell választania a kéréskezelőt az Ön igényei szerint. A kérés Solrnak való átadásához hozzá kell rendelnie a kezelőt egy adott URL-végponthoz.

Válasz író

A válaszíró formázott kimeneteket generál a bemeneti lekérdezésekhez. Támogatja a különböző formátumokat, mint például az XML, JSON, CSV.stb. A különböző típusú kérésekhez különböző válaszírók lehetnek.

Kezelő frissítése

Amikor frissítési kérelmet küld az Apache Solrnak, az egy beépülő modulon, aláíráson, naplózáson és indexelésen keresztül fut le. Ezt a folyamatot frissítéskérés-feldolgozónak nevezik. A frissítéskezelő felelős a módosításokért is, mint például a fájl hozzáadása vagy eldobása stb.

Apache Solr alkalmazások

Alkalmazás Használat
Intranet portál
  • Könnyű hozzáférés a kereséshez
  • Alkalmazás indítása
  • Hírek és események értesítése
  • Egyszeri bejelentkezéses hitelesítés
Összevont ügyfél
  • Egyszerűsített bemutatás
  • Keresés az összes tartalom között
  • Csak engedélyezett hozzáférés
  • Dokumentum megtekintése
Műszeradatkészletek
  • Tudósok számára optimalizálva
  • Adatfüggő menük
  • Speciális rácsszűrők
Szabályozó dokumentumok
  • Kutatók számára készült
  • Gazdag metaadat hozzáférés
  • Táblázat exportálás
  • Dokumentumgyorsító megtekintése
Beágyazott a PLM alkalmazásba
  • Jobb keresési élményt kínál, mint egy RDBMS
  • Késői kötés biztonsági modell
  • Dokumentálja az eszköztáron látható műveleteket

Hogyan kell telepíteni az Apache Solr-t?

Step 1) Nyissa meg a webhelyet, és folytassa a feliratkozást
Menjen erre link, Kattintson a „Tovább az előfizetésre” gombra.

Telepítse az Apache Solr-t

Step 2) Kattintson a Feltételek elfogadása gombra
A következő oldalon kattintson a Feltételek elfogadása gombra.

Telepítse az Apache Solr-t

Step 3) Várjon egy kicsit
Ezután várjon egy ideig, majd egy idő után elfogadja a kérést.

Telepítse az Apache Solr-t

Step 4) Tovább a Konfigurációhoz
Frissítse az oldalt, majd kattintson a „Tovább a konfigurációhoz” gombra.

Telepítse az Apache Solr-t

Step 5) Tovább az Indításhoz
Tartsa meg az alapértelmezett beállításokat, majd kattintson a „Tovább az indításhoz” gombra.

Telepítse az Apache Solr-t

Step 6) Tartsa meg az alapértelmezett beállításokat
A következő oldalon: Tartsa meg az alapértelmezett beállításokat

  • Győződjön meg arról, hogy rendelkezik a kulcs pem fájljával
  • Kattintson az „Indítás” gombra

Telepítse az Apache Solr-t

Látni fogja ezt a sikerüzenetet

Telepítse az Apache Solr-t

Step 7) Jegyezze fel a nyilvános DNS-t
Az EC2 konzolban jegyezze fel a példány nyilvános DNS-ét

Telepítse az Apache Solr-t

Step 8) Nyissa meg az alábbi URL-címet
A Solr eléréséhez egyszerűen használja az URL-t

http://publicdns:8983

esetünkben azzá válik

http://ec2-18-221-175-53.us-east-2.compute.amazonaws.com:8983

Telepítse az Apache Solr-t

Megjegyzés: Ha problémái vannak a példány elérésével, módosítsa a példány bejövő és kimenő szabályait, hogy engedélyezze az összes forgalmat, ahogy az az alábbi Solr lekérdezési példában látható:

Telepítse az Apache Solr-t

Elasticsearch vs. Apache Solr

paraméterek Apache Solr Rugalmas keresés
Természet Ez egy nyílt forráskódú projekt. Nem nyílt forráskódú projekt.
Statikus állapot Statikus a shema.xml-ben Static in elasticsearch.yml
Formátum: XML, CSV, JSON Csak JSON
index Futás közben újratölthető gyűjtéssel/mag újratöltéssel Az index/típus létrehozása során REST hívással határozzák meg
Dokumentáció Jól dokumentált. Rosszul van dokumentálva.
Szilánkok felosztása Lehetséges Nem lehetséges

Az Apache Solr előnyei

  • Segít csökkenteni az információ megtalálásához szükséges időt
  • Ez egy gyors, egyszerű, hatékony és rugalmas keresőmotor
  • Segít termékei és szolgáltatásai elérhetőbbé tételében
  • Növelje az ügyfelek webalkalmazásra fordított költségeit
  • Segít javítani a felhasználói élményt a webalkalmazásban a bevétel és a profit növelése érdekében
  • Átfogó HTML alapú adminisztrációs felület
  • Rugalmas és adaptálható XML konfigurációval
  • Bővíthető beépülő modul Architectúra
  • Nagyon skálázható, robusztus, hibatűrő keresőmotor
  • Támogatja az elosztott, árnyékolást, replikációt, Clustering és Multi-Node Architectúra

Az Apache Solr hátrányai

  • Ez nem egy ACID-kompatibilis adattár
  • Elsődleges adattárként nem hasznos. Csak másodlagos adattárként használható
  • Nem nyújt támogatást a tranzakciókhoz és az elosztott tranzakciókhoz
  • Nem támogatja a csatlakozásokat és az összetett lekérdezéseket
  • Normalizált adatokhoz nem optimális

Összegzésként

  • Az Apache Solr nyílt forráskódú REST-API alapú keresőszerver
  • Az Apache Solr-t a CNET-en fejlesztette ki Yonik Seeley, mint egy részvállalat házon belüli projektje
  • Az Apache Solr olyan funkciókat kínál, mint az automatikus kiegészítés és a térbeli keresés
  • A Solr Core, a Solr-példány, az indexelés, a dokumentum, a nyugalmi API-k, a teljes szöveges keresés, a rendszergazdai felület stb. néhány kulcsfontosságú kifejezés, amelyet az Apache Solr használ.
  • A lekérdezés, a kéréskezelő, a kérésíró és a frissítéskezelők az Apache Solr fontos összetevői.
  • Az intranet portál, az egyesített kliens, a műszeradatkészletek, a szabályozási dokumentumok, a PLM alkalmazásba ágyazott hasznos Apache Solr alkalmazások
  • Az Apache Solr jól dokumentált, összehasonlítva a rosszul dokumentált rugalmas kereséssel
  • Az Apache Solr legnagyobb előnye, hogy segít csökkenteni az információ megtalálásához szükséges időt
  • Az alkalmazás fő hátránya, hogy nem ACID-kompatibilis adattár