Apache Solr opetusohjelma: Mikä Solr on? Architecture ja asennus

Mikä on Apache Solr?

Apache Solr on avoimen lähdekoodin hakupalvelinalusta, joka on kirjoitettu sisään Java Apache-ohjelmistosäätiön kieli. Se on erittäin skaalautuva ja valmis ottamaan käyttöön hakukoneen käsittelemään suuria määriä tekstikeskeistä dataa. Apache Solrin käytön tarkoitus on indeksoida ja etsiä suuria määriä verkkosisältöä ja antaa osuvaa sisältöä hakukyselyn perusteella.

Apache Solr on REST-API-pohjainen HTTP-kääre Apache Lucene -nimisen kokotekstihakukoneen ympärille. Käänteinen indeksi on luettelo sanoista, jossa jokainen sanamerkintä linkittää asiakirjoihin, joihin se on tallennettu. Näin saadaan kaikki asiakirjat hakukyselylle "guru99" yksinkertaisella "get"-toiminnolla.

Apache Solrin historia

  • 1999: Doug Cutting julkaisi Lucenen
  • 2004: Yonik Seeley kehitti Solrin CNET:ssä osana yrityksen sisäistä projektia
  • 2006: CNET julkaisi lähdekoodin lahjoittamalla sen Apache-ohjelmistolle Foundation
  • 2008: Solr 1.3 julkaistiin parannetuilla hakuominaisuuksilla ja suorituskyvyn parannuksilla
  • 2010: Lucenen ja Solrin yhdistyminen
  • 2012: Solr-versio 4.0 julkaistiin, ja siinä on uusi Solr Cloud -ominaisuus
  • 2016: Solr 6.0 julkaistiin, joka tarjoaa tuen rinnakkaisten SQL-kyselyjen suorittamiseen

Apache Solrin ominaisuudet

Tässä on Apache Solrin tärkeitä ominaisuuksia:

  • Automaattinen kuormituksen tasapainotus
  • Standardipohjaiset avoimet rajapinnat – XML, JSON ja HTTP
  • Suosituksia ja oikeinkirjoitusehdotuksia tuetaan
  • Automaattisen täydennyksen ja paikkatietohaun tuki
  • Sisäänrakennettu suojaus todennusta ja valtuutusta varten
  • Voit suorittaa monikielisen avainsanahaun
  • Automaattinen täydennys / kirjoita eteenpäin -ennuste
  • Erä- ja suoratoistokäsittely
  • Koneoppimismallien rakentaminen on helppoa
  • Optimoitu erityisesti suureen verkkoliikenteeseen
  • Kattavat HTML-ihailurajapinnat
  • Tukee sekä Schema- että Schemaless-kokoonpanoa
  • Faceted haku ja suodatus
  • Keskimääritykset koko Cluster

Apache Solrissa käytetyt keskeiset termit

Nyt tässä Solr-hakukoneen opetusohjelmassa opimme Apache Solrissa käytetyistä avaintermeistä:

Avaintermi Tuotetiedot
Solr Core Solr Core voidaan määritellä kaikista asiakirjoista johdettujen tekstien ja kenttien hakemistoksi. Yhdessä Solr-instanssissa voi olla yksi tai useampi Solr-ydin.

Ydin = Lucene Index + Solr -kokoonpanon esiintymä

Solr esimerkki Solr Instance on ilmentymä, jossa Solr on käynnissä Java Virtuaalikone (JVM). Itsenäisessä tilassa se tarjoaa vain yhden esiintymän, kun taas pilvitilassa sinulla voi olla yksi tai useampi ilmentymä.
Indeksointi Indeksointi on menetelmä asiakirjan sisällön lisäämiseksi Solr Indexiin. Apache Solr käyttää Apache Lucene Inverted Index -tekniikkaa.
Asiakirja Se on ryhmä kenttiä ja niiden arvoja. Asiakirja on Apache Coreen tallennettujen tietojen perusyksikkö. Yksi Apache-ydin voi sisältää yhden tai useamman asiakirjan.
Kenttä Kenttä on avain-arvo-pari, joka tallentaa todelliset tiedot asiakirjaan. Avain määrittää kentän nimen ja arvon, joka sisältää kyseiset kenttätiedot. Asiakirjassa voi olla yksi tai useita kenttiä. Apache Solr käyttää sitä asiakirjan sisällön indeksointiin.
Rauhalliset sovellusliittymät Solrin kanssa kommunikointi ei edellytä käyttöä Java ohjelmointi. Sen sijaan Apache Solr tarjoaa levolliset palvelut kommunikoida sen kanssa. Voit lähettää asiakirjoja ja vastaanottaa tuloksia eri tiedostomuodoissa, kuten JSON, XML ja CSV.
Koko tekstihaku Solr tarjoaa ominaisuuksia koko tekstihakuun, kuten tunnuksia, lauseita, oikeinkirjoituksen tarkistusta, automaattista täydennystä, jokerimerkkejä jne.
Järjestelmänvalvojan käyttöliittymä Solr tarjoaa helppokäyttöisen, käyttäjäystävällisen, ominaisuuksiin perustuvan käyttöliittymän. Käyttöliittymän avulla voit suorittaa tehtäviä, kuten hallita lokeja, lisätä, poistaa, päivittää ja etsiä asiakirjoja.
Tekstikeskeinen ja lajiteltu osuvuuden mukaan Apache Solria käytetään tekstidokumenttien etsimiseen, ja tulokset toimitetaan käyttäjän kyselyn mukaan.
Solmu Solr-pilvessä jokainen esiintymä tunnetaan solmuna.
Cluster Klusteri on kokoelma solmuja.
Kokoelma Klusterilla on looginen indeksi, jota kutsutaan myös kokoelmaksi.
Sirpale Se on pieni alue kokoelmasta, joka tarjoaa yhden tai useita kopioita hakemistosta.
Kopio Replika on kopio sirpaleesta, joka suoritetaan solmussa.
Johtaja Se on kopio sirpaleesta, joka lähettää Solr Cloudin pyynnöt muiden replikoiden osalta.

Apache Solr Archirakenne

Tässä Solr-hakuoppaassa opitaan Apache Solrista Archirakenne:

Apache Solr Archirakenne
Apache Solr Archirakenne

Apache Solr vaarantaa seuraavat komponentit

Kysymys

Kyselyn jäsentäjä jäsentää kyselyt, jotka sinun on välitettävä Solrille. Se vahvistaa kyselysi tarkistaakseen syntaktiset virheet. Kun kyselyt on jäsennetty, se muuttuu Lucenen tuntemaan muotoon.

Pyynnön käsittelijä

Pyynnönkäsittelijä käsittelee Apache Solrille lähetetyt pyynnöt. Pyyntö voi olla kyselypyyntö tai indeksin päivityspyyntö. Sinun on valittava pyyntökäsittelijä tarpeidesi mukaan. Jotta voit välittää pyynnön Solrille, käsittelijä on määritettävä tiettyyn URL-päätepisteeseen.

Vastauksen kirjoittaja

Vastauksen kirjoittaja luo muotoiltuja tulosteita syöttökyselyille. Se tukee erilaisia ​​​​muotoja, kuten XML, JSON, CSV.etc. Sinulla voi olla eri vastauskirjoittajia erityyppisille pyynnöille.

Päivitä Käsittelijä

Kun lähetät päivityspyynnön Apache Solrille, se suoritetaan joukon laajennuksia, allekirjoituksia, lokikirjauksia ja indeksointia. Tämä prosessi tunnetaan päivityspyyntöprosessorina. Päivityskäsittelijä vastaa myös muutoksista, kuten tiedostojen lisäämisestä tai pudotuksesta jne.

Apache Solr -sovellukset

Hakemus Käyttö
Intranet-portaali
  • Helppo pääsy hakuun
  • Sovelluksen käynnistäminen
  • Uutiset ja tapahtumatiedotteet
  • Kertakirjautumistodennus
Liittynyt asiakas
  • Yksinkertaistettu esitys
  • Hae kaikesta sisällöstä
  • Vain valtuutettu pääsy
  • Asiakirjan katselu
Laitteen tietojoukot
  • Optimoitu tutkijoille
  • Tiedoista riippuvat valikot
  • Erikoisverkkosuodattimet
Sääntelyasiakirjat
  • Suunniteltu tutkijoille
  • Rikas metatietojen käyttöoikeus
  • Taulukkovienti
  • Näytä asiakirjakiihdytin
Upotettu PLM-sovellukseen
  • Tarjoaa paremman hakukokemuksen kuin RDBMS voisi tarjota
  • Myöhään sitova suojausmalli
  • Dokumentoi työkalurivillä näkyvät toiminnot

Kuinka asentaa Apache Solr?

Vaihe 1) Avaa verkkosivusto ja jatka tilaamista
Siirry tähän linkkiä, Napsauta "Jatka tilaamaan".

Asenna Apache Solr

Vaihe 2) Napsauta Hyväksy ehdot
Napsauta seuraavalla sivulla Hyväksy ehdot.

Asenna Apache Solr

Vaihe 3) Odota hetki
Seuraavaksi Odota jonkin aikaa ja sitten Pyyntö hyväksytään jonkin ajan kuluttua.

Asenna Apache Solr

Vaihe 4) Jatka kohtaan Määritykset
Päivitä sivu ja napsauta "Jatka konfigurointiin"

Asenna Apache Solr

Vaihe 5) Jatka Launch-kohtaan
Säilytä oletusasetukset ja napsauta "Jatka käynnistämään".

Asenna Apache Solr

Vaihe 6) Säilytä oletusasetukset
Seuraavalla sivulla Säilytä oletusasetukset

  • Varmista, että sinulla on avaimen pem-tiedosto
  • Napsauta "Käynnistä"

Asenna Apache Solr

Näet tämän menestysviestin

Asenna Apache Solr

Vaihe 7) Huomaa julkinen DNS
Merkitse EC2-konsolissa esiin ilmentymäsi julkinen DNS

Asenna Apache Solr

Vaihe 8) Avaa URL-osoite alla
Pääset Solriin käyttämällä URL-osoitetta

http://publicdns:8983

meidän tapauksessamme siitä tulee

http://ec2-18-221-175-53.us-east-2.compute.amazonaws.com:8983

Asenna Apache Solr

Huomautus: Jos sinulla on vaikeuksia käyttää ilmentymää, muuta ilmentymäsi saapuvan ja lähtevän liikenteen sääntöjä salliaksesi kaiken liikenteen alla olevan Solr-kyselyesimerkin mukaisesti:

Asenna Apache Solr

Elasticsearch vs. Apache Solr

parametrit Apache Solr Joustava haku
luonto Se on avoimen lähdekoodin projekti. Ei avoimen lähdekoodin projekti.
Staattinen tila Staattinen shema.xml:ssä Staattinen elasticsearch.yml
muodostuu XML, CSV, JSON Vain JSON
indeksi Voidaan ladata uudelleen ajon aikana keräämällä/ytimen uudelleenlatauksella Määritetään indeksin/tyypin luomisen aikana REST-kutsulla
Dokumentaatio Se on hyvin dokumentoitu. Se on huonosti dokumentoitu.
Sirpaleiden halkaisu mahdollinen Ei mahdollista

Apache Solrin edut

  • Auttaa lyhentämään tiedon etsimiseen kuluvaa aikaa
  • Se on nopea, yksinkertainen, tehokas ja joustava hakukone
  • Auttaa sinua tekemään tuotteistasi ja palveluistasi helpommin saavutettavia
  • Kasvata asiakkaiden kulutusta verkkosovellukseen
  • Auttaa sinua parantamaan verkkosovelluksen käyttökokemusta tulojen ja voittojen lisäämiseksi
  • Kattava HTML-pohjainen hallintaliittymä
  • Joustava ja mukautuva XML-kokoonpanolla
  • Laajennettava laajennus Archirakenne
  • Erittäin skaalautuva, kestävä, vikasietoinen hakukone
  • Tukee hajautettua, varjostusta, replikointia, Clusterja Multi-Node Archirakenne

Apache Solrin haitat

  • Se ei ole ACID-yhteensopiva Data Store
  • Se ei ole hyödyllinen ensisijaisena tietovarastona. Hyödyllinen vain toissijaisena tietovarastona
  • Ei tarjoa tukea tapahtumille ja hajautetuille tapahtumille
  • Ei tue liitoksia ja monimutkaisia ​​kyselyitä
  • Ei optimaalinen normalisoidulle tiedolle

Yhteenveto

  • Apache Solr on avoimen lähdekoodin ohjelmisto REST-API perustuva hakupalvelin
  • Yonik Seeley kehitti Apache Solrin CNET:ssä osana yrityksen sisäistä projektia
  • Apache Solr tarjoaa ominaisuuksia, kuten automaattisen täydennyksen ja Geo-Spatial Searchin
  • Solr Core, Solr Instance, Indexing, Document, Restful API, koko tekstihaku, järjestelmänvalvojan käyttöliittymä jne. ovat joitakin Apache Solrissa käytettyjä keskeisiä termejä.
  • Kysely-, pyyntökäsittelijä, pyyntökirjoitin ja päivityskäsittelijät ovat joitakin Apache Solrin tärkeitä osia.
  • Intranet-portaali, Federated Client, laitetietojoukot, säädösasiakirjat, upotettu PLM-sovellukseen ovat hyödyllisiä Apache Solr -sovelluksia
  • Apache Solr on hyvin dokumentoitu verrattuna elastiseen hakuun, joka on huonosti dokumentoitu
  • Apache Solrin suurin etu on, että se auttaa sinua vähentämään tiedon etsimiseen kuluvaa aikaa
  • Tämän sovelluksen suurin haittapuoli Se ei ole ACID-yhteensopiva Data Store