stammt von Eigennamen in PostgreSQL verhindern?

stimmen
2

In seiner Begeisterung stemm in Lexeme Token , PostgreSQL Volltext - Suchmaschine reduziert auch Eigennamen. Zum Beispiel:

essais=> select to_tsquery('english', 'bortzmeyer');
to_tsquery 
------------
'bortzmey'

essais=> select to_tsquery('english', 'balling');
to_tsquery 
------------
'ball'
(1 row)

Zumindest für die ersten, ich bin sicher, dass es nicht im Englisch-Wörterbuch ist! Was ist der bessere Weg, um diesen falschen ergeben zu vermeiden?

Veröffentlicht am 09/12/2008 um 21:43
quelle vom benutzer
In anderen Sprachen...                            


2 antworten

stimmen
4

Der Punkt der stamm Algorithmen ist nicht jedes Wort in seine richtigen Schaft zu verringern; das Ziel ist es, Wörter zu reduzieren , die gleich sind eine häufige Form stammten. Das Ziel ist in der Regel kein Wort zu erhalten , die den Benutzer präsentiert werden kann: auch wenn ‚Balling‘ und ‚Ball‘ würden sowohl produzieren ‚kjebnkkekaa‘ der Algorithmus korrekt ist, weil es sieht immer noch ‚Balling‘ und ‚Ball‘ , wie allgemein in Bezug auf das gleiche.

Passen Sie auch , dass kein stamm Algorithmus absolut perfekt ist, für weitere Informationen schauen Sie den Porter Stemming - Algorithmus auf

Beantwortet am 09/12/2008 um 22:12
quelle vom benutzer

stimmen
2

Das ist aufgrund der Schneeball stemmer wie erklärt hier . Grundsätzlich sollten Sie den Snowball stemmer und verwenden nur iSpell oder eines des anderen Wörterbücher deaktivieren, aber das würde auch die Effizienz ergibt für Worte nicht in den Wörterbuch reduzieren.

Beantwortet am 09/12/2008 um 22:21
quelle vom benutzer

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more