Große Daten - Speicherung und Abfrage

stimmen
2

Wir haben eine riesige Daten von etwa 300 Millionen Datensätze, die alle 3-6 months.We aktualisiert werden erhalten müssen diese Daten abzufragen (kontinuierlich, Echtzeit) etwas information.What zu bekommen sind die Optionen - ein RDBMS (MySQL) oder einige andere Option wie Hadoop.Which besser sein wird?

Veröffentlicht am 09/12/2008 um 15:30
quelle vom benutzer
In anderen Sprachen...                            


5 antworten

stimmen
3

300M Aufzeichnungen sind auch im Rahmen der regelmäßigen relationaler Datenbanken und Live-Abfrage sollte kein Problem sein, wenn Sie Indizes richtig zu verwenden.

Hadoop klingt wie viel des Guten, wenn Sie wirklich stark verteilte und redundante Daten benötigen, und es wird es auch schwieriger Unterstützung zu finden, wenn Sie in Schwierigkeiten oder für Optimierungen laufen.

Beantwortet am 09/12/2008 um 15:54
quelle vom benutzer

stimmen
1

Wie bereits gesagt, kann die moderne RDBMS solche Tabellen verarbeitet, je nach den Abfragen und Schema (einige Optimierungen würden gemacht werden müssen). Wenn Sie einen guten Schlüssel haben die Zeilen durch (wie eine Datumsspalte) zu spalten, dann partioniong / sharding Techniken helfen Ihnen, die Tabelle in mehrere kleine aufzuteilen.

Sie können mehr über diese und andere Skalierungstechniken in Frage las ich vor hier irgendwann gefragt - Skalierung Lösungen für MySQL (Replikation, Clustering)

Beantwortet am 09/12/2008 um 15:45
quelle vom benutzer

stimmen
1

Nun, ich habe ein paar PostgreSQL Datenbanken mit einigen Tischen mit mehr als 700M Aufzeichnungen und sie sind die ganze Zeit aktualisiert.

Eine Abfrage in diesen Tabellen arbeitet sehr schnell (wenige Millisekunden) und ohne Probleme. Nun ist meine Daten recht einfach, und ich habe Indizes auf den Feldern ich abfragen.

Also würde ich sagen, wird es hängt alles davon ab, welche Art von Fragen, die Sie werde zu machen, und wenn Sie genug Geld haben, auf schnellen Festplatten zu verbringen.

Beantwortet am 09/12/2008 um 15:37
quelle vom benutzer

stimmen
0

300 Millionen nicht wirklich :-) in diesen Tagen so groß zählen.

Wenn Sie meistens abfragen und, wissen Sie, mehr oder weniger, welche Form die Abfragen dann MySQL-Tabellen mit den entsprechenden Indizes nehmen wird gut funktionieren.

Wenn Sie ständig Updates zur gleichen Zeit appying werden, wie Sie Abfragen dann wählen PostgreSQL ausgeführt werden, da es eine bessere Parallelität Handhabung hat.

MS SQL Server, Sybase, Oracle und DB2 werden alle diese Bände mit Leichtigkeit, wenn Ihr Unternehmen Geld ausgeben vorzieht.

Wenn auf der anderen Seite beabsichtigen Sie wirklich frei Format Abfragen auf unstrukturierte Daten zu tun, dann Hadoop oder ähnlich wäre eine bessere Wette.

Beantwortet am 09/12/2008 um 15:48
quelle vom benutzer

stimmen
0

300 Millionen Datensätze sollten keine Probleme auf ein Top-End-RDBMS wie Oracle, SQL Server, DB2 darstellen. Ich bin nicht sicher über mySQL, aber ich bin mir ziemlich sicher, dass es für einige ziemlich große Datenbanken in diesen Tagen verwendet wird.

Beantwortet am 09/12/2008 um 15:41
quelle vom benutzer

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more