Pythons "Pandas" und "DataFrame.to_parquet" sind so gut, dass "Python die Art ist, mit Parkettdateien umzugehen". https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.to_parquet.html#pandas.DataFrame.to_parquet
Ich fand es einfach, mit Ruby zu machen, also werde ich es teilen.
Sie können das offizielle Apache-Juwel verwenden. (Beachten Sie, dass ≠ roter Pfeil) https://github.com/apache/arrow/tree/master/ruby/red-parquet
Edelsteininstallation
$ gem install red-parquet
Testdatei erstellen (csv)
$ echo colA,colB > test.csv
$ echo 1,2 >> test.csv
Umwandlungsprozess auf Rubin (csv-> Parkett)
$ irb
irb(main):001:0> require "parquet"
=> true
irb(main):002:0> table = Arrow::Table.load("./test.csv")
=> #<Arrow::Table:0x7fbb0d3e6708 ptr=0x7fbb0e0a4010>
colA colB
0 1 2
irb(main):003:0> table.save("./test.parquet")
=> true
Erhöhen Sie test.parquet auf S3 und überprüfen Sie dies mit S3 Select
erledigt! !! (Er macht auch Typinferenz ...!)
Wenn Sie diesen Bereich lesen, scheinen Sie Dateien auch mit Ruby unerwartet bedienen zu können. https://www.slideshare.net/kou/datasciencerb