SNOW-1757554 Support quoted object fields name #869

sfc-gh-alhuang · 2024-10-22T00:57:41Z

This PR aims to support quoted object fields name for Iceberg table ingestion. The PR include following change:

Preserve original column name in schema: Decode column name after schema creation to avoid sub-column name mismatch. As we use TypeToMessageType to convert from Iceberg schema to parquet schema which include Avro column name encoding for all non-digit/letters characters.
Escape dot character in EP info keys: Escape the dot character in column name of a dot path with backslash. Without this, it's possible for two different columns to have the same dot path. E.g. ("a.a" int, a object(a int)).
Change stats map's key to field id: The old logic build dot path as key of stats map along with structured data type validation, which might cause performance issue. Remove this logic and use fieldId as key instead to avoid string construction. Keep a map of fieldId -> dotPath in subcolumnFinder for logging purpose.

src/test/java/net/snowflake/ingest/streaming/internal/datatypes/IcebergStructuredIT.java

src/main/java/net/snowflake/ingest/utils/SubColumnFinder.java

src/main/java/net/snowflake/ingest/streaming/internal/ParquetRowBuffer.java

src/main/java/net/snowflake/ingest/utils/IcebergDataTypeParser.java

sfc-gh-hmadan · 2024-11-05T08:04:57Z

src/main/java/net/snowflake/ingest/utils/IcebergDataTypeParser.java

+      }
+      if (parquetType.getId() != null) {
+        builder.id(parquetType.getId().intValue());
+      }


The middle layer of Iceberg list/map does not have id. We don't want to set it.

src/main/java/net/snowflake/ingest/streaming/internal/IcebergParquetValueParser.java

src/test/java/net/snowflake/ingest/streaming/internal/datatypes/IcebergStructuredIT.java

src/main/java/net/snowflake/ingest/utils/SubColumnFinder.java

sfc-gh-hmadan · 2024-11-05T22:11:02Z

src/main/java/net/snowflake/ingest/streaming/internal/ParquetRowBuffer.java

-        for (String subColumn : subColumnFinder.getSubColumns(columnName)) {
-          RowBufferStats stats = statsMap.get(subColumn);
+        for (String subColumnId :
+            subColumnFinder.getSubColumns(fieldIndex.get(columnName).type.getId())) {


fieldIndex.get(columnName) can return null, lets handle that and throw explicitly? OK in your next PR.

The columnName is from Set.difference(fieldIndex.keySet(), otherSet). I think this should be safe.

src/main/java/net/snowflake/ingest/utils/SubColumnFinder.java

sfc-gh-alhuang requested a review from sfc-gh-hmadan October 22, 2024 00:58

sfc-gh-alhuang marked this pull request as ready for review October 22, 2024 17:03

sfc-gh-alhuang requested review from sfc-gh-tzhang and a team as code owners October 22, 2024 17:03

sfc-gh-alhuang commented Oct 23, 2024

View reviewed changes

src/test/java/net/snowflake/ingest/streaming/internal/datatypes/IcebergStructuredIT.java Show resolved Hide resolved

sfc-gh-alhuang mentioned this pull request Nov 1, 2024

Schema evolution test for Iceberg ingestion #884

Merged

done

ba48f45

sfc-gh-alhuang force-pushed the alhuang-iceberg-column-name branch from 6dc18a1 to ba48f45 Compare November 4, 2024 22:01