OrcFileFormat (Spark 3.0.0-preview JavaDoc)

Object
- org.apache.spark.sql.hive.orc.OrcFileFormat

All Implemented Interfaces:

java.io.Serializable, org.apache.spark.sql.execution.datasources.FileFormat, DataSourceRegister
```
public class OrcFileFormat
extends Object
implements org.apache.spark.sql.execution.datasources.FileFormat, DataSourceRegister, scala.Serializable
```
FileFormat for reading ORC files. If this is moved or renamed, please update DataSource's backwardCompatibilityMap.

See Also:

Serialized Form

Constructor Summary

Constructors
Constructor and Description

OrcFileFormat()

Constructors
Constructor and Description
`OrcFileFormat()`

Method Summary

All Methods Static Methods Instance Methods Concrete Methods
Modifier and Type	Method and Description
`static void`	`addSparkVersionMetadata(org.apache.hadoop.mapred.RecordWriter<org.apache.hadoop.io.NullWritable,org.apache.hadoop.io.Writable> recordWriter)` Add a metadata specifying Spark version.
`scala.Function1<org.apache.spark.sql.execution.datasources.PartitionedFile,scala.collection.Iterator<org.apache.spark.sql.catalyst.InternalRow>>`	`buildReader(SparkSession sparkSession, StructType dataSchema, StructType partitionSchema, StructType requiredSchema, scala.collection.Seq<Filter> filters, scala.collection.immutable.Map<String,String> options, org.apache.hadoop.conf.Configuration hadoopConf)`
`static scala.collection.immutable.Map<String,String>`	`extensionsForCompressionCodecNames()`
`scala.Option<StructType>`	`inferSchema(SparkSession sparkSession, scala.collection.immutable.Map<String,String> options, scala.collection.Seq<org.apache.hadoop.fs.FileStatus> files)`
`static DataType`	`inspectorToDataType(org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector inspector)`
`boolean`	`isSplitable(SparkSession sparkSession, scala.collection.immutable.Map<String,String> options, org.apache.hadoop.fs.Path path)`
`static DataType`	`javaTypeToDataType(java.lang.reflect.Type clz)`
`static void`	`org$apache$spark$internal$Logging$$log__$eq(org.slf4j.Logger x$1)`
`static org.slf4j.Logger`	`org$apache$spark$internal$Logging$$log_()`
`org.apache.spark.sql.execution.datasources.OutputWriterFactory`	`prepareWrite(SparkSession sparkSession, org.apache.hadoop.mapreduce.Job job, scala.collection.immutable.Map<String,String> options, StructType dataSchema)`
`static void`	`setRequiredColumns(org.apache.hadoop.conf.Configuration conf, StructType dataSchema, StructType requestedSchema)`
`String`	`shortName()` The string that represents the format that this data source provider uses.
`boolean`	`supportDataType(DataType dataType)`
`static org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector`	`toInspector(DataType dataType)`
`static org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector`	`toInspector(org.apache.spark.sql.catalyst.expressions.Expression expr)`
`String`	`toString()`
`static HiveInspectors.typeInfoConversions`	`typeInfoConversions(DataType dt)`
`static scala.collection.Iterator<org.apache.spark.sql.catalyst.InternalRow>`	`unwrapOrcStructs(org.apache.hadoop.conf.Configuration conf, StructType dataSchema, StructType requiredSchema, scala.Option<org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector> maybeStructOI, scala.collection.Iterator<org.apache.hadoop.io.Writable> iterator)`
`static scala.Function1<Object,Object>`	`unwrapperFor(org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector objectInspector)`
`static scala.Function3<Object,org.apache.spark.sql.catalyst.InternalRow,Object,scala.runtime.BoxedUnit>`	`unwrapperFor(org.apache.hadoop.hive.serde2.objectinspector.StructField field)`
`static Object[]`	`wrap(org.apache.spark.sql.catalyst.InternalRow row, scala.Function1<Object,Object>[] wrappers, Object[] cache, DataType[] dataTypes)`
`static Object`	`wrap(Object a, org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector oi, DataType dataType)`
`static Object[]`	`wrap(scala.collection.Seq<Object> row, scala.Function1<Object,Object>[] wrappers, Object[] cache, DataType[] dataTypes)`

Methods inherited from class Object
equals, getClass, hashCode, notify, notifyAll, wait, wait, wait

Methods inherited from interface org.apache.spark.sql.execution.datasources.FileFormat
$init$, buildReaderWithPartitionValues, supportBatch, vectorTypes

Constructor Detail
- OrcFileFormat
```
public OrcFileFormat()
```

Method Detail

extensionsForCompressionCodecNames

public static scala.collection.immutable.Map<String,String> extensionsForCompressionCodecNames()

unwrapOrcStructs

public static scala.collection.Iterator<org.apache.spark.sql.catalyst.InternalRow> unwrapOrcStructs(org.apache.hadoop.conf.Configuration conf,
                                                                                                    StructType dataSchema,
                                                                                                    StructType requiredSchema,
                                                                                                    scala.Option<org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector> maybeStructOI,
                                                                                                    scala.collection.Iterator<org.apache.hadoop.io.Writable> iterator)

setRequiredColumns

public static void setRequiredColumns(org.apache.hadoop.conf.Configuration conf,
                                      StructType dataSchema,
                                      StructType requestedSchema)

addSparkVersionMetadata

public static void addSparkVersionMetadata(org.apache.hadoop.mapred.RecordWriter<org.apache.hadoop.io.NullWritable,org.apache.hadoop.io.Writable> recordWriter)

Add a metadata specifying Spark version.

Parameters:: recordWriter - (undocumented)

javaTypeToDataType

public static DataType javaTypeToDataType(java.lang.reflect.Type clz)

unwrapperFor

public static scala.Function1<Object,Object> unwrapperFor(org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector objectInspector)

unwrapperFor

public static scala.Function3<Object,org.apache.spark.sql.catalyst.InternalRow,Object,scala.runtime.BoxedUnit> unwrapperFor(org.apache.hadoop.hive.serde2.objectinspector.StructField field)

wrap

public static Object wrap(Object a,
                          org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector oi,
                          DataType dataType)

wrap

public static Object[] wrap(org.apache.spark.sql.catalyst.InternalRow row,
                            scala.Function1<Object,Object>[] wrappers,
                            Object[] cache,
                            DataType[] dataTypes)

wrap

public static Object[] wrap(scala.collection.Seq<Object> row,
                            scala.Function1<Object,Object>[] wrappers,
                            Object[] cache,
                            DataType[] dataTypes)

toInspector

public static org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector toInspector(DataType dataType)

toInspector

public static org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector toInspector(org.apache.spark.sql.catalyst.expressions.Expression expr)

inspectorToDataType

public static DataType inspectorToDataType(org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector inspector)

typeInfoConversions

public static HiveInspectors.typeInfoConversions typeInfoConversions(DataType dt)

org$apache$spark$internal$Logging$$log_

public static org.slf4j.Logger org$apache$spark$internal$Logging$$log_()

org$apache$spark$internal$Logging$$log__$eq

public static void org$apache$spark$internal$Logging$$log__$eq(org.slf4j.Logger x$1)

shortName
```
public String shortName()
```
Description copied from interface: DataSourceRegister
The string that represents the format that this data source provider uses. This is overridden by children to provide a nice alias for the data source. For example:
```
   override def shortName(): String = "parquet"
 
```
Specified by:

shortName in interface DataSourceRegister

Returns:

(undocumented)

toString
```
public String toString()
```
Overrides:

toString in class Object

inferSchema

public scala.Option<StructType> inferSchema(SparkSession sparkSession,
                                            scala.collection.immutable.Map<String,String> options,
                                            scala.collection.Seq<org.apache.hadoop.fs.FileStatus> files)

Specified by:: inferSchema in interface org.apache.spark.sql.execution.datasources.FileFormat

prepareWrite

public org.apache.spark.sql.execution.datasources.OutputWriterFactory prepareWrite(SparkSession sparkSession,
                                                                                   org.apache.hadoop.mapreduce.Job job,
                                                                                   scala.collection.immutable.Map<String,String> options,
                                                                                   StructType dataSchema)

Specified by:: prepareWrite in interface org.apache.spark.sql.execution.datasources.FileFormat

isSplitable

public boolean isSplitable(SparkSession sparkSession,
                           scala.collection.immutable.Map<String,String> options,
                           org.apache.hadoop.fs.Path path)

Specified by:: isSplitable in interface org.apache.spark.sql.execution.datasources.FileFormat

buildReader

public scala.Function1<org.apache.spark.sql.execution.datasources.PartitionedFile,scala.collection.Iterator<org.apache.spark.sql.catalyst.InternalRow>> buildReader(SparkSession sparkSession,
                                                                                                                                                                    StructType dataSchema,
                                                                                                                                                                    StructType partitionSchema,
                                                                                                                                                                    StructType requiredSchema,
                                                                                                                                                                    scala.collection.Seq<Filter> filters,
                                                                                                                                                                    scala.collection.immutable.Map<String,String> options,
                                                                                                                                                                    org.apache.hadoop.conf.Configuration hadoopConf)

Specified by:: buildReader in interface org.apache.spark.sql.execution.datasources.FileFormat

supportDataType
```
public boolean supportDataType(DataType dataType)
```
Specified by:

supportDataType in interface org.apache.spark.sql.execution.datasources.FileFormat

Class OrcFileFormat

Constructor Summary

Method Summary

Methods inherited from class Object

Methods inherited from interface org.apache.spark.sql.execution.datasources.FileFormat

Constructor Detail

OrcFileFormat

Method Detail

extensionsForCompressionCodecNames

unwrapOrcStructs

setRequiredColumns

addSparkVersionMetadata

javaTypeToDataType

unwrapperFor

unwrapperFor

wrap

wrap

wrap

toInspector

toInspector

inspectorToDataType

typeInfoConversions

org$apache$spark$internal$Logging$$log_

org$apache$spark$internal$Logging$$log__$eq

shortName

toString

inferSchema

prepareWrite

isSplitable

buildReader

supportDataType