I samband med Apache Spark var `sqlContext` en startpunkt för att arbeta med strukturerade data med SQL -frågor. Det tillät dig att:
* Skapa dataframes: Det primära syftet var att skapa dataframes från olika datakällor (som CSV -filer, JSON -filer, Hive -tabeller etc.). DataFrames är strukturerade samlingar av data som är organiserade i namngivna kolumner.
* Execute SQL Queries: Du kan köra SQL -frågor direkt mot dataframes registrerade som tillfälliga eller ihållande tabeller i Spark SQL -motorn.
* Access Spark SQL -funktionalitet: Det gav tillgång till de olika funktionerna i Spark SQL-motorn, såsom datatransformationer, aggregeringar och andra SQL-liknande operationer.
Men `sqlContext` avskrivs. Det har ersatts av "Sparksession" i senare versioner av Spark. `Sparksession 'kombinerar funktionaliteterna i` sqlContext`, `hiveContext` och` StreamingContext` till en enda inträdesplats, vilket ger en mer enhetlig och strömlinjeformad strategi för att arbeta med Spark.
I huvudsak, om du stöter på "SQLContext" i äldre gnistkod, bör du migrera till att använda "Sparksession". De tjänar samma grundläggande syfte, men "Sparksession" är den rekommenderade och stödda metoden i modern gnistutveckling. De interagerar båda i slutändan med Spark SQL -motorn, men "Sparksession" erbjuder en mer integrerad upplevelse.