Java 8 - Kalter Kaffee?

Bereits seit Major Release 8 gibt es die Lambda Expressions. Diese funktionalen Ausdrücke werden häufig im Zusammenhang mit Streams genannt – ein weiteres neues Feature von Java 8. Und da ist noch etwas, das uns seitdem immer wieder über den Weg läuft: der Doppelpunktoperator. Diese Features wurden nicht ohne Grund in einem gemeinsamen Release eingeführt.

von Michael Höreth, erschienen im Java Magazin, Ausgabe 6.2020

Mittlerweile gibt es kaum noch ein Java-Projekt oder eine Bibliothek, das oder die nicht mindestens Java 8 als Baseline hat. Lambdas werden dadurch nicht nur immer häufiger eingesetzt, sondern auch gerne immer komplexer.

Es war vermutlich nie wichtiger als heute, die Funktionsweise dahinter auch im Detail zu verstehen. Und weil das im Alltag vielleicht schnell mal aus dem Blick gerät, bietet dieser Artikel je nach Erfahrung des Lesers entweder einen sehr kompakten Einstieg in die Zusammenhänge der funktionalen Sprachfeatures von Java oder er hält hoffentlich dennoch ein paar Aha-Momente für diejenigen bereit, die schon länger damit arbeiten.

Das sogenannte Lambda-Kalkül ist eine mathematische Abhandlung zur Schreibweise und Mächtigkeit von Funktionen. Jetzt ist jede Java-Methode mit Rückgabewert letztlich auch eine Funktion. Was ist nun eigentlich der Vorteil von Lambda Expressions gegenüber einer normalen Methode?

Beispiel: Der java.util.Comparator ist ein Interface mit einer relevanten Methode: compare. Diese Methode ist mathematisch gesehen eine Funktion mit zwei Parametern und einem Integer-Rückgabewert. Bereits vor Java 8 gab es die Möglichkeit, das wie in Listing 1 zu implementieren.

Listing 1: Anonyme Instanz von Comparator

List<Person> personen = new ArrayList<>();
...
Collections.sort(personen, new Comparator<Person>() {
	@Override
	public int compare(Person x, Person y) {
		return x.getAlter().compareTo(y.getAlter());
	}
});

Es handelt sich hierbei um eine anonyme Implementierung von Comparator, die inline notiert werden konnte. Die Ausführung findet außerhalb des lokalen Scopes bzw. Kontexts statt, in dem z. B. die lokale Variable personen definiert ist. Dennoch könnte man auch innerhalb der compare-Methode auf personen zugreifen. Der Compiler realisiert das durch eine Closure, die sich den lokalen Kontext merkt. Dabei werden alle freien Variablen kopiert und für den lesenden Zugriff zu einem späteren Zeitpunkt zur Verfügung gestellt.

Der Begriff „freie Variablen“ vereinigt alle lokalen Variablen plus alle Methodenparameter des aufrufenden Kontexts. Lambda Expressions ändern an dieser Vorgehensweise erst einmal nichts. Sie werden ebenso als Closures umgesetzt. Auch hier müssen „freie Variablen“ final sein, weil ein schreibender Zugriff auf eine Kopie des Originals keinen Sinn ergeben würde. Praktischerweise muss man Deklarationen nicht mehr unbedingt mit final kennzeichnen. Seit Java 8 ist der Compiler in der Lage, zu erkennen, wenn nur lesend auf eine Variable zugegriffen wird. Er betrachtet solche Variablen als effectively final.

Lambda Expressions

Das Beispiel aus Listing 1 schrumpft auf einen Einzeiler zusammen, wenn man es als Lambda Expression schreibt:

personen.sort((x,y) -> x.getAlter().compareTo(y.getAlter()));

Das sollte einen Entwickler im Jahre 2020 nicht mehr überraschen. Dennoch lade ich den Leser auf einen kurzen Tauchgang ein, um zu erkunden, wie das eigentlich ermöglicht wurde. Warum brachte die anonyme Instanziierung der Comparator-Klasse eigentlich immer noch so viel unnötigen Code mit sich?

Man kann in Java eben nicht einfach so eine Methode instanziieren, sondern man erstellt auch immer eine Instanz einer Klasse. Der Compiler musste also mindestens wissen, welches Interface implementiert werden soll. Java 8 führte erstmalig das Feature der Typinferenz ein. Der Compiler ermittelt aus dem Kontext, um welchen Typ bzw. um welches Interface es sich bei einer Lambda Expression handeln muss. Dadurch entfällt im Beispiel die Angabe von Comparator. Woher weiß er aber, dass wir mit der Lambda Expression die compare-Methode implementieren? Dazu werfen wir in Listing 2 einen Blick in die Implementierung von Comparator.

Listing 2: Comparator

// Die Annotation ist eigentlich nur informativ – es funktioniert auch
// ohne.
@FunctionalInterface
public interface Comparator<T> {
...
int compare(T o1, T o2);
...
boolean equals(Object obj);

Die compare-Methode ist die einzige abstrakte Methode von Comparator, die keine Methode von java.lang.Object überschreibt. Das Comparator-Interface ist daher nicht nur als solches annotiert, sondern es erfüllt auch dieses hinreichende Kriterium eines funktionalen Interface. Der Compiler weiß also, dass es in diesem Fall um die compare-Methode geht und kann daher auf jeglichen unnötigen Code verzichten. Man könnte Lambda Expressions als anonyme Implementierungen von funktionalen Interfaces bezeichnen. Die Typinferenz sorgt dafür, dass man das funktionale Interface nicht benennen muss. Das Single-Abstract-Method-Prinzip der funktionalen Interfaces sorgt dafür, dass man die zu implementierende Methode nicht benennen muss. Das führt in der Summe zur denkbar kürzesten Notation für diesen Anwendungszweck.

Seiteneffekte

Eine gute funktionale Programmiersprache schließt Seiteneffekte aus. Wir sind in Java gewohnt, auf alle anderen Variablen gemäß ihrer Sichtbarkeit zugreifen zu können. Anfangs fand ich die Einschränkung der freien Variablen auf final relativ nervig. Man gewährt damit zwar immer noch lesenden Zugriff auf einen äußeren Zustand, aber der schreibende Zugriff wird stark eingeschränkt. Der Zugriff auf Attribute der äußeren Klasse sowie auf alle sichtbaren statischen Attribute und Methoden ist weiterhin möglich, aber innerhalb des Scopes der Lambda Expression werden Seiteneffekte durch diese Einschränkung insgesamt vermindert. Gerade beim Thema der funktionalen Programmierung sollte man für derartige Einschränkungen dankbar sein. Je weniger Seiteneffekte, umso hochwertiger der funktionale Aspekt der Implementierung. Ich bin daher mittlerweile dankbar für die Beschwerden des Compilers über Verwendung der freien Variablen innerhalb eines Lambdas, weil man darauf aufmerksam gemacht wird, dass man ein gutes Stück vom Weg der funktionalen Programmierung abgekommen ist.

Streams

MapReduce ist ein Programmierparadigma von Google, das sich mit der Verarbeitung großer Datenmengen befasst. Man nimmt an, dass Daten häufig in einer Art und Weise verarbeitet werden, indem sie gefiltert, konvertiert oder aggregiert werden. In einer prozeduralen Programmierung würde man dann viele verschachtelte for-Schleifen schreiben und die Datenmenge iterativ abarbeiten. Diese Vorgehensweise lässt sich leider auf der JVM durch weitere CPUs nicht beschleunigen. Die Datenverarbeitung muss in kleinere Operationen aufgebrochen werden, die ihrerseits parallelisierbar sind, wenn man die Verarbeitungsgeschwindigkeit erhöhen möchte. Lambda Expressions bieten sich dafür an. In Anlehnung an Googles Programmierparadigma führte Java 8 zur Verarbeitung großer Datenmengen folgende Operationen ein, die auf den sogenannten Streams ausgeführt werden können:

  • filter(Predicate)
  • map(Function)
  • reduce(identity, BinaryOperator)

Derartige Methoden nennt man auch Funktionen höherer Ordnung, weil sie ihrerseits Funktionen übergeben bekommen. Predicate, Function und BinaryOperator sind funktionale Interfaces aus dem Package java.util.function. Mit diesem Package wollte man eigentlich nur die häufigsten Signaturen funktionaler Interfaces abdecken. Fast alle diese Interfaces besitzen generische Typparameter. Ein Predicate ist z.B. einfach ein Lambda, das ein Objekt eines Typs übergeben bekommt und boolean zurückliefert. Es erscheint unnötig zu erklären, wie man mit einem Predicate filtern kann. Eine Function bekommt ein Objekt übergeben und liefert ein Objekt zurück. Damit lassen sich also Daten mappen. Das Function-Interface klingt jetzt zwar irgendwie besonders, ist letztlich aber auch nur eines von vielen. Mit seiner Signatur eines beliebigen Eingabeparameters und eines beliebigen Rückgabewerts erinnert es an die gängigsten mathematischen Funktionen – daher vielleicht der Name.

java.util.Function ist auch nur ein @FunctionalInterface. ”

Der BinaryOperator erwartet zwei Objekte vom selben Typ T und liefert wieder ein Objekt vom Typ T zurück. Er ermöglicht eine Reduktion der Datenmenge. Diese funktionalen Interfaces des java.util.function Package sind wie gesagt meist generisch und lassen sich für viele Anwendungsfälle typisieren. Leider gilt das in Java nur für die Objekttypen. Die primitiven Datentypen mussten separat betrachtet werden. Beispiel: Ein Lambda, das einen primitiven double-Wert erwartet und einen double-Wert zurückliefert, kann nicht über das Function-Interface realisiert werden. Dafür gibt es dann nochmal eigene Interfaces, wie z. B. die DoubleFunction. Die recht lange Liste der funktionalen Interfaces (mit mehr als 40) ist also letztlich nur eine Benamung der häufigsten funktionalen Aritäten unter Berücksichtigung aller primitiven Datentypen. Und damit nicht genug, bringen die sogenannten Single Abstract Methods dieser funktionalen Interfaces auch nochmal ihre eigenen Namen mit. Tabelle 1 demonstriert anhand einiger Beispiele, wie stark das Vokabular von Java im Bereich der funktionalen Typen aufgebläht wurde. In Swift gibt es z.B. einen eigenständigen Funktionstyp als Sprachfeature. Dieser ist unabhängig von Interfaceklassen und benötigt durch seine kompakte und mathematische Pfeilnotation keine zusätzlichen Bezeichner.

Tabelle 1
java.util.functionMathematische Pfeilnotation
boolean Predicate<T>.test(T t) (T) → boolean
R Function<T,R>.apply(T t) (T) → R
T BinaryOperator<T>.apply(T t1, T t2) (T, T) → T
Consumer<T>.accept(T t) (T) → void
T Supplier<T>.get() () → T
R BiFunction<T,U,R>.apply(T t, U u) (T, U) → R
BiConsumer<T,U>.accept(T t, U u) (T, U) → void
R DoubleFunction<R>.accept(double) (double) → R
DoubleConsumer.accept(double) (double) → void
Sonstige
int Comparator<T>.compare(T t1, T t2) (T, T) → int
void Runnable.run() () → void
V Callable<V>.call() () → V
void ActionListener.actionPerformed(ActionEvent e) (ActionEvent) → void
... ...

Funktionale Interfaces

Diese historisch bedingte Verkomplizierung der funktionalen Interfaces stellte für mich lange Zeit die Bäume dar, derentwegen ich den Wald nicht sehen konnte. In der mathematischen Notation stecken eigentlich bereits alle Infos, die man braucht. Hingegen benötigt jede Lambda Expression ein Gegenstück in Form eines funktionalen Interface – und das braucht eben, genau wie dessen Single Abstract Method, einen Namen. Da hilft nur das Auswendiglernen der wichtigsten Beispiele. Worauf man sich hingegen scheinbar verlassen darf, ist die Reihenfolge der Typparameter. Beispiel: Eine BiFunction<T, U, R> ist mathematisch eine Abbildung der Form: (T, U) → R. Innerhalb der spitzen Klammer der Typparameter hat die Reihenfolge eigentlich keine Semantik. Dennoch entspricht die Reihenfolge der Parameter meiner Erfahrung nach immer genau der Reihenfolge der Pfeilnotation. Der Rückgabetyp, falls es einen gibt und falls es ein Objekttyp ist, steht also immer rechts. Das ist in der täglichen Arbeit nicht ganz unwichtig, weil die IDE gerne mal dazu auffordert, z.B. eine Function<T, R> zu implementieren, man sich aber nicht jedes Mal die zugehörige Methode ansehen möchte. Gut, in diesem Beispiel ist der Buchstabe R wie Return ein noch besserer Hinweis. Ich hoffe dennoch, dass ich den Zusammenhang zwischen funktionalem Interface, Single Abstract Method und mathematischer Bedeutung deutlich machen konnte.

Die Java-Streams verarbeiten also große Datenmengen nach einem neuen Paradigma. Einzelne Datenelemente werden von Lambda Expressions verarbeitet. Aufgrund ihrer funktionalen Natur ist die Verarbeitungsreihenfolge egal, und es bleibt dem Stream überlassen, wie er daraus Nutzen schlägt. Ein Stream, der auf mehreren CPUs operiert, könnte beim Filtern z.B. die Datenmenge vorab in gleich große Teilmengen unterteilen, diese dann parallel verarbeiten und die gefilterten Ergebnisse am Ende wieder zu einem Gesamtergebnis zusammenführen.

Fazit: Streams wären zwar auch ohne Lambda Expressions möglich, aber diese machen die typischen Verarbeitungsschritte durch die kompakte Schreibweise erst leserlich. Das folgende Beispiel soll das nochmal deutlich machen. Wir suchen das Gesamtalter aller Personen, wobei „Mustermanns“ dafür nicht berücksichtigt werden sollen, also herausgefiltert werden. Wir nutzen hier den parallelStream() statt eines einfachen stream(). Je nach Ausführungsumgebung werden die Personen dann automatisch auf mehreren CPUs gleichzeitig verarbeitet. Anstelle einer iterativen Addition wird hier immer nur das Alter zweier Entitäten addiert, bis nur noch eine Entität übrigbleibt. Ich schreibe Entität deswegen, weil man natürlich nur Integers und keine Personen addieren kann. Daher werden die Personen auch vor der reduce-Phase auf Integer-Entitäten gemappt. Der Reduktionsoperator benötigt immer zwei Argumente, die er summieren kann. Der Identitätsparameter verhält sich zwar auf den ersten Blick wie ein initialer Wert der Reduktion, er muss aber den „Contract“ der Identität erfüllen, weil es von der Implementierung des Streams abhängig ist, wann und wie oft dieser zur Reduktion herangezogen wird. In unserem Beispiel muss es die 0 sein, weil das die einzige Zahl ist, die sich neutral auf den Reduktionsoperator bzw. die Addition auswirkt.

Listing 3:

int gesamtAlter = personen.parallelStream()
  .filter((p) -> !Objects.equals(p.getNachname(), "Mustermann"))
  .map((p) -> p.getAlter()) // IDE-übergreifende line-break Direktive ;)
  // das ginge auch noch einfacher:
  // .map(Person::getAlter)
  .reduce(0, (x, y) -> x + y);

Das sieht zwar alles schon recht gut aus, aber ich denke, den Streams steht die große Zukunft erst noch bevor. Angenommen, die Personen wurden sequenziell aus einer Datenbank geladen. Erst danach steigen wir mit der Konvertierung der Liste in einen Stream in die Parallelisierung ein. Und das nur für eine simple Addition? Das wird leider die Gesamtperformance nicht sonderlich steigern. Seit Hibernate 5.2 gibt es z.B. die Möglichkeit, mit einer Query unmittelbar einen Stream zu erzeugen. Hibernate könnte also mehrere Datenbankverbindungen gleichzeitig nutzen, um die Daten bereits beim Lesen parallel zu verarbeiten. Aufgrund der IO-Latenzen, die an dieser Stelle auftreten, könnte sich die Verarbeitungsgeschwindigkeit nun signifikant erhöhen. Hoffen wir also, dass der Trend zum Streamen auch in den Drittanbieterbibliotheken weiter anhält und dadurch die Streams immer länger und effektiver werden können.

Doppelpunktoperator ::

In Listing 3 ist er bereits im Kommentar zu sehen – der doppelte Doppelpunkt. Mit Person::getAlter können wir die Mappingoperation des Streams sogar ganz ohne Lambda Expression schreiben, weil die Abbildung von Person → Alter bereits durch den Getter implementiert wurde. Der Doppelpunktoperator liefert genau darauf eine Referenz. Das ging vor Java 8 so:

Integer alter = Person.class.getMethod("getAlter").invoke(person);

Man sieht dem Code bereits seine Nachteile an: Der Methodenname wird als String übergeben und kann daher nicht vom Compiler überprüft werden. Die invoke-Methode kann mit einer variablen Anzahl von Parametern aufgerufen werden. Ob das zur Signatur der Methode passt, merkt man auch erst zur Laufzeit. Dazu kommt noch, dass von derartigem Code aufgrund der schlechten Performance der Java Introspection generell abgeraten wird. Letztlich war Java bis zur Version 8 nicht ausdrucksstark genug, um Methoden sinnvoll referenzieren zu können. Das änderte sich mit der Einführung des Doppelpunktoperators. Dieser liefert keine Instanz von Method mehr zurück, sondern das jeweils passende funktionale Interface aus dem Package java.util.function. Das ist auch sinnvoll, denn in gewisser Art und Weise haben Methoden schon immer eine mathematische Funktion abgebildet.

An dieser Stelle sei noch erwähnt, dass man z.B. mittels Person::new auch eine Referenz auf einen Konstruktor erhalten kann. Und da wäre noch eine Besonderheit des Doppelpunktoperators: Ich konnte nie so recht erkennen, ob eine statische oder eine nicht-statische Methode referenziert wurde. Person::getAlter referenziert in unserem Beispiel einen Getter, der Function<Person, Integer> implementiert. Was wäre aber, wenn es in der Klasse Person zusätzlich folgende Methode geben würde: static Integer getAlter(Person p)? Die Antwort ist relativ ernüchternd: Der Compiler hätte einen Fehler erzeugt, weil er eine zweite Methode mit dem Namen getAlter gefunden hätte, die ebenfalls eine Function<Person, Integer> implementiert. Man sieht es dem Doppelpunktoperator daher nicht direkt an, ob es sich um eine statische oder nicht-statische Methodenreferenz handelt. Es empfiehlt sich deshalb, darauf achten, dass es in dieser Hinsicht keine Mehrdeutigkeiten geben kann, damit der Compiler noch zurechtkommt. Ansonsten entscheidet natürlich auch der aufrufende Kontext darüber, wie spezifisch der Compiler nach einer passenden Methode suchen kann. Und der hat auch ohne derartige Überladungen schon genug Arbeit. Schließlich muss er für jede Lambda Expression durch Typinferenz ermitteln, welches funktionale Interface bzw. welchen Typ sie eigentlich implementiert. Wir erinnern uns dazu an das Beispiel mit dem Comparator. In der Lambda Expression sind sämtliche Typinfos weggefallen. Wir instanziieren ein funktionales Interface, ohne dem Compiler zu sagen, welches. Diese Typinferenz steht seit Java 10 mittlerweile auch für lokale Variablen zur Verfügung.

Zum Schluss aber nochmal zurück zu einem kleinen Programmierbeispiel. Welche Besonderheiten haben z. B. Getter und Setter (die vermutlich häufigsten Methoden der Java-Welt) und was lässt sich in dieser Hinsicht verallgemeinern?

Getter

Nehmen wir mal die Methode Person.getVorname() unter die Lupe. Mathematisch gesprochen bekommt sie als Eingangsparameter das Personenobjekt übergeben und liefert einen String zurück. Somit implementiert eigentlich jede Getter-Methode eine java.util.Function (Listing 4).

Listing 4

// Function<T, R> steht für T = Type, R = Return type
Function<Person, String> getter = Person::getVorname;
String s = getter.apply(person);

Setter

Wie sieht es mit Person.setVorname(String) aus? Mathematisch gesehen kommen zwei Objekte rein: die Person und ein String. Es gibt keinen Rückgabewert. Ein kurzer Blick in Tabelle 1 zeigt: Hier handelt es sich um einen BiConsumer. Auch das lässt sich für alle Setter verallgemeinern.

Property

Langsam wird klar, dass Getter und Setter immer auch eine Function und einen BiConsumer desselben Typs implementieren. In dem konkreten Beispiel wären diese wie in Tabelle 2 typisiert.

Tabelle 2: Beispielhafte Getter und Setter
MethodeFunktionales InterfacePfeilnotation
Person::getVorname Function<Person, String> (Person) → String
Person::setVorname BiConsumer<Person, String> (Person, String) → void

Die Kombination aus Getter und Setter ist allgemein als Bean Property bekannt, jedoch gibt es in Java bislang keine Implementierung, die diese Konvention abbildet. Das Beispiel in Listing 5 demonstriert eine solche Property in Form einer eigenen Klasse mit Hilfe des Doppelpunktoperators.

Listing 5

/**
 * Kombiniert Getter und Setter in einem Objekt.
 */
public class Property <C, A> {
  final Function<C, A> getter;
  final BiConsumer<C, A> setter;
  
  public Property(Function<C, A> getter, BiConsumer<C, A> setter) {
    this.getter = getter;
    this.setter = setter;
  }

  public void set(C object, A attribute) {
    this.setter.accept(object, attribute);
  }

  public A get(C object) {
    return this.getter.apply(object);
  }
}

// Die Property "Vorname" der Personenklasse ließe sich dann so definieren:
new Property<Person, String>(Person::getVorname, Person::setVorname);

Take away

Das war jetzt hoffentlich nicht alles aufgewärmter Coffee to go. Mir persönlich hat es sehr geholfen, mich mit diesem Thema nochmal eingehend zu beschäftigen, und ich hoffe, dass ihr die Lambdas damit auch etwas intuitiver nutzen könnt. Es ist auf jeden Fall begrüßenswert, was sich in dieser Richtung in Java getan hat. „Funktional“ ist zwar sehr im Trend, aber wer möchte schon eine rein funktionale Programmiersprache? Ganz ohne Seiteneffekte geht es schließlich auch nicht. Am Ende des Tages werden wir für die Seiteneffekte bezahlt – so Russ Olsen in „Functional Programming“. Es wird immer einen globalen Zustand, z.B. in Form einer Datenbank, geben – und eben diese Änderung des globalen Zustands ist per Definition ein Seiteneffekt. Eine Programmiersprache bietet also am besten nicht nur ein einziges Paradigma, sondern möglichst viele, die sich miteinander kombinieren lassen.