Archie

I.      Definition

II.     History

III.   Wie funktioniert Archie
        1. Grobe Funktionsweise
       2. Detailliert  ( Dienste / Verwaltung der Inhaltsverzeichnisse )

IV.  Archie-Server

V.    Zugangsmöglichkeiten / Plattformen

VI.   Beschreibung der Zugriffsarten
       1. Archie  Zugriffsart Telnet mit Unix Plattform
       2. Archie mit E-mail
       3. Archieplexform

VII.  Vor- und Nachteile von Archie

VIII. Quellenangabe

I. Definition


Inhaltsverzeichnis

II. History

Archie wurde entwickelt von Alan Emtage und Peter Deutsch, die beide  Studenten an der McGill University School of Computer Science in Montreal, Kanada waren. Am Anfang standen ein paar Skripts von AlanEmtage,welche Inhaltsverzeichnisse von a-FTP-Servern holten (rekursive Listenings). Peter Deutsch schlug eine einfache Benutzerschnittstelle zum Durchsuchen der Inhaltsverzeichnisse zu machen. So entstand 1990 das Grundkonzept von Archie. Mit Hilfe von Bill Heelan, einem technischen Mitarbeiter der Universität, entstand dann im November 1990 die Version Archie V.1.0 mit Zugang über telnet. Im Dezember 1990 stand dann für Archie auch ein E-mail Interface zur Verfügung. Die Zugriffsarten wurden dann mit Hilfe von Clifford Neumann, dem Erfinder von Prospero, verbessert. Archie war von nun an auch im Client-Server Betrieb möglich. Im März 1991 erschien dann die Version Archie V.2.0 . Inzwischen liegen die Rechte für Archie bei der Kanadischen Bunyip Information System Inc. , die ihren Sitz ebenfalls in Montreal hat. Diese stellte 1996 eine Weiterentwicklung vor, die Archie ermöglicht auch Seiten aus dem www (World Wide Web) in seine Datenbank aufzunehmen.
Inhaltsverzeichnis

III. Wie funktioniert Archie


      1. Grobe Funktionsweise

Wie funktioniert Archie den überhaupt? Nun, Sie können es sich grob so vorstellen:
Sie stellen eine Anfrage z. B. über telnet an den Archie - Server in Darmstadt. Der Client frägt also den Archie - Server wo dieses file zu finden ist. Der Server vergleicht auf seiner datenbank was er dazu weiß (wo die Daten auf welchen a - FTP - Server sind) und schickt diese an ihren Rechner zurück. Woher weiß der Archie - Server wo die Daten auf den a - FTP - Servern sind? Er holt sich in einer gewissen Zeit (periodisch) automatisch die Listen der Daten bon sämtlichen a - FTP - Servern die zum Archie - System gehören.

Inhaltsverzeichnis

2. Detailliert

Dienste von Archie

ARCHIE verwaltet zwei verschiedene Datenbestände,
die FILENAMES - DATABASE und die WHATIS - DATABASE.
 

FILENAMES - DATABASE

Die FILENAMES - DATABASE ermöglicht es in a-FTP-Servern nach Dateien zu suchen. Sie beinhaltet die Aderessen und Verzeichnisse von sämtlichen a-FTP-Serven. Die FILENAMES - DATABASE ist wesentlich komplexer als die WHATIS - DATABASE.
 

WHATIS - DATABASE

Die WHATIS - DATABASE besteht aus Stichwörtern und Kurzbeschreibungen, die nicht automatisch geschrieben und eingetragen werden (z.B. Usenet - Artikel, vom Autor selber eingetragen). Die Suche über die WHATIS - DATABASE ist nur bedingt empfehlenswert, denn wenn man über diese Datenbanketwas sucht, kommt es häufig vor daß man zu dem Stichwort was man eingegeben hat nichts, oder veraltete Informationen erhält.

Inhaltsverzeichnis
 
 


Verwaltung der Inhaltsverzeichnisse
anhand der Filename - Database (FD)

Die Verwaltung der Inhaltsverzeichnisse von a-FTP-Servern wird durch Systemkomponenten realisiert. Im wesentlichen wird das Archie System durch drei Hauptkomponenten verwaltet.

Database Gathering Component (DGC)
Database Maintenance Component (DMC)
User Access Component (UAC)


Database Gathering Component (DGC)

Die DGC ist für die Datenbeschaffung verantwortlich. Die DGC holt sich aus der Site Description Database ( SDD ) mit dem Cron - Mechanismus (cron = sog. clock daemon d.h. bestimmte Kommandos werden zu bestimmten Zeiten ausgeführt) von Unix, der alle 24 Stunden autom. gestartet wird, die Adresse der Server und weitere wichtige Informationen wie z.B. welches Betriebssystem auf dem jeweiligen a-FTP - Server arbeitet.
Über ftp werden die rekursive Listings ( Listen der Dateien) von den a-FTP - Servern geholt. Die rekursive Listenings werden zu den Raw Listing Files (RLF) zusammengefaßt, die dann von der DMC (siehe unten) verarbeitet werden.
Was allerdings noch gesagt werden sollte ist, daß die SDD nur teilweise bearbeitet wird, was bedeutet, daß das Inhaltsverzeichnis eines a-FTP - Servers nach ungefähr einem Monat abgearbeitet ist. Das heißt, daß sich die verschiedenen Archie - Server auf der Welt doch etwas unterschiedliche Datenbanken haben, und man dementsprechend auf welchem Archie Server man arbeitet man andere Informationen erhält.


Database Maintenance Component (DMC)

Die DMC prüft die RLF auf Konsistenz und konvertiert dieses in ein passendes Datenformat für die FD. Der Site Listings Filter erkennt Fehler bei den rekursiven Listings, die z.B. beim Erstellen des Inhaltsverzeichnisses oder beim Übertragen entstehen können, und beseitigt diese. Anschließend bearbeitet sie das Verify and Enter Programm (VAEP). Das VAEP stellt die Verzeichnis- hierarchie wieder her, um so die Datenkonsistenz zu prüfen, das bedeutet, das Programm "checkt" ob bei vorangegangenen Korrekturen keine wichtigen Informationen verlorengegangen sind. Schließlich werden die Daten vom VAEP an die FD weitergegeben.


User Access Component (UAC)

Die UAC bildet die Schnittstelle für Anfragen an die FD. Schnittstellen wären z.B. telnet, xwindow, E-mail, Archieplex usw. .
Inhaltsverzeichnis


IV. Archie - Server

Dies ist eine Liste mit Archie - Servern über die Sie die Dienste von Archie nutzen können.
Eine nähere Erläuterung erfolgt bei Beschreibung der Zugriffsart unter telnet.

Inhaltsverzeichnis
 

V.    Zugangsmöglichkeiten / Plattformen


Inhaltsverzeichnis

VI. Beschreibung der Zugriffsarten

     1. Archie  Zugriffsart Telnet mit Unix Plattform
     2. Archie mit E-mail
     3. Archieplexform
1. Archie  Zugriffsart Telnet mit Unix Plattform

     - Allgemein               - wichtige Befehle / Variablen          -  whatis - Database

Allgemein

Zuerst muß man sich unter Unix einTerminal öffnen. Anschließend gibt man einfach telnet archie.th-darmstadt.de ein. Dabei ist Th - Darmstadt in diesem Fall der Server. Man kann sich aber auch jeden beliebig anderen Archie - Server wählen , doch es empfiehlt sich ein Server in der Nähe zu wählen um das Netz nicht unnötig zu belasten.

Als Login ist einfach nur archie einzugeben. Außerdem läßt sich nun auch gleich die gewünschte Sprache wählen. Mit set language deutsch hat man z.B. Deutsch als gewünschte Sprache gewählt. Eine Komplettübersicht , die wie eine Unix Manualseite aufgebaut ist, bekommt man mit dem Befehl manpage oder roff. Archie hat auch ein sehr gut ausgebautes Hilfssystem, welches mit help aufgerufen wird. Hier bekommt man Hilfe und Informationen über die Bedeutung und den Wertebereich von Variablen, sowie wie Informationen über Sinn und Zweck von Kommandos. Mit show werden einem alle gesetzten Variablen und ihr Wert angezeigt. Mit dem Kommando Servers bekommt man eine Liste mit allen n der Welt zur Verfügung stehenden, öffentlich zugänglichen Archie Servern.
Durch die Eingabe von exit , quit oder bye kann man Archie wieder verlassen.

Inhaltsverzeichnis


 

wichtige Befehle / Variablen

 - der find Befehl                                     - die sortby Variable
 - die search Variable / fall back              - die output - format Variable
 - die match Variablen                             - das mail Kommando
 - die max Variablen

der find Befehl

Der find Befehl ist der wichtigste und mächtigste Befehl. Mit ihm können Sie Inhaltsverzeichnisse von a-FTP - Servern durchsuchen, und so Software, Dokumente usw. konkret lokalisieren. Suchen sie z.B. ein Programm Namens "requiem" geben Sie einfach find requiem ein, und als Ergebnis erhalten Sie ( fast ) alle Informationen die Sie brauchen, wie z.B. Rechnername,- adresse, Pfad, Dateiname, Dateigröße, und Dateidatum.

die search Variable / fall back

Über die search Variable können Sie festlegen, wie das "Textmuster" vom find Kommando bei der Suche ausgewertet werden soll.
set search exact ist die schnellste Art der Suche. Es wird genau nach dem eingegebenen Textmuster gesucht.
set search sub ist die häufigste Art der Suche. Hier muß das Textmuster im Datei-, Verzeichnissnamen enthalten sein, wobei Groß und Kleinschreibung egal ist.
set search subcase ist genau gleich wie unter sub, es wird aber nun zwischen Groß- , Kleinschreibung unterschieden.
set search regex ist die komplizierteste Art der Suche.( help regex )

der fall back

Bei den Suchmodi sub, subcase und regex gibt es die Möglichkeit Archie zuerst eine exact Suche starten zu lassen, und wenn dabei nichts gefunden wurde automatisch eine alternative zu starten.
Bsp: set search exact_sub

Die match Variablen

die match path Variable

Es gibt zwar keine allgemein gültige Struktur für den Aufbau des Pfadnamen, doch stecken einige Informationen in den Pfaden der Server. So steckt z.B. im Namen der zu einem Dos Programm führt im Namen oft Dos, PC oder ähnliche Informationen. Diese nutzt Archie mit Hilfe der match_path Variablen.
Bsp: set match_path dos:pc:ibm
Archie sucht nun nach Treffern bei denen dos, pc, oder ibm im Namen steckt.

die match domain Variable

Oft werden Dateien von den abenteuerlichsten Servern geholt, obwohl eine Kopie auf einem Server in nächster Nähe liegt. Für diesen Fall hat Archie die match_domain Variable. Mit ihr ist es möglich eine Liste mit Domains anzugeben. Archie durchsucht dann nur die Inhaltsverzeichnisse von a-FTP- Servern die in der angegebenen Domain liegen.
Bsp: set match_domain de
Archie sucht nun nur bei a-FTP- Servern die in Deutschland liegen. Möchte Sie z.B. in ganz Europa suchen, gibt es hierfür von Archie die sog. "Pseudo Domains". Diese können Sie sich ebenfalls mit der match_domain Variable nutzbar machen.
Bsp: set match_domain europe
 
 

Hier eine Liste der Pseudo Domains:

die max Variablen

die maxhits Variable

Mit der maxhits Variablen können sie dem find Kommando mitteilen, nach wievielen gefundenen Einträgen die Suche beendet werden soll.
Bsp: set maxhits 2
Die Suche stoppt nun nach zwei gefundenen Treffern

die maxhitspm Variable

Sie ermöglicht die Anzahl von gefundenen Dateien mit gleichem Namen im Suchergebnis zu begrenzen.
Bsp: set maxhitspm 1

die maxmatch Variable

Die maxmatch Variable wirkt umgekehrt wie die maxhitspm Variable. Sie begrenzt die Anzahl der Dateien mit unterschiedlichen Namen.
Bsp: set maxmatch 5

die sortby Variable

Archie kann auch das Ergebnis des find Kommandos nach Unterschiedlichen Kriterien sortieren. Die relevante Variable heißt sortby.
set sortby hostname das Ergebnis wird nun alphabetisch nach den Namen der Server sortiert.
set sortby time          nun erscheint die neuste Datei an erster Stelle des Suchergebnisses
set sortby size         hier erscheint die größte Datei an erster Position
set sortby filename   bedeutet, daß der Pfadname als oberstes Sortierkriterium gilt.

Jedes Sortierkriterium kann mit Hilfe der "r sortby Variablen umgedreht werden. Dies geschieht durch einfaches voranstellen eines "r" vor die Sortby Variable.
Bsp: set sortby rsize
Nun erscheint im Suchergebnis die kleinste Datei zuerst und nicht die Größte.

die output format Variable

Archie stellt Ihnen auch 3 Ausgabeformate des Suchergebnisses zur Verfügung. Hierfür ist die output_format Variable zuständig.
set output_format terse      das Ergebnis erscheint kurz und knapp.
set output_format verbose  bedeutet Standartausgabe des Ergebnisses.
set output_format machine  bedeutet maschinenlesbares Format.

das mail Kommando

Oft ist man daran interessiert, Ergebnisse von Anfragen, . im Rahmen einer Telnetsitzung durchgeführt werden, lokal in einer Datei zur Verfügung zu haben. Auf der einen Seite besteht die Möglichkeit, die ganze Sitzung mitzuprotokollieren. Dies geschieht mit dem Unix Kommando "script".
Sie können sich aber auch relevante Ergebnisse von Archie per E- mail zuschicken lassen. Hierfür gibt es das mail Kommando. Es bewirkt , daß das Ergebnis des zuletzt ausgeführten Befehls, an eine direkt angegebene Adresse oder an die mailto Variable gesetzte Adresse geschickt wird.

die mailto Variable

Setzt man hinter den mail Befehl eine Adresse wird das Ergebnis des letzten ausgeführten Befehls an diese Adresse gesendet. Beim einfachen Eingeben des mail Kommandos wird an die mailto Adresse gesendet.
Bsp: set mailto Gehring@foo.fh-furtwangen.de

Für das versenden großer Datenmengen über E- mail stehen noch 3 Variablen zur Verfügung.
set compress compress bewirkt, daß die Datenmenge komprimiert wird.
set encode uuencode     bewirkt, daß die Datei nach dem Packen und vor dem Verschicken kodiertwird.
show max_split_size     legt eine Obergrenze für die Größe einer Mail fest. Alle größeren Datenmengen werden in Pakete aufgeteilt.

Inhaltsverzeichnis
Anfragen an die Whatis Database

Mit dem whatis Kommando werden Anfragen an die Whatis Database gestellt. Sie geben einfach den Suchbegriff ein Groß-, und Kleinschreibung spielt keine Rolle.
Bsp: whatis kermit.

Inhaltsverzeichnis
 2. Archie mit E-mail




Als erstes soll geklärt werden warum sollte man den überhaupt Anfragen an Archie über E-mail starten? Nun als einfachstes Beispiel soll gelten, Sie haben kein telnet oder nur eine UUCP connection. Was häufiger vorkommt ist das Archie zu beschäftigt ist um Anfragen sofort zu erledigen oder der Archie-Server ist nicht erreichbar. Was die Anfrage über E-mail auch interessant macht ist, das man selbst keine Zeit (z.B. wichtige Termine, Feierabend) mehr hat am Rechner zu sitzen.

Aufbau und Befehle bei E-mail Anfragen

Die Befehle sind dieselben wie unter telnet, nur das z.B. das Kommando pager bei der E-mail unsinnig ist. Nützliche Kommandos stehen im folgenden Beispiel:


Inhaltsverzeichnis

 3. Archieplexform

Archie ist auch über das WorldWideWeb (www) abrufbar. Der wesentliche Unterschied zu telnet und den anderen Zugangsarten besteht darin das links (Verbindungen) zu den gefundenen Themen angeboten werden, und das man selbst als Laie ohne Probleme zurecht kommt, da Archie hier selbsterklärend ist.
Hier ein paar Links:

 Inhaltsverzeichnis

VII.  Vor- und Nachteile von Archie

PRO
  + Plattformunabhängig
  + verschiedene Zugangsmöglichkeiten
  + riesiges Informationsvolumen

CONTRA
  - langes Update-Intervall
  - Inhaltsverzeichnisse sind nicht immer auf den neuesten Stand

 Inhaltsverzeichnis

VIII. Quellenangabe

1.) The Whole Internet / User`s Guide & Catalog (S.187-205, 371, 505)
     Autor Ed Krol
     Verlag O`Reilly Associates, Inc.
     Second Edition
     ISBN 1-56592-063-5

 2.) Einstieg Internet ( S.151-154)
      Verlag Nauman & Gogel Verlagsgesellschaft mbH
      Autor Konstatin April
      ISBN 3-625-15001-8

 3.) help file von Archie

 4.) Internet

  Dieses Referat wurde von Tom Gehring und Wassim Ahmad verfasst.

   gehring@foo.fh-furtwangen.de
   ahmad@foo.fh-furtwangen.de

Inhaltsverzeichnis