Zoekmachine ranking en websitetechniek
Tweet
Vragen beantwoord ik tegen betaling van een uurtarief van € 60,- met een minimum van 1 uur
I N H O U D S O P G A V E
Zoekmachine ranking en websitetechniek
1.3 De If-Modified-Since HTTP header
1.5 Content Management Systeem
2.4 Test met een tekst browser
Gehele website
Robots.txt
Maak gebruik van het bestand robots.txt op uw web server. Dit bestand vertelt de webcrawlers welke directories wel of niet bezocht moeten worden. Zorg ervoor dat robots.txt actueel is zodat de webcrawler niet per ongeluk geblokkeerd wordt.
Kijk op http://www.robotstxt.org/faq.html om uit te vinden hoe robots/webcrawlers geïnstrueerd kunnen worden.
Voorbeeld van mijn robots.txt:
# site locked
# Please, we do NOT allow nonauthorized robots any longer.
# These are useless agents only eating your bandwidth and stealing e-mail adresses
User-agent: *
Disallow: /database/
Disallow: /include/
Disallow: /reserve/
User-agent: EmailCollector
Disallow: /
User-agent: e-collector
Disallow: /
Sitemap: http://www.walmar.nl/sitemap.xml
# = commentaar
* = elke crawler
Of die van www.cnn.com
Sitemap: http://www.cnn.com/sitemap_index.xml
Sitemap: http://www.cnn.com/sitemap_news.xml
Sitemap: http://www.cnn.com/video_sitemap_index.xml
User-agent: *
Disallow: /.element
Disallow: /editionssi
Disallow: /ads
Disallow: /aol
Disallow: /audio
Disallow: /audioselect
Disallow: /beta
Disallow: /browsers
Disallow: /cl
Disallow: /cnews
Disallow: /cnn_adspaces
Disallow: /cnnbeta
Disallow: /cnnintl_adspaces
Disallow: /development
Disallow: /NewsPass
Disallow: /NOKIA
Disallow: /partners
Disallow: /pipeline
Disallow: /pointroll
Disallow: /POLLSERVER
Disallow: /pr
Disallow: /PV
Disallow: /quickcast
Disallow: /Quickcast
Disallow: /QUICKNEWS
Disallow: /test
Disallow: /virtual
Disallow: /WEB-INF
Via diverse sites is te testen of de inhoud van het bestand correct is opgesteld. Kijk bijvoorbeeld op http://tool.motoricerca.info/robots-checker.phtml .
Veel informatie is ook te vinden op http://www.robotstxt.org/
O.a. lijst Robots: http://www.robotstxt.org/db.html
Sitemap.xml
Een sitemap voor uw bezoekers bestaat uit een pagina waarop alle, voor de bezoeker, interessante links op staan. Zodoende kunnen bezoekers via één pagina op alle voor hen interessante pagina's komen. Een sitemap voor bezoekers is dus te vergelijken met een inhoudsopgave van een boek.
Een sitemap voor de zoekmachines is echter heel wat anders. Deze pagina, die niet zichtbaar is voor uw bezoekers, bevat meestal dezelfde links als de sitemap voor uw bezoekers. Het doel van deze sitemap is ervoor zorgen dat alle pagina's binnen uw website ook door de zoekmachines worden gevonden (en worden geïndexeerd!).
Een sitemap is niet van invloed op uw positie binnen de zoekresultaten. Het zorgt er echter wel voor dat er meer pagina's van uw website door de webcrawlers worden geïndexeerd. Meer pagina's in de index van bijvoorbeeld Google betekent natuurlijk ook meer kans op bezoekers via die zoekmachine.
Zorg dus dat u gebruik maakt van een sitemap op uw website voor de zoekmachines!
Als uw site gebruik maakt van een XML sitemap dan kunt u zoekmachines wijzen op het bestaan van de sitemap in het robots.txt bestand. Dat doet u door de volgende code toe te voegen aan robots.txt:
Sitemap: http://www.naamvanhetdomein.nl/sitemap.xml

Bij Google is het mogelijk aan te geven waar uw sitemap staat en hoe deze heet.
Zorg er voordat u begint voor dat u de volgende sites heeft toegevoegd aan en geverifieerd in uw account voor de Webmasterhulpprogramma's van Google:
De site waarop de sitemap zich bevindt.
De site(s) waarvan de URL's in de sitemap worden vermeld.
Upload uw sitemap naar uw site.
Klik op de gewenste site in het dashboard voor de Webmasterhulpprogramma's.
Klik bij ' Siteconfiguratie ' op ' Sitemaps '.
Geef het pad waar uw sitemap staat op in het tekstvak (wanneer uw sitemap bijvoorbeeld op 'http://www.example.com/sitemap.xml' staat, typt u ' sitemap.xml ').
Klik op ' Sitemap verzenden '.
Voorbeeld van een deel van mijn sitemap.xml bestand:
<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<url>
<loc>http://www.walmar.nl/</loc>
<lastmod>2010-01-29T18:48:32+00:00</lastmod>
</url>
<url>
<loc>http://www.walmar.nl/default.asp</loc>
<lastmod>2010-01-29T18:48:32+00:00</lastmod>
</url>
<url>
<loc>http://www.walmar.nl/links.htm</loc>
<lastmod>2010-01-29T18:48:32+00:00</lastmod>
</url>
<url>
<loc>http://www.walmar.nl/contact.htm</loc>
<lastmod>2010-01-29T18:48:32+00:00</lastmod>
</url>
</urlset>
Dit soort sitemaps zijn gratis en voor niets te maken via bijvoorbeeld: http://www.xml-sitemaps.nl/
De If-Modified-Since HTTP header
Zorg ervoor dat uw web server de If-Modified-Since HTTP header ondersteunt. Deze header zorgt ervoor dat uw web server bijvoorbeeld Google weet te melden of de inhoud van uw site veranderd is sinds deze voor het laatst bezocht werd. Het ondersteunen van deze header scheelt u bandbreedte en overhead.
Of uw web server deze header ondersteunt, is bijvoorbeeld vast te stellen via http://web-sniffer.net/
HTTP header van mijn web server:
Name |
Value |
Content-Length: |
3688 |
Content-Type: |
text/html |
Content-Location: |
http://www.walmar.nl/default.asp |
Last-Modified: |
|
Accept-Ranges: |
bytes |
ETag: |
|
Server: |
Microsoft-IIS/6.0 |
X-Powered-By: |
ASP.NET |
Date: |
Sat, 30 Jan 2010 19:59:45 GMT |
Connection: |
close |
error404 pagina
Dit is de pagina die verschijnt als iemand de naam van een pagina intypt die niet op de webserver staat. Via de webserver kunnen we regelen dat er geen standaard pagina verschijnt:

Maar een zelf gecreëerde pagina met een doorverwijzing naar de homepage:

Content Management Systeem
Een belangrijke eis aan een CMS is dat deze pagina's creëert die goed indexbaar zijn voor webcrawlers.
- Kan voor elke pagina een aparte titel worden aangegeven?
- Kan dat automatisch gedaan worden via geprogrammeerde code?
- Kunnen voor plaatjes Alternatives en Titles worden opgegeven?
Individuele pagina's
Javascript en CSS
Omdat de belangrijkste trefwoorden zoveel mogelijk in het begin van de pagina (dus zo dicht mogelijk bij de -tag) opgenomen dienen te worden en u de webcrawlers alleen met die zaken wilt voeren waar deze iets mee kunnen, is het handig er voor te zorgen dat stylesheets en javascript code in externe files (.css respectievelijk .js) worden opgeslagen en geïncludeerd worden in de desbetreffende pagina.
Voor JavaScript bijvoorbeeld:
<script src="/script/layers.js"></script>
Voor CSS bijvoorbeeld:
<link rel="stylesheet" href="/css/tabellen.css" type="text/css" media="all">
Dit maakt de tekst op de pagina die overblijft overzichtelijker en daarmee interessanter voor de webcrawler.
Javascript en menu's
Menu-opties die met behulp van Javascript gemaakt/gegenereerd zijn, zijn niet leesbaar voor de webcrawlers. Ze zijn dus ook niet in staat de links te volgen. Simpele test is hier: Javascript uitzetten in de browser en bekijken wat er nog werkt.
HTML: Do's
Als u effectieve pagina's wilt maken die zowel menselijk bezoekers als webcrawlers aanspreken, moet u zo veel mogelijk zien te halen uit elk element. Een manier is zo veel mogelijk de attributen ALT en TITLE te gebruiken.
Het ALT attribuut is ontworpen als alternatieve tekstbeschrijving voor plaatjes. ALT teksten worden getoond voor het plaatje wordt geladen in de meeste browsers. In tekst gebaseerde browsers als LYNX wordt alleen de ALT tekst gezien. En robots of webcrawlers zien pagina's zoals een tekst browser als LYNX dat doet.
Maak de teksten in ALT en TITLE niet langer dan – volgens diverse bronnen - 65 tekens omdat bepaalde browsers deze teksten op één regel tonen.
Afbeeldingen
- Geef afbeeldingen een duidelijke naam en voeg Alt-tekst en Title-tekst toe.
<img id="logo" title="WalMar Home Page" alt="WalMar logo" src="images/walmar/walmar.png" height="100">
Hyperlinks
- Gebruik belangrijke keywords als "anchor tekst" in hyperlinks
- Voorzie hyperlinks van een Title
<a href="tips.htm" title="tips en trucs voor diverse software">Tips & trucs</a>
- Test op correcte hyperlinks
Testen kan bijvoorbeeld met Xenu . Dit is een SEO tool die bedoeld is om uw website te controleren op kapotte links. Het programma doet dit door alle links op je website te volgen en bestanden op je website aan te vragen. Hiermee simuleert Xenu in zekere zin het gedrag van een webcrawler:
http://home.snafu.de/tilman/xenulink.html
Titel voor elke pagina
- Geef elke pagina een aparte, passende, titel met daarin de de zoektermen waarop u gevonden wilt worden; met behulp van webtalen is dat per gezocht resultaat te variëren!
<title>WalMar Database Consultancy: kernactiviteiten</title>
Gebruik koppen voor belangrijke content en trefwoorden
- Bouw content op met header tags (H1, H2 etc.)
- Gebruik <B> en/of <STRONG> tags om woorden te benadrukken
Geef pagina's herkenbare namen
- Bouw de URL's van pagina's correct op dus niet met cijfers en/of codes maar met herkenbare termen
- Zorg dat de URL's de keywords waar u op gevonden wilt worden bevatten
Meta tag description
- Geef elke pagina een goede description
<META name=description content="WalMar Database Consultancy">
De webcrawler van Google bijvoorbeeld gebruikt de meta description wel degelijk in de zoekresultaten. Als Google te weinig relevante content op een webpagina vindt na een zoekopdracht, plaatst Google de meta description in de zoekresultaten. Daarom is het nog steeds belangrijk om de meta description per pagina in te vullen met een volledige, unieke en wervende beschrijving.
Meta tag keywords
Hier circuleren heel verschillende meningen over. Google zou deze keywords geheel negeren; andere webcrawlers niet. Misschien moet hier het credo gelden: baat het niet, dan schaadt het niet!
Meta tag googlebot
Soms staat er bij Google een oude meta tag, namelijk de description tag. Ondanks dat u iedere keer uw site aanpast, blijft deze hetzelfde in de Google resultatenlijst. De meta description tag is wel correct in zoekmachines opgenomen bij bijvoorbeld Yahoo en bij Bing maar dus niet bij Google.
Dit probleem komt voort uit uw vermelding bij het Open Directory Project DMOZ. De website, met de oude meta description, heeft een beschrijving en een link in de ODP listings (Open Directory Projec). De Googlebot heeft bij het spideren van uw site deze beschrijving overgenomen.
<meta name="googlebot" content="noodp">
Hiermee geeft u aan dat de Googlebot niet de beschrijving moet overnemen van ODP, maar van die van uw website.
Meta tag robots
Als u wilt dat de spider van de zoekmachine uw hele website doorloopt ( meta tags indexing ) dan kunt u bijvoorbeeld de volgende metatag in de broncode van uw website plaatsen:
<meta name="robots" content="index, follow">
In het onderstaande voorbeeld kijkt de spider niet alleen naar de eerste pagina maar ook naar de achterliggende pagina's van de website:
<meta name="robots" content="all">
index = deze pagina indexeren
noindex = deze pagina niet indexeren
follow = de links die op deze pagina staan volgen
nofollow = de links die op deze pagina staan niet volgen.
De spider mag wel de tekst op een pagina maar niet de plaatjes indexeren:
<meta name="robots" content="noimageindex">
De spider mag de tekst, de plaatjes maar niet het pad naar de plaatjes indexeren
<meta name="robots" content="noimageclick">
Meer informatie over metatags vindt u op www.metatags.nl .
HTML: Don'ts
- Maak geen gebruik van (I-)Frames
- Belangrijke onderdelen van de site niet in Flash opmaken
Test met een tekst browser
Test uw pagina's met een tekst browser als LYNX. Dat is namelijk hoe web crawlers uw pagina's waarnemen.
Homepagina
Plaats op de homepagina een meta tag die er zo uit ziet:
<meta name="google-site-verification" content="qxao0krZGE9n7s7fO4BR-ky8" />
Van Google: een site toevoegen en verifiëren:
- Meld u aan bij de Webmasterhulpprogramma's van Google met uw Google-account.
- Klik op 'Een site toevoegen' en typ de URL van de site die u wilt toevoegen. Zorg ervoor dat u de gehele URL typt, bijvoorbeeld http://www.example.com/.
- Klik op 'Doorgaan'. De pagina 'Siteverificatie' wordt weergegeven.
- (Optioneel) Typ in het vak 'Naam' een naam voor uw site (bijvoorbeeld 'Mijn blog').
- Selecteer de gewenste verificatiemethode.
- Metatag : u wordt gevraagd een metatag met een unieke waarde toe te voegen aan de startpagina van uw site. Dit is de eenvoudigste oplossing als het bewerken van de HTML van uw startpagina gemakkelijker is dan het uploaden van nieuwe bestanden. Daarnaast kunt u op deze manier eenvoudig sites verifiëren die u heeft gemaakt met Google Sites .
- HTML-bestand : u wordt gevraagd een bestand te maken met een bepaalde naam en dit te uploaden naar een bepaalde directory op uw webserver. Het bestand mag leeg zijn. We zijn alleen geïnteresseerd in de locatie van het bestand, niet in de inhoud.
